Ir para o conteúdo

Registro de atividades

Esse documento visa organizar e relatar o rastreio simplificado de atividades do projeto. Além disso, dispõe de histórico e resumo das reuniões realizadas. As atualizações são adicionadas a esse escopo semanalmente.

Relatório 01 – 12/06/2023 a 18/06/2023

12/06/2023 – 1ª Reunião

Resumo da reunião: Houve a reunião na segunda-feira entre os horários estabelecidos pelo grupo no período da tarde entorno das 14:00 às 18:00, onde foi esclarecido as dúvidas e informações sobre o projeto em andamento. Foi discutido o conteúdo do projeto e os objetivos para inicio de planejamento.

Conteúdo da reunião: Descrição do projeto (PLN), discursão sobre as ferramentas (Bibliotecas e ferramentas de produção), questões de organização do projeto e formas de comunicação.

Plataforma de gestão: Zenhub.

Comunicação: Discord

Pesquisa: O uso do Spacy para processamento de Linguagem Natural, PLN e Scikit-Learn (para Machine Learning e modelos de clusterização ou classificação).

Tarefas iniciais dos membros:

Membros da equipe Tarefas Período Status
Leandro Santos Adicionar membros ao repositório do github 12/06 - 19/06 INICIADO
João Pedro Configuração do zenhub 12/06 - 19/06 INICIADO
Leandro Silva Criação do servidor do Discord 12/06 - 19/06 INICIADO
Alexandre Compartilhar conteúdo sobre o Spacy 12/06 - 19/06 INICIADO
Chaydson Compartilhar conteúdo sobre scikit-learn 12/06 - 19/06 INICIADO

Atividades da semana
Durante a semana a equipe buscou estudar e completar as primeiras tarefas para próxima reunião.

13/06/2023

Incluído todos da equipe ao repositório do GitHub, como administradores.

Criado o canal de comunicação da equipe no Discord

16/06/2023

Foi repassado uma planilha para definição de horário presencial definitivo. Todos os membros definiram seus horários presenciais e foi encaminhado para a BRISA. Estabeleceu-se o horário de reunião após o encontro de Stand-up.

Adicionado requisito para a próxima reunião: O contato do cliente e modulagem do produto.

18/06/2023

Houve uma dificuldade em conectar o Zenhub ao repositório GitHub, assim o modelo inicial de gestão foi substituído pelo Kanban.

Membros da equipe Tarefas Período Status
Leandro Santos Adicionar membros ao repositório do github 12/06 - 13/06 FINALIZADO
João Pedro Configuração do zenhub 12/06 - 19/06 CANCELADO
Leandro Silva Criação do servidor do Discord 12/06 - 19/06 FINALIZADO
Alexandre Compartilhar conteúdo sobre o Spacy 12/06 - 19/06 FINALIZADO
Chaydson Compartilhar conteúdo sobre scikit-learn 12/06 - 19/06 FINALIZADO

Relatório 02 – 19/06/2023 a 25/06/2023

19/06/2023 – 2ª Reunião

Resumo da reunião: Foi apresentado a biblioteca Spacy e a primeira reunião com o cliente. A disponibilidade para os encontros com o cliente ficou estabelecido de terça a quinta pela manhã e à tarde das 14h às 16h. A equipe apresentou os resultados semanais para partes envolvidas.

Conteúdo da reunião: Atribuir as tarefas do projeto um modelo de predição, um modelo para classificar as propostas do Brasil Participativo nas categorias (baseadas nos ministérios) listadas no site. Foi disponibilizado o arquivo Zip contendo as propostas em planilha.

Tarefas adicionais:

Tarefas Período Status
Integrar o modelo com o ruby 19/06 DISPONÍVEL
Criar subcategorias com base nos temas apresentados nas propostas 19/06 DISPONÍVEL
Modelo de predição/classificação de discurso de ódio 19/06 DISPONÍVEL

Atividades da semana
Durante a semana todos as dúvidas sobre como apresentar as informações das tarefas ou dos problemas (issues) foram resolvidas. A equipe se dedicou em estudar e procurar entender as bibliotecas e ferramentas apresentadas.

20/06/2023

Foi adicionado as tarefas iniciais para dentro do repositório, também foi criado o Project no Kanban em título com o nome de “Project tasks”.

21/06/2023

O Jupyter foi escolhido para fazer os cadernos de apresentação ou tutorial do código no repositório.

Relatório 03 – 26/06/2023 a 02/07/2023

26/06/2023 – 3ª Reunião

Resumo da reunião: Designou-se as duplas responsáveis pelas tarefas do projeto com definição de um prazo estipulado até 10/07/2023, refino do projeto e ciclo de planejamento mais claro, criação do MVP (Produto de mínima viabilidade), adição do trabalho de conclusão para aprendizado da categorização não supervisionado pela tutoria e planilha atualizada das propostas.

Conteúdo da reunião: Detalhes sobre o TCC de categorização não supervisionado.

Adição do grupo por convite ao GitHub Project.

Tarefas adicionais:

Membros da Equipe Tarefas Período Status
Leandro Santos e Alexandre Documentação do processo de desenvolvimento do produto 26/06 INICIADO
Alexandre e Chaydson Pré-processamento dos dados 26/06 - 10/07 INICIADO
João Pedro e Leandro Silva Criar um script para buscar os dados automaticamente 26/06 - 10/07 INICIADO

Tarefas disponíveis:

Tarefas Período Status
Integrar o modelo com o ruby 19/06 DISPONÍVEL
Criar subcategorias com base nos temas apresentados nas propostas 19/06 DISPONÍVEL
Modelo de predição/classificação de discurso de ódio 19/06 DISPONÍVEL

Essas tarefas serão iniciadas no final da criação do MVP. Elas são otimizações posteriores.

Atividades da semana
Conforme foi esclarecido em reunião foi designado tarefas para cada dupla. Então, essa semana envolveu a pesquisa modelos parecidos para tarefas do uso de ferramentas para suprir o conteúdo do projeto.

28/06/2023

Adicionado as issues no Kaban 29/06/2023

Adicionado o arquivo requirements.txt nas dependências do repositório.

30/06/2023

O grupo de extração de dados explorou a biblioteca BeautifulSoup4.

O grupo de pré-processamento explorou as bibliotecas Pandas e Spacy.

O grupo de documentação acompanhou o andamento da equipe para iniciar uma introdução ao notebook.

Relatório 04 – 03/07/2023 a 09/07/2023

03/07/2023 – 4ª Reunião

Resumo de reunião: Acompanhamento dos membros da equipe com apresentação dos relatórios semanais.

Conteúdo da reunião: Não houve acréscimo de tarefas, a equipe esteve trabalhando nas tarefas designadas.

Tarefas semanais:

Membros da Equipe Tarefas Período Status Bibliotecas
Leandro Santos e Alexandre Documentação do processo de desenvolvimento do produto 26/06 EM ANDAMENTO Jupyter
Alexandre e Chaydson Pré-processamento dos dados 26/06 - 10/07 EM ANDAMENTO Pandas e Spacy
João Pedro e Leandro Silva Criar um script para buscar os dados automaticamente 26/06 - 10/07 EM ANDAMENTO BeatifulSoup4

Tarefas disponíveis:

Tarefas Período Status
Integrar o modelo com o ruby 19/06 DISPONÍVEL
Criar subcategorias com base nos temas apresentados nas propostas 19/06 DISPONÍVEL
Modelo de predição/classificação de discurso de ódio 19/06 DISPONÍVEL

Essas tarefas serão iniciadas no final da criação do MVP. Elas são otimizações posteriores.

Atividades da semana
Durante esse período as equipes se dedicaram em finalizar e alinhar as informações do código de seus grupos correspondentes ao escopo do repositório.

05/07/2023

O grupo de extração de dados finalizou o script para ser apreciado entre os outros membros do grupo, logo após a conclusão a atualização será enviada para main do repositório.

06/07/2023

A equipe de documentação iniciou o relatório do MVP para o cliente.

Relatório 05 – 10/07/2023 a 16/07/2023

10/07/2023 – 5ª Reunião

Resumo de reunião: Nesta reunião foi esclarecido que o período de incremento das propostas no site do Brasil participativo seria finalizado no dia 16 julho às 22 horas. O relatório semanal foi repassado para o tutor, responsável pelo produto. Informações de refino e aprimoramento do produto foi dito para alinhamento do projeto.

Conteúdo da reunião: As tarefas anteriores desenvolvidas e finalizadas, pesquisa de bibliotecas para etapa de treinamento do modelo. Previsão da documentação do produto ser adicionada ao escopo.

Tarefas semanais:

Membros da Equipe Tarefas Período Status Bibliotecas
Leandro Santos e Alexandre Documentação do processo de desenvolvimento do produto 26/06 EM ANDAMENTO Jupyter
Alexandre e Chaydson Pré-processamento dos dados 26/06 - 10/07 FINALIZADO Pandas e Spacy
João Pedro e Leandro Silva Criar um script para buscar os dados automaticamente 26/06 - 10/07 FINALIZADO ZipFile

Houve a substituição da biblioteca principal que estava sendo usada inicialmente no grupo responsável pela extração de dados, isso se deu pelo fato do arquivo disponibilizado no site ser em formato Zip e as propostas finalizadas em 16 de julho de 2023.

Tarefas disponíveis:

Tarefas Período Status
Integrar o modelo com o ruby 19/06 DISPONÍVEL
Criar subcategorias com base nos temas apresentados nas propostas 19/06 DISPONÍVEL
Modelo de predição/classificação de discurso de ódio 19/06 DISPONÍVEL

Essas tarefas serão iniciadas no final da criação do MVP. Elas são otimizações posteriores.

Atividades da semana:
Durante a semana a equipe colocou em disposição as novas bibliotecas e procurou pesquisar modelos parecidos para aplicar a nova tarefa de treinamento de modelo.

10/07/2023

O grupo responsável pela tarefa de pré-processamento finalizou o código e encaminhou o pedido de atualização de registro para apreciação do restante da equipe.

16/07/2023

Finalização no cadastramento de novas propostas do Brasil participativo. O programa teve entorno de 8000 propostas adicionadas.

Relatório 06 – 17/07/2023 a 23/07/2023

17/07/2023 – 6ª Reunião

Resumo de reunião: Não houve acompanhamento nesta semana, então a equipe dedicou em aprimorar a pesquisa para o treinamento do modelo.

Conteúdo da reunião: Não houve acréscimo de tarefa, foi incorporado novas tarefas posteriormente.

Membros da Equipe Tarefas Período Status Bibliotecas
Leandro Santos e Alexandre Documentação do processo de desenvolvimento do produto 26/06 EM ANDAMENTO Jupyter

Tarefas disponíveis:

Tarefas Período Status
Integrar o modelo com o ruby 19/06 DISPONÍVEL
Criar subcategorias com base nos temas apresentados nas propostas 19/06 DISPONÍVEL
Modelo de predição/classificação de discurso de ódio 19/06 DISPONÍVEL

Atividades da semana:

17/07/2023

Adição do Dataset de notícias contendo manchetes de várias categorias de notícias entre 2012 e 2022 do site HoffPost. Esse documento é atualizado anualmente.

https://www.kaggle.com/datasets/rmisra/news-category-dataset

18/07/2023

Atualização das fontes nas issues correspondentes.

19/07/2023

Postagem de um código alternativo na pasta de pré-processamento do repositório.

Adição da pasta “benchmark” ao repositório para registro de atividades de treinamento de modelos e informação dos modelos estudados. A tarefa foi designada para maioria do grupo por essa parte demandar tempo e mais esforço do hardware do computador.

Fornecimento de um documento base para registro da documentação, posteriormente será alterada.

Membros da Equipe Tarefas Período Status Bibliotecas
Leandro Santos e Alexandre Documentação do processo de desenvolvimento do produto 26/06 EM ANDAMENTO Jupyter
Alexandre, Chaydson, João Pedro e Leandro Silva Benchmark 19/07 INICIADO scikit-Learn

20/07/2023

Realização do 1º treino do modelo por meio da biblioteca do Scikit-Learn com o conjunto de dados disponibilizado.

22/07/2023

Pesquisa e estudo k-vizinhos e apresentação de um notebook para a pasta Benchmark.

23/07/2023

Alterações e incremento de informações ao relatório do MVP com adição do código de pré-processamento.

Realização do 2º treino do modelo usando o K-vizinhos com o conjunto de dados.

Relatório 07 – 24/07/2023 a 30/07/2023

30/07/2023 – 7ª Reunião

Resumo da reunião: Explorando o contexto do projeto algumas atualizações foram adicionadas para o período de férias que ficou definido pela BRISA, essas informações serão adicionadas abaixo no conteúdo da reunião. Houve a criação de um cronograma para o período de férias e reforço para iniciar após o treinamento do modelo a parte de subcategorização. Apresentação do pipeline do MVP e do relatório de tarefas semanal.

Conteúdo da reunião: Apresentação do desenvolvimento do trabalho após o período de férias, postar a acurácia do treino para avaliação geral do modelo que será usado.

Esboço do Cronograma e os sprints propostos:

  • 17/07 > Seleção de um algoritmo individual por parte de cada membro responsável pelo grupo de treinamento de modelo.

  • 24/07 > Durante essa semana a avaliação do algoritmo e otimizar para acurácia desejada.

  • 31/07 > Semana seguinte, apresentado para a próxima reunião, avaliação em grupo sobre as métricas e uso do modelo mais adequado ao projeto com maior acurácia.

  • 07/08 > Início das tarefas de subcategorização e refino e ênfase para a documentação do projeto.

Tarefas semanais:

Membros da Equipe Tarefas Período Status Bibliotecas
Leandro Santos e Alexandre Documentação do processo de desenvolvimento do produto 26/06 EM ANDAMENTO Jupyter
Alexandre, Chaydson, João Pedro e Leandro Silva Benchmark 19/07 EM ANDAMENTO Scikit-Learn, knn, Naive Bayes, TextCat, SVM

Tarefas disponíveis:

Tarefas Período Status
Integrar o modelo com o ruby 19/06 DISPONÍVEL
Criar subcategorias com base nos temas apresentados nas propostas 19/06 INICIADO
Modelo de predição/classificação de discurso de ódio 19/06 DISPONÍVEL

A tarefa de criar subcategoria ainda não foi iniciada no momento, mas existe uma data provável para sua abertura definida para o dia 07/08, o grupo ainda está trabalhando em prover a melhor acurácia para o modelo.

As otimizações restantes serão adicionadas no término do treinamento do modelo.

Atividades da semana:

24/07/2023

Adicionado o exemplo do KNN ao repositório

25/07/2023

Melhorias para o pré-processamento dos modelos estudados.

27/07/2023

Pesquisa sobre análise de sentimento adicionado ao repositório.

28/07/2023

Adicionado um novo script para baixar e extrair o arquivo Zip do site, uma alternativa ao script anterior da pasta de extração de dados.

Sobre o site do brasil Participativo, foi adicionado ao entendimento e juízo da equipe o relatório da plataforma.

Uso da biblioteca Selenium no novo script de extração de dados.

Relatório 08 – 31/07/2023 a 06/08/2023

30/07/2023 – 8ª Reunião

Resumo da reunião: Para essa reunião no contexto que foi acrescentado ao cronograma da equipe, o resumo se baseia na avaliação dos modelos adicionados na pasta benchmark, relatório semanal de atividades sobre o treinamento e informações para otimizar a acurácia dos testes visualizados. Além de informar a atualização da documentação do MVP para o cliente.

Conteúdo da reunião: A ocorrência de uma reunião geral entre as equipes no dia 02/08

Na reunião de 02/08 com os tutores da BRISA, foi debatido entre as equipes dos projetos a elaboração do quadro de funções dos membros de cada time, a criação de um deploy informativo sobre atualizações constantes de atividades e um relatório ou registro gráfico de título “RoadMap” para histórico de tarefas individuais e a exploração das ideias.

Sobre o quadro de funções, foi explanado os perfis do quadro de funções:

Scrum Master – Definição de tarefas, garante as reuniões aconteçam. Revisa os códigos e garante que todo mundo esteja atualizando as tarefas

Product Manager – Detalha roadmap, cria as issues, organiza o Git Porject e marca as reuniões com os stakeholders (as partes envolvidas no projeto).

Lider Técnico – Estuda as ferramentas antes de todo mundo e passa os conhecimentos para os demais da equipe.

Community Manager: Desenvolve a marca do produto para os clientes. Machine Learning: Responsável pela construção e manutenção dos algoritmos de machine learning.

Tarefas semanais:

Membros da Equipe Tarefas Período Status Bibliotecas
Leandro Santos e Alexandre Documentação do processo de desenvolvimento do produto 26/06 EM ANDAMENTO Jupyter
Alexandre, Chaydson, João Pedro e Leandro Silva Benchmark 19/07 EM ANDAMENTO Scikit-Learn, knn, Naive Bayes, TextCat, SVM

Tarefas disponíveis:

Tarefas Período Status
Integrar o modelo com o ruby 19/06 DISPONÍVEL
Criar subcategorias com base nos temas apresentados nas propostas 19/06 INICIADO
Modelo de predição/classificação de discurso de ódio 19/06 DISPONÍVEL

A tarefa de criar subcategoria ainda não foi iniciada no momento, mas existe uma data provável para sua abertura definida para o dia 07/08, o grupo ainda está trabalhando em prover a melhor acurácia para o modelo.

As otimizações restantes serão adicionadas no término do treinamento do modelo.

Atividades das semana:

31/07/2023

Pesquisa da Biblioteca WordCloud Adição de mais uma biblioteca para Support Vector Machine (SVM)

02/08/2023

Reunião de todos os grupos com intuito de alinhamento e refino nas informações despejadas no repositório

03/08/2023

Debate sobre as informações explanadas na reunião de quarta.

Adição do quadro de papeis da equipe

Quadro de funções do nosso grupo:

Função Nome
Scrum Master Leandro Santos
Lider Técnico Chaydson
Product Manager Leandro Silva
Community Manager João Anacleto
Machine Learning Alexandre Oliveira

Adição do deploys e páginas para atualização do documento do projeto.

https://residenciaticbrisa.github.io/07_ProcessamentoLinguagemNatural/

Relatório 09 – 07/08/2023 a 13/08/2023

07/08/2023 – 9ª Reunião

Resumo da reunião: Os integrantes do grupo prontificaram em reportar os novos modelos de treinamento com os notebooks na pasta de benchmark. Após a reunião com os integrantes da BRISA realizada na última semana, foi discutido a aplicação de um roteiro para os próximos 3 meses de trabalho. Também foi definido o início da pesquisa de otimização de discurso de ódio com uso de análise de sentimento, revisão da documentação do MVP com ênfase na finalização e encaminhamento dos documentos para inclusão no deploy.

Conteúdo da reunião: Foi confirmado que o modelo mais apropriado, o de melhor acurácia, escolhido foi o SVM (Support Vetorial Machine), em tradução livre para português significa Máquina de Suporte Vetorial.

Tarefas semanais:

Membros da Equipe Tarefas Período Status Bibliotecas
Leandro Santos e Alexandre Documentação do processo de desenvolvimento do produto 26/06 EM ANDAMENTO Jupyter
Alexandre, Chaydson, João Pedro e Leandro Silva Benchmark 19/07 - 10/08 FINALIZADO Scikit-Learn, knn, Naive Bayes, TextCat, SVM
Leandro Silva Criação do GitPage 07/08 INICIADO Mk Docs
João Pedro Análise de sentimento 07/08 INICIADO Recurso: Td-IDF

A análise de sentimento descrita na tabela faz parte de uma pesquisa realizada pelo integrante do grupo para complementação de estudo na otimização de discurso de ódio.

Tarefas adicionais:

Tarefas Período Status
Integrar o modelo com o ruby 19/06 DISPONÍVEL
Criar subcategorias com base nos temas apresentados nas propostas 19/06 INDISPONÍVEL
Modelo de predição/classificação de discurso de ódio 19/06 INICIADO

Algumas tarefas ainda serão iniciadas, após a breve finalização da primeira versão do MVP e no estudo do roteiro.

Depois do planejamento do roteiro, outras tarefas relacionadas as otimizações do projeto precisarão de um intervalo para implementação no desenvolvimento.

A implementação das tarefas ocorrerá depois da primeira liberação de grupo (1 Release). Neste dia estarão concluídas algumas ou todas as etapas de planejamento para o roteiro.

A impossibilidade de continuar na criação de subcategorias se deu pelo fato que algumas categorias possuírem poucas propostas, a expansão dos temas dificultaria o treinamento de modelo e consequentemente diminuiria a eficácia do algoritmo.

Atividades da semana:
A maioria do grupo dedicou em pesquisar e procurar novos tipos de métodos para acrescentar ao plano escolhido na melhoria do modelo. Além disso, houve uma reunião na quinta para alinhamento da equipe e para derivação das novas tarefas.

07/08/2023

Criação da tarefa “Criação do GitPage”.

Criação da tarefa “Análise de Sentimento”.

10/08/2023

Finalização da tarefa de treinamento de modelos “Benchmark”

Início da construção na documentação no tópico de pré-processamento.

11/08/2023

Definição para construção do RoadMap.

Relatório 10 – 14/08/2023 a 20/08/2023

14/08/2023 – 10ª Reunião

Resumo da reunião: Na reunião foi repassado o dia para a primeira Release que ficou marcada para quarta-feira,16 de agosto de 2023. Foi atualizado as páginas para o gh-pages no repositório, definido um cronograma para o planejamento do roteiro, as considerações finais para o término do MVP e a documentação, resolução sobre a pesquisa realizada em análise de sentimento, aproveitamento dos datasets públicos para treinamento do modelo e os registros semanais atualizados para auditoria dos tutores.

Conteúdo da reunião: O esboço do roteiro foi apresentado e a distribuição das tarefas de otimizações para serem incrementadas mensalmente, as tarefas ainda entrarão no repositório com a atualização do roteiro com a colocação da aba de Roadmap ao lado do Kanban.

A auditoria do grupo de tutores ainda é importante para apontamento de mudanças no planejamento do Roadmap, a colocação de pontos que somente será entregue no dia do Release.

O âmago do nosso trabalho de desenvolvimento esteve sempre atrelado ao acompanhamento do MVP e a documentação e implantação de novas tarefas com ênfase no processo do produto.

Os relatórios semanais serão consequentemente importantes para o registro na página do nosso projeto, eles serão colocados ainda na próxima semana.

Tarefas semanais:

Membros da Equipe Tarefas Período Status Bibliotecas
Leandro Santos e Alexandre Documentação do processo de desenvolvimento do produto 26/06 - 15/08 FINALIZADO Jupyter
Leandro Silva Criação do GitPage 07/08 - 16/08 FINALIZADO Mk Docs
João Pedro Análise de sentimento 07/08 - 16/08 FINALIZADO Recurso: Td-IDF

Após a finalização de todas as tarefas semanais, nosso grupo realizou as atualizações para o roteiro, ainda não definitivo, por esperar os apontamentos na primeira Release, algumas questões precisam ser debatidas com término da MVP.

Uma das questões principais era que o modelo ainda não poderia ser usado, pois sua acurácia ainda era muito baixa e essa relação dependia principalmente do número de propostas para cada categoria, algumas com muito pouco e outras com uma quantidade considerável. Os conjuntos de dados que são responsáveis para o treinamento não tinham uma semântica próxima ao que era descrito nas propostas, entretanto ainda era possível fazer predições na maioria das categorias. Então tornou-se necessário a procura de novas informações e novos de conjuntos de dados para conseguir atingir o objetivo do nosso projeto.

Como definido durante a semana, as tarefas de otimização passarão a integrar a planilha do roteiro com os pedidos que vão ser distribuídos para a equipe mensalmente. O conceito é implementar as tarefas de otimização no final do mês, permitindo a abertura de novas otimizações no início de cada mês até a finalização do projeto e apresentação final.

As pesquisas e obrigações no roteiro foram designados pela função e conhecimento de cada integrante do grupo, as atividades serão colocadas no repositório na aba do roadmap e no Kaban com as descrições do que está sendo feito.

Todos resumos e atividades serão registradas para esse documento, informando as datas e os términos.

Resumo das tarefas para setembro:

Membros da Equipe Tarefas Período Status
Chaydson e Leandro Silva Ruby: Pesquisa implantação ao sistema. 04/09 - 01/10 DISPONÍVEL
Alexandre Few-shot: Pesquisa e validação 04/09 - 01/10 DISPONÍVEL
João Pedro SLClassifier v1.0.0: Otimizações 04/09 - 24/09 DISPONÍVEL
Leandro Santos Registro de atividades semanais 04/09 - 01/10 DISPONÍVEL
João Pedro Entregar o modelo com 80% de acurácia 25/09 - 01/10 DISPONÍVEL

Esse quadro está suscetível a mudanças. As informações foram extraídas do Roadmap do repositório que dispõe de um melhor detalhamento delas.

Atividades da semana:
Essa semana foi definida a data da reunião para primeira apresentação do produto. Nossa equipe organizou as informações em slides. Todas as tarefas semanais anteriores foram compridas. As novas foram designadas posteriormente após a implantação do Roadmap.

14/08/2023

O esboço do Roadmap foi apresentado ao grupo As conclusões do treinamento de modelo foram revistas pelos membros do grupo.

15/08/2023

Finalização do notebook de documentação do MVP Os preparativos para reunião ficaram prontos.

16/08/2023

Finalizado a análise de sentimento.

Finalizado a revisão do gh-page.

Foi realizado a apresentação com todos os integrantes presentes.

Em relação ao apontamento dos tutores ficou designado a apresentação do Roadmap definitivo e a adição ao repositório até a próxima semana, aplicação de um novo conjunto de dados para treinamento do modelo, confirmações de tarefas, apresentação de documentação e registros semanais ao gh-page.

17/08/2023

Apresentação de um modelo com SVM, td-idf e ngram com 60% de acurácia e colocação da entrega do produto e versionamento de dados.

19/08/2023

Houve uma reunião neste dia para definição e finalização das tarefas, sprints e ideias do Roadmap.

Relatório 11 – 21/08/2023 a 27/08/2023

21/08/2023 – 11ª Reunião

Resumo da reunião: Não houve acompanhamento com o cliente, entretanto em relação a primeira release realizada na semana passada, a equipe de tutores apontou alguns aspectos importantes com interesse no detalhamento da documentação, registro de atividades e o uso de um conjunto de dados disponíveis em sites do governo federal, essas informações foram discutidas e apreciadas pela equipe.

Conteúdo da reunião: Com entendimento sobre os aspectos levantados na reunião, a equipe entrou em um consenso e designou os integrantes responsáveis pelas novas tarefas semanais.

Das questões relacionadas a documentação, foi averiguado pela equipe que era necessário relatar o fluxo de trabalho, disponibilizar a arquitetura do modelo e encaminhar os registros de atividades ao gitPages.

Em relação ao desenvolvimento do produto, algumas dificuldades relatas anteriormente precisavam de maior atenção durante a semana, além da documentação que era importante com o intuito de rastreamento com parte da BRISA, houve também o pedido para uso do conjunto de dados públicos de outros sites disponíveis do governo federal, em definitivo para melhoria da acurácia do modelo.

Tarefas semanais:

Membros da Equipe Tarefas Período Status
Leandro Santos Registro de Atividades 21/08 - 27/08 INICIADO
Alexandre Criação da Arquitetura 21/08 - 27/08 INCIADO
João Pedro Treinamento do modelo com a pesquisa de conjunto de dados públicos 21/08 - 27/08 INICIADO

Resumo das tarefas de Setembro:

Membros da Equipe Tarefas Período Status
Chaydson e Leandro Silva Ruby: Pesquisa implantação ao sistema. 04/09 - 01/10 DISPONÍVEL
Alexandre Few-shot: Pesquisa e validação 04/09 - 01/10 DISPONÍVEL
João Pedro SLClassifier v1.0.0: Otimizações 04/09 - 24/09 DISPONÍVEL
Leandro Santos Registro de atividades semanais 04/09 - 01/10 DISPONÍVEL
João Pedro Entregar o modelo com 80% de acurácia 25/09 - 01/10 DISPONÍVEL

Atividades da semana:
Teve alguns contratempos, foi marcado outra release, agora com todos os membros da BRISA para quinta-feira. Então os integrantes que estavam disponíveis foram designados para essa tarefa, de apresentação dos slides.

Sobre o treinamento, como a sintaxe era mais próxima do modelo, as mudanças na acurácia foram visíveis, porém algumas categorias não tiveram alterações nas suas performances, observadas na análise do modelo.

Nessa semana todas as demandas foram compridas e a reunião foi realizada com sucesso. Todas as pessoas equipe buscaram juntar as informações e os apontamentos que faltavam para detalhamento do projeto, entre elas estão as descrições concisas para o Roadmap, a arquitetura do modelo, o fluxo de trabalho do projeto e o registro de atividades no gitPage.

21/08/2023

O treinamento do modelo com o conjunto de dados públicos resultou em ótimos resultados, porém algumas mudanças ainda precisavam ser feitas, em nota as análises e resultados apresentados pelo modelo, as alterações que mais precisavam de atenção envolviam os tópicos com pouquíssimas propostas, o modelo não processava e de certa forma não categorizava todas corretamente. Apesar de encontrar essas dificuldades no projeto, o modelo concluiu o treinamento com uma acurácia acima de 70%, maior que o último estudado.

Com esses resultados, a equipe ainda tinha uma dúvida: "Como prosseguir com o modelo?". Visivelmente, o modelo precisava ser refinado, antes da devida implementação ao escopo principal do produto. Então ficou entendido entre todos os integrantes do grupo, que esses levantamentos deveriam ser repassados para os tutores. A apresentação seria esse espaço ideal para fazer essa pergunta.

22/08/2023

Finalizado os registros de atividades

Os relatórios ficaram disponíveis para auditoria dos tutores em mais um tópico no site, gitPages.

23/08/2023

Concluído a tarefa de criação da arquitetura do projeto. Ainda não definitivo, por que algumas alterações podem alterá-las no decorrer da conclusão das tarefas de otimização, essas características entram na descrição do roteiro.

24/08/2023

Realizado a apresentação com os membros da equipe e a dúvida sobre o treinamento de modelo foi concluída.

A pergunta sobre a possibilidade de implantar o modelo treinado com conjunto de dados públicos e acurácia elevada, mas ainda com problemas de categorização em alguns tópicos.

Em resposta a essa pergunta, os tutores disseram que isso não traria problemas. De qualquer forma, esse detalhe apresentado será revisto. A equipe de treinamento de modelo tendo ciência dessa questão ficará responsável de fazer os testes quando em fase de revisão do produto, talvez no último mês estabelecido no roteiro.

Sendo que a apresentação desse dia ajudou a alinhar o desenvolvimento do produto entre os tutores e professores. Todas as deliberações apresentadas foram serão apreciadas pela equipe.

Relatório 12 – 28/08/2023 a 03/09/2023

28/08/2023 – 12ª Reunião

Resumo da reunião: Não houve acompanhamento, todas as atividades da semana anterior foram finalizadas, não teve modificações no roteiro do projeto. Então, as tarefas posteriores seguem em sincronia ao roteiro planejado. Uma reunião foi realizada com a cliente na sexta-feira.

Conteúdo da reunião: A equipe se preocupou em preparar e retirar as últimas dúvidas com o cliente e os tutores. Dando sequência, as ideias de otimização para o escopo do projeto.

Como as etapas do fluxo de trabalho estão linearmente detalhadas, qualquer mudança no prazo afeta as outras tarefas posteriores e o próprio roteiro. As dúvidas que ainda debatidas inicialmente em grupo precisaram de uma conclusão definitiva, com o envolvimento de todos os membros e de reuniões elaboradas entre o cliente.

Questões no melhoramento do tratamento dos tópicos que não obtiveram a inferência desejada foram discutidas entre os membros da equipe. Com finalidade, de resolver a quantidade desproporcional de propostas entre elas.

Tarefas da semanais:

Membros da Equipe Tarefas Período Status
Leandro Santos Registro de Atividades 21/08 - 22/08 FINALIZADO
Alexandre Criação da Arquitetura 21/08 - 23/08 FINALIZADO
João Pedro Treinamento do modelo com a pesquisa de conjunto de dados públicos 21/08 - 23/08 FINALIZADO

Resumo das tarefas de Setembro:

Membros da Equipe Tarefas Período Status
Chaydson e Leandro Silva Ruby: Pesquisa implantação ao sistema. 04/09 - 01/10 DISPONÍVEL
Alexandre Few-shot: Pesquisa e validação 04/09 - 01/10 DISPONÍVEL
João Pedro SLClassifier v1.0.0: Otimizações 04/09 - 24/09 DISPONÍVEL
Leandro Santos Registro de atividades semanais 04/09 - 01/10 DISPONÍVEL
João Pedro Entregar o modelo com 80% de acurácia 25/09 - 01/10 DISPONÍVEL

Atividades da semana:
Como essa é a última semana que antecede os trabalhos de otimização definidas no roteiro, houve algumas modificações no desenvolvimento do MVP e a realização da reunião com o cliente.

28/08/2023

A arquitetura do modelo foi acoplada a aba de desenvolvimento no gitPage.

01/09/2023

Realizada a reunião com o cliente para solucionar as demandas e dúvidas do grupo.

A aplicação do modelo ao site Brasil Participativo e sua inferência foram apresentadas na reunião com o cliente.

Em conversa com cliente, as questões relacionadas a implantação do modelo ao site do Brasil Participativo foram descartadas, porque as medidas de segurança e privacidade desenvolvidas pelo sistema tornariam a tarefa de acoplamento mais complexa e penosa, consequentemente afetaria o fluxo do roteiro e impediria a equipe na aplicação de novas otimizações ao MVP vigente.

Em seguida, foi discutido uma ideia que ajudaria no aproveitamento de propostas para os tópicos que não obtiveram nenhum resultado significativo no treinamento.

Ela se baseia em aproveitar os comentários e discursões nas redes sociais relacionadas aos ministérios. Desse modo, o incremento e a formalização desses comentários em propostas contundentes aos tópicos respectivos, resolveriam os problemas de desbalanceamento das categorias e a inferência do modelo.

Esse método foi apreciado pelo cliente e adicionado ao roteiro da equipe.

A ocorrência de novos problemas ou dúvidas encerraram essa semana para continuidade no desenvolvimento do modelo, evitando principalmente que elas acumulem no decorrer do planejamento.

Relatório 13 – 04/09/2023 a 10/09/2023

Essa semana inicia a 2ª etapa dos trabalhos, finalizando as tarefas que antecedem o roteiro. Agora, os requerimentos seguem o painel de atividades e incluem novos desafios para o time. Portanto, os relatórios semanais sofreram algumas alterações na sua formatação, com ênfase na concisão e desenrolamento dos fatos registrados, tornando a leitura eficaz e menos cansativa.

De acordo com o fluxo de trabalho do produto, a fase de extração de dados e pré-processamento estão finalizadas. Em sequência ao desenvolvimento, segue-se para o treinamento de modelo.

Nessa etapa havia a necessidade de embutir algumas mudanças no conjunto de dados para atingir uma acurácia acima de 80%. Dito isso, pesquisas foram realizadas, envolvendo os responsáveis por essa tarefa, conforme o andamento do nosso roteiro.

Uma ideia foi apresentada ao cliente, ainda na semana anterior, com objetivo acabar com o desbalanceamento dos dados por tópico no treinamento.

A ideia comentada, visava aproveitar os comentários nas redes sociais relacionadas aos temas com pouquíssimas propostas, adequando-as em frases contundentes ao respectivo ministério. Dessa forma, eventualmente, o principal problema do treinamento do modelo seria concluído.

Essa tarefa entra em andamento na semana que vem, o responsável técnico fará testes para análise. No resultado, se supostamente, a acurácia do modelo alcançar patamares acima do esperado, uma nova versão será atualizada na arquitetura, após as evidências serem retratadas com os tutores. Por outro lado, se ocorrer o inverso, consequentemente, a equipe precisará buscar outras ferramentas, a fim de finalizar essa parte do treinamento, e possivelmente, avaliar as descobertas até o final do mês.

O Few-shot, uma alternativa, iniciada essa semana, que entra no contexto das pesquisas, procura processar os tópicos com poucos dados para agregar ao classificador de propostas (SLClassifier). O detalhamento das análises, artigos e comentários estudados pelo integrante responsável, segue na Issue #29 “Estudar/Pesquisar modelos few-shot”.

Realizou-se uma reunião, para a demanda da fase de utilização do modelo, que procede a do treinamento do modelo. Em virtude de, que o Brasil Participativo foi estabelecido na linguagem Ruby, iniciou-se as pesquisas e estudos para implementação do modelo ao sistema.

A utilização consiste em carregar o modelo em um formato ou arquivo serializado para que ele seja utilizado posteriormente ou acrescentado a um sistema. Inicialmente, foi utilizado a biblioteca Skops, que é nativa do Python, contudo ela não possuía suporte ao Ruby, impossibilitando a sua incorporação.

Em razão disso, nosso grupo procurou por outros formatos interoperáveis, úteis para uso do modelo em um ambiente diferente de onde o modelo é treinado para serialização, em substituição ao Skops, foi explorado o Open Neural Network Exchange (ONNX) e Predictive Model Markup Language (PMML).

ONNX é uma serialização binária do modelo. Foi desenvolvido para melhorar a usabilidade da representação interoperável de modelos de dados. O objetivo é facilitar a conversão dos modelos de dados entre diferentes estruturas de aprendizado de máquina e melhorar sua portabilidade em diferentes arquiteturas computacionais.

PMML é uma implementação do padrão de documento XML definido para representar modelos de dados juntamente com os dados usados ​​para gerá-los. Sendo legível por humanos e máquinas, PMML é uma boa opção para validação de modelos em diferentes plataformas e arquivamento de longo prazo. Por outro lado, assim como o XML em geral, sua verbosidade não auxilia na produção quando o desempenho é crítico.

Além disso, foi discutido a criação de uma gem, módulo do Ruby.

De acordo com o site oficial: “RubyGems é um sistema de pacotes Ruby que facilita a criação, compartilhamento e instalação de bibliotecas”. Dessa forma, garante que as inúmeras dependências do nosso modelo estejam disponíveis. Seguramente, finalize as solicitações do processo de utilização, com objetivo de categorizar os tópicos.

No tema pronunciado, ocorreu uma dúvida: Se manteríamos nosso modelo aberto ao público ou não.

Em reposta a essa discussão, optou-se, posteriormente, após a adesão do modelo ao sistema do Ruby, a apresentação da questão para ser retratada com cliente.

Foi marcado um evento no calendário, a terceira apresentação do produto, agora com os membros da Brisa e demais envolvidos para segunda-feira, 11 de setembro.

Tarefas de Setembro:

Membros da Equipe Tarefas Período Status
Chaydson e Leandro Silva Ruby: Pesquisa implantação ao sistema. 04/09 - 01/10 INICIADO
Alexandre Few-shot: Pesquisa e validação 04/09 - 01/10 INICIADO
João Pedro SLClassifier v1.0.0: Otimizações 04/09 - 24/09 INICIADO
Leandro Santos Registro de atividades semanais 04/09 - 01/10 INICIADO
João Pedro Entregar o modelo com 80% de acurácia 25/09 - 01/10 INICIADO

Atividades da semana:
Essa semana se resume as explanações supracitadas. Envolve na aprendizagem e pesquisa da equipe nos planos de atividades para treinamento e utilização do modelo. Os pedidos de registro de atividade semanais e entrega de um conjunto de dados consistente para movimentação do roteiro.

Devido a apresentação marcada para segunda-feira, 11 de setembro, os testes relacionados a inferência do modelo, foram atribuídos para próxima semana.

04/09/2023
Realizado a reunião semanal da equipe com foco nas demandas de utilização do modelo.

05/09/2023
Finalizado as exigências para apresentação.
Acrescentado artigos e descrições de estudo do Few-shot, na issue #29 “Estudar/Pesquisar modelos few-shot”.

06/09/2023
Encaminhado o relatório semanal, registro 12 para o repositório na aba “Registro de atividades”.

Relatório 14 – 11/09/2023 a 17/09/2023

Na segunda-feira, 11 de setembro, foi realizado a terceira apresentação com os integrantes da Brisa, professores e tutores envolvidos no projeto. Esse dia, reservado para esse encontro e com os outros grupos. Sendo assim, o alinhamento com o nosso cliente foi adiado para sexta-feira.

No final da apresentação foi destacado algumas informações, dentre elas, o andamento para serialização do produto para esse mês e as exigências para conclusão do treinamento do modelo. Visto que o sincronismo com o roteiro é de fundamental importância do projeto, os argumentos revistos em apresentação alinham-se do objetivo de entregar um classificador das propostas de precisão que segue os parâmetros para o desafio proposto, alinhamento acoplado ao sistema do Brasil Participativo e com as tarefas de otimização discutidas no planejamento.

As formas de integração do algoritmo Machine Learning ao Ruby, as otimizações de dados do algoritmo SLClassifier v1.0.0 e os resultados das pesquisas do modelo few-shot resumem-se ao escopo dessa semana.

As pesquisas e estudos para integração do sistema do Brasil Participativo entram em progresso, pré-definidos no roteiro, relatados na semana anterior.

Os tipos diferentes de modelos few-shot observados e explorados na semana anterior aparecem na issue #29, em resultado dos artigos estudados pelo responsável técnico.

Em resumo aos modelos few-shot estudados, nota-se que a direção da maioria deles são no uso de embeddings em conjunto ao cálculo de similiaridade por cosseno, mesma sugestão apresentada pelo professor no final da terceira apresentação.

O técnico também evidencia a baixa adesão da Linguagem de Processamento Natural para classificação de texto, dado simplesmente, pela dificuldade de possuir baixo uso de materiais qualitativos para aplicação real na indústria. Estendendo o uso de modelo few-shot ou zero shot para contornar esse problema. Contudo, ressalta-se a ausência de algoritmos para essa função. Em conclusão a pesquisa, apresenta-se 39 artigos com código baseado nestes modelos.

Os relatórios semanais foram registrados e formatados em outro padrão com intuito de tornarem os registros das atividades mais concisas e precisas.

As otimizações dos dados no SLClassifier (Classificador de aprendizagem supervisionada), partem em sequência a ideia informada anteriormente, na adição de propostas ao conjunto de dados e análise do primeiro teste.

Anteriormente, a avaliação demostrada no tópico da Casa Civil, nos gráficos vistos na aba de desenvolvimento do produto, entregava precisão de 0% para o respectivo tópico, já que possuía apenas 4 propostas disponíveis.

Após, o incremento das propostas simuladas para o tema definido, exatamente 40 delas, obteve-se resultados diferentes, antes com um F1score de 0% para 50% atuais, demonstrando tendência de melhoramento para algoritmo SLClassifier. Entretanto, ainda que cedo, essas conclusões destinam-se a tutoria, se aprovado, novos testes serão realizados para os demais tópicos, ainda esse mês, visando alcançar os desejados 80% ou mais na acurácia.

As formas de integração do algoritmo de aprendizado de máquina para o sistema Ruby, foi explicitado na semana anterior, com a pesquisa de formatos interoperáveis suportados pelo sistema, ONNX e o PMML, com ênfase no primeiro, por sua adequação das condições previstas na arquitetura do produto.

Na sexta ocorreu a reunião com o cliente. Divulgando os resultados das pesquisas feitas e retificando o fluxo de execução do trabalho entre os demais tutores.

Tarefas de Setembro:

Membros da Equipe Tarefas Período Status
Chaydson e Leandro Silva Ruby: Pesquisa implantação ao sistema. 04/09 - 01/10 EM ANDAMENTO
Alexandre Few-shot: Pesquisa e validação 04/09 - 01/10 EM ANDAMENTO
João Pedro SLClassifier v1.0.0: Otimizações 04/09 - 24/09 EM ANDAMENTO
Leandro Santos Registro de atividades semanais 04/09 - 01/10 EM ANDAMENTO
João Pedro Entregar o modelo com 80% de acurácia 25/09 - 01/10 EM ANDAMENTO

Atividades da semana:
Essa semana se resume as explanações supracitadas. A terceira apresentação, procura de otimizações para incorporação do modelo para o Ruby, o resultado da pesquisa e estudo dos modelos few-shots, testes realizados para o classificador de aprendizagem supervisionado, em treinamento do modelo e a reunião com o cliente com relatório semanal atualizado.

Assim, torna-se todas as tarefas sincronizadas ao roteiro.

11/09/2023
Realizada a terceira apresentação do produto.

13/09/2023
Concluído o teste do treinamento de modelo, com uso de propostas simuladas para tópicos irrisórios.
Finalizado as pesquisas e estudos de modelos few-shots na issue #29 no repositório.

15/09/2023
Realizado a reunião com o cliente e tutores.
Encaminhado o relatório semanal, registro 13 para o repositório na aba “Registro de atividades”.

Relatório 15 – 18/09/2023 a 24/09/2023

Essa semana salienta-se na validação dos testes realizados com aproveitamento das propostas simuladas, a continuidade para incorporação do modelo ao sistema Ruby, otimização do modelo few-shot e o controle do registro de atividades semanal.

Anteriormente, foi explorado o uso de propostas simuladas para os tópicos de baixo desempenho, iniciado pelo artigo da Casa Civil. Ao final do teste, foi visível a tendência de aperfeiçoamento do modelo. Por esse fato ser de grande importância, foi-se necessário validar essas informações com os tutores e professores responsáveis, observando as deliberações analisadas. Sendo assim, uma reunião online foi marcada para esse propósito na quarta-feira.

Dito isso, se houver aprovação na simulação das propostas, outros tópicos terão sequência para registro e versionamento de novos modelos, dado que o resultado obtido será utilizado para incorporação do modelo ao Ruby. Por outro lado, se ocorrer a desaprovação, será necessário explorar outros métodos e recursos para melhorar a sua pontuação. Visto que, existe uma alternativa, a pesquisa de métodos por few-shot, aproveitando-se de artigos e estudos, tarefa #29. Apesar disso, sua aplicação abrangeria todo o espaço de tempo para teste. Para contornar isso, um integrante responsável foi designado para os testes, conforme o roteiro vigente.

A reunião de quarta-feira não ocorreu, por alguns imprevistos, porém a equipe técnica responsável pelo aperfeiçoamento do modelo, entrou em contato no dia seguinte para esclarecer as análises realizadas.

Em resumo, a validação foi aceita com acréscimo de apenas algumas ressalvas no aperfeiçoamento do texto das propostas e agrupamento delas em somente uma planilha. Além disso, optou-se por formalizar um contexto contundente ao recolhido no site brasil participativo, no intuito de aproximar da linguagem popular. Visto que, as propostas simuladas tinham um teor genérico, por condicionar textos advindos de comentários e reclamações pessoais em rede sociais no ambiente informalizado.

A adequação das frases, tornava-as infinitivas e imperativas, consequentemente, caracterizando-as em críticas. Portanto, essa questão foi revista no mesmo dia, retornando propostas com conteúdo sugestivo com contexto de uma proposta. Assim, que a validação foi aceita, seguiu-se na realização das simulações os tópicos restantes com frases e contextos próximos do formato do site.

Ainda essa semana, iniciou-se o processo de incorporar os temas simulados em uma planilha.

Após o estudo do formato ONNX, o próximo passo deu-se essa semana, como as técnicas de integração. A equipe destinada para esse tema, moveu-se para desenvolver e aplicar as tentativas de incorporação ao sistema Ruby e criar a gem, espaço destinado para dependências do modelo. Provavelmente, com seu término previsto até o começo da próxima da semana.

Em relação a pesquisa à validação ao few-shot, alinhando-se ao escopo do roteiro, segue-se a otimização do modelo e aprimoramento do pré-processamento do conteúdo estudado para essa semana, com o uso de novos recursos, previsto no repositório na tarefa #33 (Testar modelos few-shot), em resumo, dispõe da base de estudos, leituras, artigos e formas de implementação com o método mencionado.

Tarefas de Setembro:

Membros da Equipe Tarefas Período Status
Chaydson e Leandro Silva Ruby: Pesquisa implantação ao sistema. 04/09 - 01/10 EM ANDAMENTO
Alexandre Few-shot: Pesquisa e validação 04/09 - 01/10 EM ANDAMENTO
João Pedro SLClassifier v1.0.0: Otimizações 04/09 - 01/10 EM ANDAMENTO
Leandro Santos Registro de atividades semanais 04/09 - 01/10 EM ANDAMENTO
João Pedro Entregar o modelo com 80% de acurácia 25/09 - 01/10 EM ANDAMENTO

Atividades da semana:
Resume-se ao histórico de atividades supracitadas. A serialização do produto e o treinamento do modelo entra na etapa final, sincronizados ao roteiro e com finalização preparada para próxima semana, até que a versão final do modelo esteja incorporada ao sistema Ruby, a arquitetura atualizada no espaço de desenvolvimento do produto e criada a gem com as respectivas dependências.

18/09/2023
Artigos e pesquisas desenvolvidos para os testes do few-shot adicionado ao repositório, task #33.
Iniciado o teste dos modelos few-shot, pesquisa realizada, task #29.

19/09/2023
Encaminhado o relatório semanal, registro 14 para o repositório na aba “Registro de atividades”.

21/09/2023
Prévia da validação das propostas simuladas com algumas mudanças. Conversa realizada pelo corpo técnico e os tutores e professor.

22/09/2023
Desenvolvidas novas propostas simuladas, acopladas a planilha que será enviada ao repositório semana que vem, no espaço de versionamento do modelo. Task #35

Relatório 16 – 25/09/2023 a 01/10/2023

A última semana de outubro prevê as finalizações das tarefas para serialização do modelo, preparação para entrega ao sistema do Brasil Participativo, validações de modelos few-shot, atualizações nos testes de modelos, versionamento com adição das propostas simuladas, entrega de um modelo com 80% de acurácia e o registro semanal com histórico de atividades.

Na semana anterior, verificou-se a tendência de melhoramento no desempenho do modelo com adição de propostas simuladas, possibilitando em uma pré-avaliação dada aos instrutores e professores na última reunião. Sendo assim, houve prosseguimento na resolução de novas propostas simuladas para composição dos tópicos restantes.

A planilha contendo as novas propostas simuladas foi finalizada na segunda-feira, 25 de setembro. Dessa forma, um novo versionamento do modelo foi encaminhado para o repositório junto com a versão precedente que retrata as informações utilizadas nas propostas simuladas para Casa Civil.

Assim sendo, os novos testes foram feitos com objetivo de analisar a inferência do modelo observado com o acréscimo das propostas. Como resultado, as alterações aperfeiçoaram a precisão do modelo, contudo, com avanço relativamente baixo, menor que a estimativa esperada pelos responsáveis, visto que a acurácia do modelo teve performance apenas de 2% acima do modelo preliminar.

Independentemente do resultado alcançado, essa parte de otimização prosseguirá na próxima semana, com uso de novos métodos para balanceamento, levantadas para as deliberações entre os monitores e membros integrantes.

Quanto as atualizações nos testes de modelos few-shot, alternativa ao método supracitado. Notou-se, que as pesquisas, artigos e matérias estudadas, resumidamente, ainda precisavam ser refinadas, já que parte dos trabalhos apresentavam definições em níveis experimentais, com poucas explicações para elaboração de um código concludente, porém, dentre os vários artigos explorados, um método recebeu atenção do técnico e foi separada para análise nesta semana, o Set-Fit.

O interesse do Set-Fit pronunciado está no fato que para inferir, precisa de somente 8 amostras para cada tópico, promovendo resultados de outros modelos com acurácia e precisão elevada, no entanto, devido a parametrização de controle durante o treinamento, portanto, o uso exagerado de processamento, exige longas horas para um computador básico concluir o teste.

Dessa forma, a resolução deu-se pelo uso de computadores com GPUs integradas, destinado para diminuir esse espaço de processamento. O término da atividade foi marcado para a próxima semana pelo membro responsável. As atualizações serão documentadas e enviadas para o repositório, na tarefa correspondente, conforme o registro em roteiro.

Na reunião de grupo realizada na segunda-feira, foi apresentado o funcionamento e execução da implementação do modelo ao sistema Ruby, pelo integrante responsável, finalizando a tarefa definitivamente na terça-feira com a criação da gem (conteúdo para dependências do modelo), com uso do formato interoperável ONNX para serialização do modelo, componente pesquisado e explorado nas semanas anteriores junto a etapas de desenvolvimento vinculadas ao roteiro. Dito isso, as novas alterações foram repassadas ao repositório, em documentação do processo de desenvolvimento do produto, embutida no tópico de utilização.

A entrega de um modelo de 80% de acurácia não foi concluída, diante dos resultados dos testes realizados com baixa apuração e necessitar de tempo razoável para inferência do modelo. Dessa maneira, a parte de classificação que envolve a coleta das propostas de modo supervisionado (SLClassifier), alonga-se para próxima semana com a definição das alternativas vistas e revistas.

O versionamento do modelo será aprovado pelo corpo de instrutores e professores em reunião, talvez prevista para acontecer na segunda-feira da próxima semana, 02 de outubro, com objetivo de adequar o projeto e validar as análises de teste.

Tarefas de Setembro:

Membros da Equipe Tarefas Período Status
Chaydson e Leandro Silva Ruby: Pesquisa implantação ao sistema. 04/09 - 25/09 FINALIZADO
Alexandre Few-shot: Pesquisa e validação 04/09 EM ANDAMENTO
João Pedro SLClassifier v1.0.0: Otimizações 04/09 EM ANDAMENTO
Leandro Santos Registro de atividades semanais 04/09 EM ANDAMENTO
João Pedro Entregar o modelo com 80% de acurácia 25/09 EM ANDAMENTO

Atividades da semana:
Resume-se ao histórico de atividades supracitadas.

25/09/2023
Realizado a reunião em grupo.
Finalizado a implementação do modelo ao sistema Ruby, com as atualizações dentro do repositório, issue #32.

26/09/2023
Finalizado a criação do Gem.
Encaminhado o relatório semanal, registro 15 para o repositório na aba “Registro de atividades”.
Iniciado os testes no Set-Fit, modelo few-shot escolhido.

29/09/2023
Versionamento do modelo com resolução dos testes do modelo, issue #42

Relatório 17 – 02/10/2023 a 08/10/2023

Essa semana retoma o andamento das tarefas restantes, com prioridade no treinamento do modelo, na finalidade de procurar novos meios e ideias e aplicá-las para conclusão na etapa de classificação supervisionada, enfim, uma abordagem para novos métodos, próximo de um modelo definitivo com 80% de acurácia.

O aumento da acurácia do modelo relatado na semana anterior, de 2% acima da versão anterior, resultou na ideia de melhorar balanceamento das categorias, dado por equilibrar as propostas, uma vez que sacrifica grande parte dos dados nos temas abundantes e incrementa mais para os tópicos de baixa precisão, afim de aproximar o resultado ao limiar sugerido pela equipe.

Os testes no Set-Fit, alternativa aos algoritmos preliminares, não atingiram a pontuação ideal para sua devida utilização, no resultado, abaixo do esperado, descritos nas análises realizadas, obteve-se acurácia entre 25% e 30%.

Os membros restantes focaram em garantir que a documentação sobre o acoplamento do modelo ao sistema Ruby fosse encaminhada para o repositório, disponibilizando um parecer importante para as equipes futuras fundamentadas em outros projetos semelhantes.

Em resumo, o mês de setembro baseou-se na integração do modelo ao Ruby, sistema do qual o site Brasil participativo foi implementado. Além disso, foram feitas otimizações do classificador supervisionado (SLClassifier), versionamento do modelo, atualização da arquitetura e documentação de desenvolvimento do produto.

As primeiras semanas do mês destinaram-se para realização de pesquisas, estudos, leituras de recursos, a exploração de outros tipos modelos, adição de novos métodos na tentativa de aprimorar a acurácia do modelo. Tarefas revistas entre os membros da equipe, professores, instrutores e cliente, validando as análises apresentadas.

Sendo assim, com as tarefas alinhadas ao roteiro, seguiu-se para as últimas semanas, com o acréscimo das propostas simuladas, versionamento e as documentações para o repositório. Aliás, obteve-se alguns avanços na fase de serialização com estudo e pesquisa do formato ONNX, implementação do sistema Ruby e criação da gem.

Por outro lado, na fase de treinamento do modelo, nos testes analisados, visando as novas versões das propostas simuladas e o Set-Fit, demonstraram resultados não satisfatórios e estimados para acoplamento e seu definitivo término do projeto, resultando em acurácias e precisões abaixo do limiar sugerido pelo grupo, porém, mostrando uma tendência de melhoramento e aumento nas apurações individuais dos tópicos, acima das versões iniciais.

Tarefas de setembro:

Membros da Equipe Tarefas Período Status
Alexandre Few-shot: Pesquisa e validação 04/09 - 02/10 FINALIZADO
João Pedro SLClassifier v1.0.0: Otimizações 04/09 EM ANDAMENTO
Leandro Santos Registro de atividades semanais 04/09 - 04/10 FINALIZADO
João Pedro Entregar o modelo com 80% de acurácia 25/09 EM ANDAMENTO

Durante a semana anterior, parte do roteiro planejado teve que ser adiado para a primeira semana de outubro e grande parte do progresso atual foi revisto para solucionar problemas, falhas de processamento e falta de recursos suficientes para alcançar a meta desejada.

Nas dificuldades relatadas, estão a demanda de processamento para execução dos treinamento, consequentemente, abrindo dúvidas sobre o tipo de equipamento que será utilizado na classificação quando finalizado o projeto e se o modelo implantado no Ruby, será público ou não.

As tarefas de prioridade para outubro detalhadas no roteiro, tendem a fechar os requisitos estruturação do projeto, na busca de complementá-lo com o desenvolvimento do classificador não supervisionado (UnSLClassifier).

Resumo das tarefas para outubro:

Membros da Equipe Tarefas Período Status
Chaydson, Leandro Silva, Alexandre e João Pedro UnSLClassifier v1.0.0 09/10 - 30/10 DISPONÍVEL
Leandro Santos Registro de atividades semanais 09/10 - 05/11 DISPONÍVEL

Nesta pequena tabela, com a compressão simplificada dos fatos, edita grande parte do roteiro original de 4 semanas de outubro. Sendo que, a primeira e segunda semana de outubro, designa para maioria dos membros o estudo de algoritmos de clusterização e exploração de benchmarks. A penúltima e última semana, partem do princípio empírico de teste e conclusão, com análises e resultados dos algoritmos selecionados aplicados ao benchmark, com o envio da documentação no repositório, juntamente, com os registros semanais.

Atividades da semana:
As tarefas foram finalizadas no decorrer dessa semana, sendo que somente a tarefa de classificação está atrasada. Desse modo, ela foi discutida pelos instrutores e a equipe, para readequação das prioridades do roteiro, dado ao pouco tempo disponível.

A demanda pela acurácia e precisão dentro dos requisitos escolhidos pelo time, serve de cerne para arquitetura do projeto e finalização no desenvolvimento do produto. Sem sua inferência desejada, encerra a possibilidade de inteirar o objetivo principal, de classificar as propostas e escaloná-las em referências semelhantes, por exemplo, na casa legislativa, que convoca medidas e propostas, votados pela maioria de pessoas, transformando-as em projeto de lei em conjunto com a câmara e demais representantes.

Embora, superado o prazo de entrega, não se afasta a conclusão de novas tarefas programas no roteiro, previsto para iniciarem na segunda semana de outubro, uma vez que o mero atraso propõe visões diferentes e abertura de novos estudos, portanto, ha uma importância na exploração teórica e prática de entendimento geral alinhado ao princípio educativo do projeto.

Os demais detalhamentos ressumem-se ao histórico supracitado deste relatório.

02/10/2023
Finalizado os testes e otimizações do Set-Fit, issue #36.

04/10/2023
Encaminhado o relatório semanal, registro 16 para o repositório na aba “Registro de atividades”. Encerrado os registros de setembro.

08/10/2023
Adicionado uma nova versão do modelo, model_v6 #42.

Relatório 18 – 09/10/2023 a 15/10/2023

De acordo com roteiro, essa semana foi dedicada para pesquisa e estudo de algoritmos de clusterização e novas metodologias para serem aplicadas para o aprendizado não supervisionado. Além disso, foi incluído novos versionamentos de modelo ao repositório, juntamente com as documentações que retratam as novas apurações recolhidas em um novo experimento utilizado pelos responsáveis para balancear as propostas nos tópicos.

Logo na segunda feira, a equipe designada para o treinamento do modelo, explorou diversos artigos que pudessem de alguma forma melhorar sua pontuação, visto que em semanas anteriores, tiveram um pequeno aumento nos resultados obtidos, sendo ligeiramente maiores com a adição de propostas simuladas aos tópicos de pouco desempenho. Desse modo, foi elaborado estudos partindo desse ponto, da última versão do modelo, com intuito de descobrir formas de resolver os problemas supracitados em análises anteriores.

Seguindo esse contexto, foram encaminhadas novas versões do modelo na semana. A última versão anexada mostra algumas alterações, principalmente na etapa de pré-processamento, refletidas nos estudos realizados e eventualmente, a utilização de uma técnica para simulação de dados. No resultado, obteve-se melhoria nas pontuações individuais de 3 dos 6 tópicos problemáticos.

No decorrer dessa semana, novos algoritmos de clusterização foram explorados pela equipe, iniciando as tarefas de outubro. A pesquisa foi baseada em um mapa disponibilizado no site do scikit-learn.

Em resumo, o conteúdo estudado envolve KMeans, Latent Dirichlet Allocation (LDA), MeanShift e VBGMM, fundamentado na quantidade de dados disponibilizados em relação ao número de tópicos para predição do modelo, em virtude da informação no mapa. Os artigos serão acrescentados nas respectivas pastas ao repositório para próxima semana.

Tarefas de outubro:

Membros da Equipe Tarefas Período Status
Chaydson e Alexandre UnSLClassifier v1.0.0 09/10 - 30/10 INICIADO
Leandro Santos Registro de atividades semanais 09/10 - 05/11 INICIADO
João Pedro e Leandro Silva SLClassifier v1.0.0 04/09 EM ANDAMENTO

Houve uma pequena mudança nas designações de tarefas por equipe, separou-se os demais membros para equilibrar o fluxo de trabalho, em razão da tarefa de classificação supervisionada não ser finalizada no mês passado, com prioridade alta.

Atividades da semana:
Os detalhamentos resumem-se ao parecer dessa semana.

11/10/2023
Encaminhado o relatório semanal, registro 17 para o repositório na aba “Registro de atividades”.

15/10/2023
Encaminhado a versão 9 do modelo para o repositório. #42

Relatório 19 – 16/10/2023 a 22/10/2023

De acordo com roteiro, essa semana ainda foi foi dedicada para pesquisa e estudo de algoritmos de clusterização para o aprendizado não supervisionado, porém com algumas implementações, que não deram muito resultado. Além disso, foi incluído novos versionamentos de modelo ao repositório, juntamente com as documentações que retratam as novas apurações recolhidas em um novo experimento utilizado pelos responsáveis para balancear as propostas nos tópicos.

Também tivemos problema com a execução do modelo da GEM RUBY, foi apresentado que ele não estava executando corretamente. As demais tarefas ainda estão em andamento.

Tarefas de outubro:

Membros da Equipe Tarefas Período Status
Alexandre UnSLClassifier v1.0.0 09/10 - 30/10 INICIADO
Leandro Santos Registro de atividades semanais 09/10 - 05/11 INICIADO
João Pedro e Leandro Silva SLClassifier v1.0.0 04/09 EM ANDAMENTO
Chaydson Correção da GEM 16/10 - 22/10 INICIADO

Houve uma pequena mudança nas designações de tarefas por equipe, Chaydson foi dedicar na correção da GEM o mais breve possível. Enquanto os demais membros vão finalizar as suas tarefas atribuídas.

Relatório 20 – 23/10/2023 a 29/10/2023

Dando continuidade com roteiro, essa semana foi concluído os estudos dos algoritmos de clusterização para o aprendizado não supervisionado, a acurácia foi baixa. A GEM da RUBY foi consertada e já está executando normalmente. E por último foi concluído o modelo de versionamento de dados Versão 10, com a acurácia atingindo 68%. Infelizmente não atingimos a nossa meta de 80%, foi testado diversos algoritmos e diversas técnicas de otimização e balanceamento de dados porém com melhoras significativas de 0,5% a 1% de acurácia, sendo o principal problema, a falta de dados.

Mesmo não conseguindo alcançar a nossa meta, foi dada a ideia pelos monitores de fazermos uma automação por meio da ferramenta AIRFLOW, para que o nosso algoritmo baixe os dados da plataforma do Brasil participativo e já faça o treinamento sozinho, para que um dia quando tiver dados suficientes o algoritmo consiga alcançar a margem dos 80%.

Tarefas de outubro:

Membros da Equipe Tarefas Período Status
Alexandre UnSLClassifier v1.0.0 09/10 - 30/10 Concluído
João Pedro e Leandro Silva SLClassifier v1.0.0 04/09 Concluído
Chaydson Correção da GEM 16/10 - 22/10 Concluído
Membros da Equipe Tarefas Período Status
Alexandre Categorização em SubTópicos 23/10 - 29/10 Em andamento
Chaydson Criação do AirFlow 23/10 - 29/10 Em andamento
João Últimas melhorias no modelo 23/10 - 29/10 Em andamento
Leandro Silva Documentação do projeto 23/10 - 29/10 Concluído

O Leandro Santos, por motivos pessoias teve que se ausentar do projeto. Então houve uma mudança nos papéis de equipe.

Relatório 21(Entrega do projeto) – 30/10/2023 a 05/11/2023

Chegamos na última semana de desenvolvimento, será focado na finalização do projeto e na organização da entrega de um MVP, o joão Anacleto foi as últimas mudanças no modelo de versionamento de dados V10 e está documento para entrega. Foi criado o algoritmo de automação por meio do AirFlow e o algoritmo está sendo documento. No final da semana, será realizado um MERGE entre todas as Branchs que os membros trabalharam e será criado uma Release do nosso projeto. Dia 06/11 será a entrega do projeto.

Membros da Equipe Tarefas Período Status
Alexandre Categorização em SubTópicos 23/10 - 29/10 Concluído
Chaydson Criação do AirFlow 23/10 - 29/10 Concluído
João Últimas melhorias no modelo 23/10 - 29/10 Concluído
Leandro Silva Documentação do projeto 23/10 - 29/10 Em andamento

Última atualização: 2023-11-02
Criada: 2023-08-22