BP Classificador de Propostas
BP Classificador de Propostas
Descrição: Brasil Participativo é a nova plataforma digital do governo federal, software livre Decidim, um espaço para que a população possa contribuir com a criação e melhoria das políticas públicas. Com uma semana no ar, a plataforma já tem 1000 propostas feitas pelos cidadãos. A plataforma, porém, não possui indexação ou processamento de linguagem natural para categorizar de forma automatizada as propostas. A ideia da proposta é fazer análise das propostas por meio de processamento de linguagem natural (PLN). Brasil participativo
Resultados esperados: A partir das propostas do Brasil participativo, é esperado a extração dos dados, a análise e o pré-processamento dos mesmos. Com o objetivo de utilizarmos modelos de classificação já existentes para análise de texto ou na criação de novos modelos. Também é esperado após a criação de modelo de classificação, a integração no sistema do Brasil participativo atráves de uma API.
Resultado obtido: Após 6 meses de trabalho árduo, obtivemos um modelo de classficação de propostas com uma acurácia de 63%. Claramente não é uma porcentagem alta para ser comercializada, isso se deve ao fato que atualmente o Brasil participativo não possui propostas suficientes para ter um bom treinamento, nesse exato momento ela possui 8000 sendo que mais da metade dessas propostas estão em apenas duas categorias, como pode ser visto na imagem abaixo:
Mesmo assim, para atingir essa acurácia foi realizado diversas técnicas sofisticadas de balanceamento de dados e aumento de dados (data augmentation) para conseguir esse desempenho. No fim, foi criado uma automação utilizando o AirFlow, para que o algoritmo continue adicionando novas propostas, assim que, elas forem publicadas no site. Com isso, um dia quando o site possuir propostas suficientes o algoritmo vai ser capaz de alcançar bons resultados.
Principais entregas: Tivemos duas principais entregas:
- Algoritmo de categorização de propostas com acurácia de 63%;
- Melhorias no algoritmo de categorização, automatização de coleta de dados no Airflow e a criação de uma GEM no Ruby.
Link da solução: Caso tenha interesse em se aprofundar, nesse link se encontra o nosso repositório no Github com a documentação atualizada e completa.
Foto da equipe: Os integrantes da equipe da esquerda para direita são:
lições aprendidas:
- Alexandre: A experiência mais válida que posso ressaltar é a colaboração no trabalho dado o projeto que estávamos responsabilizados a desenvolver. A divisão de papéis e tarefas na equipe, a comunicação com as partes organizadoras (monitores e professores) que por vezes representaram o nosso cliente no que tange as demandas, prazos e resultados a serem entregues. O Brisa foi uma jornada prática no qual foi possível vivenciar uma experiência de mercado na veia. Um projeto que saiu do escopo universitário e de pesquisa, realmente trazendo os participantes a um novo nível de capacitação mercadológica. Ainda assim, alguns pontos podem ser melhorados para próximos editais. O principal ponto seria em relação ao conteúdo da etapa EAD que poderia ser retrabalhado e revisado para tornar mais interativo (menos conteúdo de leitura e mais vídeos) e para melhor absorção do conhecimento (muitas apostilas/ementas são mal definidas, a exemplificar o curso de Blockchain que não fala de Blockchain, e sim de criptografia e segurança em redes), além dos erros nos questionários. Na etapa de imersão, faltou uma definição mais clara das demandas/obrigações gerais para as equipes, como a definição de papéis na equipe que veio meses depois da imersão ter começado. Demandas essas que não se pode esperar partir de estudantes que tecnicamente estão se capacitando ao mercado de tecnologia. Uma imensa gratidão a todos que proporcionaram essa experiência enriquecedora, aos processos motivadores e correções durante o desenvolvimento do projeto. Trarei a experiência para toda a minha carreira.
- Leandro Silva: Primeiramente gostaria de agradecer todo mundo que estava envolvido nesse projeto, principalmente aos monitores sem eles com certeza não teriamos conseguido entregar o projeto. Então, tive finalmente a oportunidade de colocar os meus conhecimentos em prática que eu estava adquirindo na faculdade, em um projeto real para um cliente real. Tive bastante dificuldade durante o projeto, eram tecnologias e ferramentas que eu nunca tinha visto e trabalhado, porém depois dessa jornada de 6 meses eu garanto que valeu apena e tenho certeza que irei trabalhar no ramo de Machine Learning e Artificial Language.
- João Anacleto: Durante os 6 meses de desenvolvimento pude adquirir diversas hards e soft skills, como por exemplo NLP,Python,Machine Learning dentre diversas habilidades ao interagir com os membros de todos os projetos, de modo geral acredito que a Brisa foi uma experiencia INDISPENSÁVEL para meu crescimento profissional e pessoal, gostaria de agradecer a todos os participantes e mentores do projeto.
- Chaydson: Aprendi a trabalhar com modelos de machine learning, Ruby Gems, Air Flow e Fast API. Bem como, gestão de uma equipe de software e trabalho em equipe.
Habilidades necessárias/preferenciais: Conhecimento em python, conhecimento básico em ciência de dados, compreensão de regras gramaticais em língua portuguesa
Mentores: Laila, Secretaria de Participação Social
Tamanho do projeto e dificuldade: Esse é um projeto Grande, necessitando de uma equipe de no mínimo 4 pessoas e com uma complexidade difícil.