Português (BR) | English (US)
Dentro do ecossistema do Querido Diário, este repositório é o responsável por transformações em documentos e carregamento nos armazenamentos adequados.
Conheça mais sobre as tecnologias e a história do projeto.
- Como contribuir
- Ambiente de desenvolvimento
- Como executar
- Suporte
- Agradecimentos
- Open Knowledge Brasil
- Licença
Agradecemos por considerar contribuir com o Querido Diário! 🎉
Você encontra como fazê-lo no CONTRIBUTING.md!
Além disso, consulte a documentação do Querido Diário para te ajudar.
Para configurar o ambiente de desenvolvimento, é necessário o gestor de containers podman.
Por meio de um terminal aberto no diretório raíz do repositório, use a sequência de comandos a seguir para construir as imagens e montar o pod e os containers de recursos em sistema operacional Linux:
make build
make setup
Para mais detalhes sobre a configuração leia "como configurar o ambiente de desenvolvimento".
Para executar qualquer pipeline, é necessário popular o banco de metadados (Postgres) e baixar documentos para o armazenamento de objetos (Minio), para isso, podemos usar o repositório de raspadores de acordo com a documentação de configuração de ponta-a-ponta.
Após a execução de raspadores, podemos executar o pipeline de extração textual que populará o motor de busca (Opensearch) com o índice principal (texto completo de diários) e os índices temáticos (excertos de diários relacionados a algum tema). Isto é feito por meio do comando:
make re-run
Por padrão, este pipeline processará todos os documentos do banco, independente se já foram processados previamente. Se desejar mudar este comportamento, altere a variável de ambiente EXECUTION_MODE
no envvars
.
Com os textos extraídos, também podemos executar o pipeline de agregação de dados, que disponibiliza os textos dos diários em formato CSV. Para isso, execute:
make aggregate-gazettes
Os resultados podem ser encontrados no motor de busca e no armazenamento de objetos. Encontre dicas de como acessá-los nesta documentação.
Ingresse em nosso canal de comunidade para trocas sobre os projetos, dúvidas, pedidos de ajuda com contribuição e conversar sobre inovação cívica em geral.
A aplicação foi inicialmente desenvolvida junto às pessoas do estúdio de software Jurema.
Este projeto é mantido pela Open Knowledge Brasil e possível graças às comunidades técnicas, às Embaixadoras de Inovação Cívica, às pessoas voluntárias e doadoras financeiras, além de universidades parceiras, empresas apoiadoras e financiadoras.
Conheça quem apoia o Querido Diário.
A Open Knowledge Brasil é uma organização da sociedade civil sem fins lucrativos, cuja missão é utilizar e desenvolver ferramentas cívicas, projetos, análises de políticas públicas, jornalismo de dados para promover o conhecimento livre nos diversos campos da sociedade.
Todo o trabalho produzido pela OKBR está disponível livremente.
Código licenciado sob a Licença MIT.