Processamento de dados

Português (BR) | English (US)

Processamento de dados

Dentro do ecossistema do Querido Diário, este repositório é o responsável por transformações em documentos e carregamento nos armazenamentos adequados.

Conheça mais sobre as tecnologias e a história do projeto.

Sumário

Como contribuir
Ambiente de desenvolvimento
Como executar
Suporte
Agradecimentos
Open Knowledge Brasil
Licença

Como contribuir

Agradecemos por considerar contribuir com o Querido Diário! 🎉

Você encontra como fazê-lo no CONTRIBUTING.md!

Além disso, consulte a documentação do Querido Diário para te ajudar.

Ambiente de desenvolvimento

Para configurar o ambiente de desenvolvimento, é necessário o gestor de containers podman.

Por meio de um terminal aberto no diretório raíz do repositório, use a sequência de comandos a seguir para construir as imagens e montar o pod e os containers de recursos em sistema operacional Linux:

make build
make setup

Para mais detalhes sobre a configuração leia "como configurar o ambiente de desenvolvimento".

Como executar

Para executar qualquer pipeline, é necessário popular o banco de metadados (Postgres) e baixar documentos para o armazenamento de objetos (Minio), para isso, podemos usar o repositório de raspadores de acordo com a documentação de configuração de ponta-a-ponta.

Após a execução de raspadores, podemos executar o pipeline de extração textual que populará o motor de busca (Opensearch) com o índice principal (texto completo de diários) e os índices temáticos (excertos de diários relacionados a algum tema). Isto é feito por meio do comando:

make re-run

Por padrão, este pipeline processará todos os documentos do banco, independente se já foram processados previamente. Se desejar mudar este comportamento, altere a variável de ambiente EXECUTION_MODE no envvars.

Com os textos extraídos, também podemos executar o pipeline de agregação de dados, que disponibiliza os textos dos diários em formato CSV. Para isso, execute:

make aggregate-gazettes

Os resultados podem ser encontrados no motor de busca e no armazenamento de objetos. Encontre dicas de como acessá-los nesta documentação.

Suporte

Ingresse em nosso canal de comunidade para trocas sobre os projetos, dúvidas, pedidos de ajuda com contribuição e conversar sobre inovação cívica em geral.

Agradecimentos

A aplicação foi inicialmente desenvolvida junto às pessoas do estúdio de software Jurema.

Este projeto é mantido pela Open Knowledge Brasil e possível graças às comunidades técnicas, às Embaixadoras de Inovação Cívica, às pessoas voluntárias e doadoras financeiras, além de universidades parceiras, empresas apoiadoras e financiadoras.

Conheça quem apoia o Querido Diário.

Open Knowledge Brasil

A Open Knowledge Brasil é uma organização da sociedade civil sem fins lucrativos, cuja missão é utilizar e desenvolver ferramentas cívicas, projetos, análises de políticas públicas, jornalismo de dados para promover o conhecimento livre nos diversos campos da sociedade.

Todo o trabalho produzido pela OKBR está disponível livremente.

Licença

Código licenciado sob a Licença MIT.

Name		Name	Last commit message	Last commit date
Latest commit History 133 Commits
.github/workflows		.github/workflows
config		config
data_extraction		data_extraction
database		database
docs		docs
index		index
main		main
segmentation		segmentation
storage		storage
tasks		tasks
tests		tests
.gitignore		.gitignore
.pre-commit-config.yaml		.pre-commit-config.yaml
Dockerfile		Dockerfile
Dockerfile_apache_tika		Dockerfile_apache_tika
LICENSE		LICENSE
Makefile		Makefile
README.md		README.md
requirements-dev.txt		requirements-dev.txt
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Processamento de dados

Sumário

Como contribuir

Ambiente de desenvolvimento

Como executar

Suporte

Agradecimentos

Open Knowledge Brasil

Licença

About

Releases

Sponsor this project

Packages

Contributors 9

Languages

License

okfn-brasil/querido-diario-data-processing

Folders and files

Latest commit

History

Repository files navigation

Processamento de dados

Sumário

Como contribuir

Ambiente de desenvolvimento

Como executar

Suporte

Agradecimentos

Open Knowledge Brasil

Licença

About

Topics

Resources

License

Code of conduct

Stars

Watchers

Forks

Releases

Sponsor this project

Packages 0

Contributors 9

Languages

Packages