Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Base para segmentação de diários de associações de municípios #42

Closed
3 of 4 tasks
ogecece opened this issue Mar 31, 2023 · 1 comment
Closed
3 of 4 tasks
Labels
qd-edu Faz parte do Querido Diário: Tecnologias na Educação roadmap Avanços estratégicos do Querido Diário

Comments

@ogecece
Copy link
Member

ogecece commented Mar 31, 2023

Descrição

Como descrito em mais detalhes no blogpost "Conheça os desafios de raspagem do Querido Diário", diários de associações de municípios não são atualmente compatíveis com o Querido Diário por conterem conteúdo de diversos municípios no mesmo documento e assim impossibilitar o filtro de conteúdo por município ao realizar buscas textuais no documento processado.

O objetivo aqui é continuar o esforço iniciado no programa "Querido Diário nas Universidades" por um grupo de iniciação científica do Instituto Federal de Alagoas (IFAL) de segmentar o diário da Associação dos Municípios Alagoanos (AMA).

O escopo inicial é adequar o código desenvolvido pelo grupo do IFAL ao pipeline de processamento de dados do QD. Assim, estabeleceremos o padrão que será utilizado como base para integrar outras associações municipais e diários estaduais (que possuem cadernos de publicações municipais) futuramente.

Objetivos

Como contribuir

Este item já foi finalizado mas sua contribuição é bem vinda em qualquer outro item do Roadmap.

Esta atividade foi desenvolvida dentro do escopo da Trilha de Segmentadores do Grupo de Trabalho para Processamento de Dados (vigente no segundo semestre de 2023). O andamento da trilha foi gerenciado pelo quadro, com coordenação de @Jefersonalves e atuação de @Winzen e @alex-custodio.

@ogecece ogecece converted this from a draft issue Mar 31, 2023
@ogecece ogecece added the roadmap Avanços estratégicos do Querido Diário label Mar 31, 2023
@ogecece ogecece added the qd-edu Faz parte do Querido Diário: Tecnologias na Educação label May 9, 2023
@ogecece ogecece changed the title Segmentação de municípios em diários de associações Segmentação de diários de associações de municípios Oct 4, 2023
@ogecece ogecece changed the title Segmentação de diários de associações de municípios Base para segmentação de diários de associações de municípios Oct 4, 2023
@okfn-brasil okfn-brasil deleted a comment from robokbr Dec 21, 2023
@robokbr
Copy link
Member

robokbr commented Dec 21, 2023

Traduzindo para inglês | Translating to english


Description

As described in more detail in the blogpost "Learn about the challenges of scraping Querido Diario", municipal association diaries are not currently compatible with Querido Diário because they contain content from different municipalities in the same document and thus make it impossible to filter content by municipality when carrying out textual searches in the processed document.

The objective here is to continue the effort started in the "Querido Diário nas Universidades" program by a scientific initiation group from the Federal Institute of Alagoas (IFAL ) to segment the diary of the Association of Municipalities of Alagoas (AMA).

The initial scope is to adapt the code developed by the IFAL group to the [QD data processing pipeline](https://github.com/okfn-brasil/ darling-diary-data-processing/). In this way, we will establish the standard that will be used as a basis to integrate other municipal associations and state newspapers (which have municipal publications sections) in the future.

Goals

How to contribute

This item has already been finalized but your contribution is welcome on any other item on the Roadmap.

This activity was developed within the scope of the Segmenter Track of the Data Processing Working Group (effective in the second half of 2023). The progress of the trail was managed by cadre, coordinated by @Jefersonalves and acting by @Winzen and @alex-custodio.

@ogecece ogecece closed this as completed Dec 21, 2023
@github-project-automation github-project-automation bot moved this from Em andamento to Completo in [Querido Diário] Roadmap Dec 21, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
qd-edu Faz parte do Querido Diário: Tecnologias na Educação roadmap Avanços estratégicos do Querido Diário
Projects
Development

No branches or pull requests

2 participants