Skip to content

turicas/genero-nomes

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Gênero dos Nomes Brasileiros

Script que baixa dados de gênero do IBGE Nomes (Censo 2010) e cria um banco de dados, que pode ser utilizado para classificar nomes por gênero em bases que não possuem essa informação.

Licença

A licença do código é LGPL3 e dos dados convertidos Creative Commons Attribution ShareAlike. Caso utilize os dados, cite a fonte original e quem tratou os dados, como: Fonte: IBGE/Censo 2010, dados tratados por Álvaro Justen/Brasil.IO. Caso compartilhe os dados, utilize a mesma licença.

Dados

Caso você não queira/possa rodar o script, acesse diretamente os dados convertidos no Brasil.IO.

Se esse programa e/ou os dados resultantes foram úteis a você ou à sua empresa, considere fazer uma doação ao projeto Brasil.IO, que é mantido voluntariamente.

Rodando

Instalando as Dependências

Esse script depende de Python 3.7 e de algumas bibliotecas. Depois de instalar o Python 3.7 instale as bibliotecas executando:

pip install -r requirements.txt

Executando

Como o IBGE não divulga um índice de todos os nomes, é necessário que você possua um arquivo que tenha uma lista de nomes para que o script possa fazer a consulta. Por padrão o script utiliza como base um arquivo chamado data/input/documentos-brasil.csv.xz, que deve possuir uma coluna name com o nome e uma coluna document-type com o valor CPF (o dataset documentos-brasil do Brasil.IO possui esses dados).

Depois de conseguir esse arquivo, execute o script:

./run.sh