Skip to content

Latest commit

 

History

History
62 lines (34 loc) · 2.27 KB

File metadata and controls

62 lines (34 loc) · 2.27 KB

SOLUÇÃO: Record Linkage Comparison Patterns Data Set

O problema que é abordado neste repositorio é este.

Soluções existentes

Uma das soluções existentes para esse problema esta presente no artigo Murat Sariyar, Andreas Borg, Klaus Pommerening: Controlling false match rates in record linkage using extreme value theory. Journal of Biomedical Informatics, 2011 (in press).

O problema foi solucionado de 3 formas diferentes:

  • Decision Tree

  • KNN

  • Neural Network

Cada uma das soluções possuem seus próprios contextos, dependências e nootebooks. É possível verificá-las em em suas pastas.

Dados

Os dados do problema estão aqui.

Baixe o data set e coloque seu conteúdo na pasta:

data

Extraia todos os dados para esta pasta.

  • Todos os arquivos .csv são ignorados no .gitignore pois o dataset contém mais de 200MB de tamanho.

Ambiente

Para verificar a solução siga este tutorial para instalar seu virtualenv de python.

Após ter seu ambiente de desenvolvimento configurado execute o seguinte comando:

pip install -r requirements.txt

Documentação

A documentação e interpretação do problema está aqui.

Referências

Decision Tree

KNN

Neural Network

A principal referência para a solução do problema foi a documentação do scikit-learn

Os seguintes links também foram úteis: