Skip to content

Commit

Permalink
Merge pull request #2 from kevinsrq/dev
Browse files Browse the repository at this point in the history
merge from dev
  • Loading branch information
kevinsrq authored May 27, 2023
2 parents 3e9046f + b82f5ec commit 28749b7
Show file tree
Hide file tree
Showing 3 changed files with 934 additions and 706 deletions.
22 changes: 21 additions & 1 deletion README.md
Original file line number Diff line number Diff line change
@@ -1,3 +1,5 @@
Projeto prático da matéria de Recuperação da Informação do curso de Pós-graduação da Ciência da Computação da UNESP

# Recuperação da Informação

Neste texto, apresentamos uma introdução ao projeto prático da matéria de recuperação da informação na UNESP. O objetivo deste projeto é desenvolver um sistema de busca que permita aos usuários encontrar documentos relevantes em uma coleção de textos. Para isso, utilizaremos conceitos e técnicas de recuperação da informação, tais como: indexação, processamento de linguagem natural, modelos de recuperação, medidas de avaliação e feedback de relevância. O projeto será dividido em quatro etapas:
Expand All @@ -7,6 +9,8 @@ Neste texto, apresentamos uma introdução ao projeto prático da matéria de re
3. implementação do modelo de recuperação;
4. avaliação do sistema.

Este trabalho não tem como objetivo fornecer uma ferramenta otimizada, mas sim uma ferramenta funcional com codificação manual, sem o uso de pacotes externos, para uma melhor compreensão das técnicas apresentadas.

## Pré-processamento dos documentos

O pré-processamento de texto é uma etapa fundamental para a recuperação da informação, pois visa transformar os documentos em uma representação adequada para a análise e a busca. O pré-processamento envolve técnicas como tokenização, normalização, remoção de stopwords, stemização e lematização, que têm como objetivo reduzir a complexidade e a variabilidade dos textos. Essas técnicas facilitam a identificação de termos relevantes e a comparação entre documentos, melhorando a eficiência e a eficácia dos sistemas de recuperação da informação.
Expand All @@ -21,6 +25,22 @@ Um índice invertido de texto é uma estrutura de dados que armazena as ocorrên

O índice invertido é uma ferramenta essencial para a recuperação da informação, pois permite realizar consultas complexas e obter resultados relevantes em um curto espaço de tempo.

$$TF-IDF = TF(t, d) \cdot IDF(t)$$

Onde:

$TF(t, d)$: representa a frequência do termo t no documento d.
$IDF(t)$: representa o inverso da frequência do documento (IDF) do termo t.

A fórmula completa do IDF é dada por:

$$IDF(t) = \log \left( \frac{N}{DF(t)} \right)$$

Onde:

$N$ é o número total de documentos na coleção.
$DF(t)$ é o número de documentos que contêm o termo t.

## Implementação do modelo de recuperação

A recuperação da informação é o processo de encontrar e acessar informações relevantes em um grande conjunto de dados. Existem diferentes modelos computacionais que podem ser usados para representar e organizar as informações, bem como para definir e executar as consultas dos usuários. Neste texto, vamos introduzir alguns dos principais modelos de recuperação da informação, como o modelo booleano, o modelo vetorial e o modelo probabilístico. Também vamos discutir as vantagens e desvantagens de cada um deles, e como eles podem ser aplicados em diferentes contextos e domínios.
Expand All @@ -29,4 +49,4 @@ A recuperação da informação é o processo de encontrar e acessar informaçõ

A recuperação da informação é uma área que visa encontrar e fornecer informações relevantes para os usuários, a partir de grandes coleções de documentos. Para isso, existem diversos modelos de recuperação da informação, que se baseiam em diferentes princípios e abordagens para representar e comparar os documentos e as consultas dos usuários. A avaliação dos modelos de recuperação da informação é fundamental para verificar a sua eficácia e eficiência, bem como para identificar os seus pontos fortes e fracos. Existem diferentes formas de avaliar os modelos de recuperação da informação, tais como: a avaliação experimental, que utiliza medidas quantitativas e conjuntos de teste padronizados; a avaliação centrada no usuário, que considera as necessidades, preferências e comportamentos dos usuários; e a avaliação comparativa, que analisa as vantagens e desvantagens de diferentes modelos em relação a um critério ou objetivo específico. A escolha do método de avaliação depende do contexto e do propósito da recuperação da informação, bem como dos recursos disponíveis. A avaliação dos modelos de recuperação da informação é essencial para o desenvolvimento e aprimoramento da área, pois permite identificar os problemas existentes e propor soluções inovadoras.

Ao final do projeto, é esperado que possamos gerar rankings de similaridade de acordo com cada e-mail utilizado como input.
Ao final do projeto, é esperado que possamos gerar rankings de similaridade de acordo com cada e-mail utilizado como input.
Loading

0 comments on commit 28749b7

Please sign in to comment.