Estudos realizados com a linguagem de programação Python, com as bibliotecas mais utilizadas para a coleta de dados via web scraping. A coleta de dados web, ou raspagem web, é uma forma de mineração que permite a extração de dados de sites da web convertendo-os em informação estruturada para posterior análise. O tipo mais básico de coleta é o download manual das páginas, copiando e colando o conteúdo, e isso pode ser feito por qualquer pessoa. Contudo, essa técnica geralmente é feita através de um software que simula uma navegação humana por diversos sites, extraindo informações específicas. É um campo com ativa evolução que compartilha um objetivo comum com a visão da web semântica, uma iniciativa ambiciosa que ainda requer avanços no processamento de texto, compreensão semantical, inteligência artificial e interação humano-computador. A coleta de dados web é muito semelhante à indexação web (utilizado pela maioria dos motores de busca), mas a motivação final é muito diferente. A indexação web é usada para ajudar a tornar os motores de busca mais eficientes, já a coleta de dados é tipicamente usada para diferentes razões, como comparação de preços online, monitoramentos meteorológicos, pesquisas de mercado, coleta de dados governamentais, monitoramento de dados e, em alguns casos, roubo.
- Urllib
urllib é um pacote que coleta vários módulos especificos para trabalhar com URLs
pip install urllib
- RegEx
Um RegEx, ou Expressão Regular, é uma sequência de caracteres que forma um padrão de pesquisa. RegEx pode ser usado para verificar se uma string contém o padrão de pesquisa especificado.
pip install re
- Bs4 (BeatifulSoup4)
Beautiful Soup é uma biblioteca Python para extrair dados de arquivos HTML e XML. Ele funciona com seu analisador favorito para fornecer maneiras idiomáticas de navegar, pesquisar e modificar a árvore de análise. Geralmente economiza horas ou dias de trabalho dos programadores
pip install bs4
- Selenium
Selenium é uma biblioteca, de software livre, sob licença Apache 2.0, usado para automação de testes de software, criar bots, reduzir trabalho manuais e repetitivos e "raspar dados da internet"
pip install selenium
- Scrapy
Scrapy é uma estrutura de rastreamento e scraping da web de alto nível, usada para rastrear sites e extrair dados estruturados de suas páginas. Ele pode ser usado para uma ampla gama de finalidades, desde mineração de dados até monitoramento e testes automatizados.
pip install scrapy
- Mechanize
- Scrapemark