Web Scraping com Python

Descrição

Estudos realizados com a linguagem de programação Python, com as bibliotecas mais utilizadas para a coleta de dados via web scraping. A coleta de dados web, ou raspagem web, é uma forma de mineração que permite a extração de dados de sites da web convertendo-os em informação estruturada para posterior análise. O tipo mais básico de coleta é o download manual das páginas, copiando e colando o conteúdo, e isso pode ser feito por qualquer pessoa. Contudo, essa técnica geralmente é feita através de um software que simula uma navegação humana por diversos sites, extraindo informações específicas. É um campo com ativa evolução que compartilha um objetivo comum com a visão da web semântica, uma iniciativa ambiciosa que ainda requer avanços no processamento de texto, compreensão semantical, inteligência artificial e interação humano-computador. A coleta de dados web é muito semelhante à indexação web (utilizado pela maioria dos motores de busca), mas a motivação final é muito diferente. A indexação web é usada para ajudar a tornar os motores de busca mais eficientes, já a coleta de dados é tipicamente usada para diferentes razões, como comparação de preços online, monitoramentos meteorológicos, pesquisas de mercado, coleta de dados governamentais, monitoramento de dados e, em alguns casos, roubo.

Principais Bibliotecas utilizadas

Urllib

urllib é um pacote que coleta vários módulos especificos para trabalhar com URLs

pip install urllib

Documentacao da Biblioteca

RegEx

Um RegEx, ou Expressão Regular, é uma sequência de caracteres que forma um padrão de pesquisa. RegEx pode ser usado para verificar se uma string contém o padrão de pesquisa especificado.

pip install re

Documentacao da Biblioteca

Bs4 (BeatifulSoup4)

Beautiful Soup é uma biblioteca Python para extrair dados de arquivos HTML e XML. Ele funciona com seu analisador favorito para fornecer maneiras idiomáticas de navegar, pesquisar e modificar a árvore de análise. Geralmente economiza horas ou dias de trabalho dos programadores

pip install bs4

Documentacao da Biblioteca

Selenium

Selenium é uma biblioteca, de software livre, sob licença Apache 2.0, usado para automação de testes de software, criar bots, reduzir trabalho manuais e repetitivos e "raspar dados da internet"

pip install selenium

Documentacao da Biblioteca

Scrapy

Scrapy é uma estrutura de rastreamento e scraping da web de alto nível, usada para rastrear sites e extrair dados estruturados de suas páginas. Ele pode ser usado para uma ampla gama de finalidades, desde mineração de dados até monitoramento e testes automatizados.

pip install scrapy

Documentacao do Framework

Mechanize
Scrapemark

Name		Name	Last commit message	Last commit date
Latest commit History 23 Commits
.vscode		.vscode
RegEx		RegEx
Xpath		Xpath
book		book
live_python		live_python
scraping_alura		scraping_alura
selenium		selenium
simple_ecommerce_scrapper		simple_ecommerce_scrapper
twitter_crawler		twitter_crawler
wikipedia_scraper		wikipedia_scraper
.gitignore		.gitignore
README.md		README.md
do-web-scraping-using-python.jpg		do-web-scraping-using-python.jpg
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Web Scraping com Python

Descrição

Principais Bibliotecas utilizadas

About

Releases

Packages

Languages

rafaelladuarte/Python_Scraping_web

Folders and files

Latest commit

History

Repository files navigation

Web Scraping com Python

Descrição

Principais Bibliotecas utilizadas

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages