GitHub - chengyu2333/cmspider-scrapy: 基于scrapy和selenuim的通用新闻爬虫

爬虫说明

用于爬取新闻的通用爬虫，使用MongoDB作为数据仓库。

使用说明

爬取列表页

scrapy crawl cms_list
爬取新闻页

scrapy crawl cms_article
更换浏览器引擎

为方便观察调试，默认使用的Chrome浏览器，需要安装chrome driver。

若想使用PhantomJS或其他浏览器可以修改cms_list.py中的get_driver方法。

配置说明

settings.py

# MongoDB数据库配置
MONGODB_HOST = "192.168.1.34"
MONGODB_PORT = 27017
MONGODB_DBNAME = "cmspider"

cms_config.py

# 入口新闻列表页url
start_url = ["http://news.hexun.com/original/"]
# 列表的a标签的选择器
href_xpath = '//*[@id="temp01"]/ul/li/a'
# "下一页"按钮的选择器
next_page_css = ".next"

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
cmspider		cmspider
__init__.py		__init__.py
demo.gif		demo.gif
ghostdriver.log		ghostdriver.log
readme.md		readme.md
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

爬虫说明

使用说明

配置说明

About

Releases

Packages

Languages

chengyu2333/cmspider-scrapy

Folders and files

Latest commit

History

Repository files navigation

爬虫说明

使用说明

配置说明

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages