- 安装python 3.4+环境(推荐Anaconda或Miniconda)
- 安装lxml html解析器,命令为
pip install lxml
- 安装jieba分词组件,命令为
pip install jieba
- 安装Flask Web框架,命令为
pip install Flask
- 进入web文件夹,运行main.py文件
- 打开浏览器,访问http://127.0.0.1:5000/ 输入关键词开始测试
如果想抓取最新新闻数据并构建索引,一键运行./code/setup.py
,再按上面的方法测试。
2020.4.5:新增抓取中国新闻网的爬虫程序。先运行./code/spider.chinanews.com.py
爬取最近5天新闻(约2500条);然后注释./code/setup.py
第38行并运行,自动构建索引。