用python3制作的网络爬虫(爬取 豆瓣电影 的电影信息)
python 3.3+
-
安装 Mongodb
-
安装库
$ pip install -r requirements.txt
-
运行daemon.py:
$ python daemon.py start
-
结束程序:
$ python daemon.py stop
-
结束程序,删除数据库中所有数据及日志文件:
$ python daemon.py clean
-
查看运行日志:
$ tail -f /tmp/daemon.log
-
查看进程pid:
$ tail -f /tmp/daemon.pid
-
查看错误日志:
$ tail -f /tmp/daemon.err
- bug修复
- 发生异常退出时将内存中的url存入数据库
- 加入clean命令
- 数据库更换为mongodb
- 异常处理更完善
- 内存占用优化
- 后台运行
- urllib更换为第三方库responses
- 加入了http分析器BeautifulSoup的支持
- 数据被存到mysql
- 可以下载电影页面并保存到data文件夹