-
- requests
-
- BeautifulSoup
-
- os
-
- lxml
完整项目放在GitHub:https://github.com/Ymy214/meizitu-spider
-
- 分析网页源代码结构
-
- 找到合适的入口
-
- 循环爬取并去重加到循环队列
-
- 基本上实现了爬取所有图片
我通过观察发现meizitu网站的分布结构虽然找不到切入口但是其结构每一个页面都会展示一个main-image主图,并且页面下面都会有推荐这个板块,所以就i昂到了利用从一个页面当作入口,利用beautifulsoup或者pyquery分析HTML页面提取出推荐的其他页面,添加到循环访问队列,整体程序最外蹭利用while循环控制结构,循环不重复地遍历队列里面的url页面,每个页面都只保存一个作为展示的主图这样就循环下去程序不停歇地运行也可以放到服务器上面爬取,顺便上传到网盘分享给广大--你懂的
-
- 王者荣耀皮肤高清大图
-
- 背景故事爬虫