Skip to content

爬虫demo;(58,Amazon,淘宝,京东,分布式,selenium....爬虫总结)

Notifications You must be signed in to change notification settings

pythoner256/spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

73 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

爬虫项目说明

58demo思路

1.分析抓取目标,抓取深圳58同城二手市场下所有类目下的商品信息,包括商品名称,价格,地区和发布时间;

2.目标数据分析,通过多个页面观察发现这些信息都可以在商品详情页提取,商品详情页包含所有、个人和商家三个类目,不同的类目url也是跟着变化的,这里只抓取所有商家的商品;

3.通过抓包发现58网站请求是get请求,目标数据都在源码中,所以直接发送get请求返回源码进行解析;

4.设计思路:先获得所有二手类目的url,然后分别发送请求获取类目下所有商品的详情页url,再请求商品详情url解析获取数据

5.为了提升抓取效率采用多进程的方式抓取

需要注意的点是

1.部分商品不含地区;

2.在抓取的过程中商品可能已经被交易了;

3.一些类目没有分个人和商家需要区别对待;

4.58的反爬,会有ip限制;

About

爬虫demo;(58,Amazon,淘宝,京东,分布式,selenium....爬虫总结)

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published