Skip to content

Latest commit

 

History

History
36 lines (21 loc) · 2.01 KB

README.md

File metadata and controls

36 lines (21 loc) · 2.01 KB

爬虫项目说明

58demo思路

1.分析抓取目标,抓取深圳58同城二手市场下所有类目下的商品信息,包括商品名称,价格,地区和发布时间;

2.目标数据分析,通过多个页面观察发现这些信息都可以在商品详情页提取,商品详情页包含所有、个人和商家三个类目,不同的类目url也是跟着变化的,这里只抓取所有商家的商品;

3.通过抓包发现58网站请求是get请求,目标数据都在源码中,所以直接发送get请求返回源码进行解析;

4.设计思路:先获得所有二手类目的url,然后分别发送请求获取类目下所有商品的详情页url,再请求商品详情url解析获取数据

5.为了提升抓取效率采用多进程的方式抓取

需要注意的点是

1.部分商品不含地区;

2.在抓取的过程中商品可能已经被交易了;

3.一些类目没有分个人和商家需要区别对待;

4.58的反爬,会有ip限制;