1.分析抓取目标,抓取深圳58同城二手市场下所有类目下的商品信息,包括商品名称,价格,地区和发布时间;
2.目标数据分析,通过多个页面观察发现这些信息都可以在商品详情页提取,商品详情页包含所有、个人和商家三个类目,不同的类目url也是跟着变化的,这里只抓取所有商家的商品;
3.通过抓包发现58网站请求是get请求,目标数据都在源码中,所以直接发送get请求返回源码进行解析;
4.设计思路:先获得所有二手类目的url,然后分别发送请求获取类目下所有商品的详情页url,再请求商品详情url解析获取数据
5.为了提升抓取效率采用多进程的方式抓取
1.部分商品不含地区;
2.在抓取的过程中商品可能已经被交易了;
3.一些类目没有分个人和商家需要区别对待;
4.58的反爬,会有ip限制;