-
爬虫框架:
对gocolly框架学习并进行代码重组的库代码. 爬虫框架并不重要,看了几个都是大同小异。对信息流抓取场景来说,由于重点是数据的整合/清理, 而不是通用爬虫框架的深度/宽带爬取,所有所谓框架的很多能力也用不到。更多的是需要花费在对网页的结构分析上。
-
抓取实验代码
- 场景1: JS中动态内容,实验对象“UC信息流抓取” , 实验代码 _example/uc/basic.go
- 场景2: 实验对象“微博热搜榜抓取” , 实验代码 _example/weibohotsou/basic.go
- 场景3: 实验对象“百度信息流抓取” , 实验代码 _example/baidu/basic.go
- 场景4: 实验对象“凤凰信息流抓取” , 实验代码 _example/ifeng/headless.go 通过headless chrome抓取内容
- 场景5: 实验对象“一点咨询信息流抓取” , 实验代码 _example/yidianzixun/basic.go
- 场景5: 实验对象“头条频道抓取” , 实验代码 _example/toutiaochannel/basic.go
-
安装并使用chrome xpath helper
xpath helper 网盘链接 密码:zwvb
-
安装
#1.对chrome的快捷键添加参数:在目标(T)后添加参数 --enable-easy-off-store-extension-install (注意在添加参数之前,要有个空格),添加完之后点击确认 #2.通过快捷键启动chrome,进入谷歌浏览器的 "拓展程序" 页面(即在谷歌浏览器地址栏输入:chrome://extensions/)。将下载下来的“xpath-helper.crx”拖到里面
-
使用 在chrome中ctrl+shift+x 启动xpath helper,启动后会出现xpath 的query/result 窗口
在query窗口录入/或通过chrome F12查找拷贝到的xpath录入在query窗口中,可以实时在result窗口与浏览器中看到结果
-
-
安装使用Fiddler
爬虫怎么把自己伪装为一个正常的浏览器用户,是爬虫一个很重要的方面。因此通过类似fiddler工具查看普通上网行为,伪装类似user-agent,http-header... 是常见的操作。
-
安装headless chrome docker, ifeng 实验代码需要
docker run -d -p 9222:9222 --rm --name headless-shell chromedp/headless-shell
Intercepting and Modifying responses with Chrome via the Devtools Protocol,对应中文翻译https://www.anquanke.com/post/id/160160
Getting Started with Headless Chrome ,对应中文翻译Headless Chrome 入门