爬虫练习

爬虫框架:
对gocolly框架学习并进行代码重组的库代码. 爬虫框架并不重要，看了几个都是大同小异。对信息流抓取场景来说，由于重点是数据的整合/清理，而不是通用爬虫框架的深度/宽带爬取，所有所谓框架的很多能力也用不到。

更多的是需要花费在对网页的结构分析上。
抓取实验代码
- 场景1： JS中动态内容，实验对象“UC信息流抓取” , 实验代码 _example/uc/basic.go
- 场景2：实验对象“微博热搜榜抓取” , 实验代码 _example/weibohotsou/basic.go
- 场景3：实验对象“百度信息流抓取” , 实验代码 _example/baidu/basic.go
- 场景4：实验对象“凤凰信息流抓取” , 实验代码 _example/ifeng/headless.go 通过headless chrome抓取内容
- 场景5：实验对象“一点咨询信息流抓取” , 实验代码 _example/yidianzixun/basic.go
- 场景5：实验对象“头条频道抓取” , 实验代码 _example/toutiaochannel/basic.go

几个资源

安装并使用chrome xpath helper

安装

#1.对chrome的快捷键添加参数：在目标(T)后添加参数   --enable-easy-off-store-extension-install （注意在添加参数之前，要有个空格），添加完之后点击确认
#2.通过快捷键启动chrome，进入谷歌浏览器的 "拓展程序" 页面（即在谷歌浏览器地址栏输入：chrome://extensions/）。将下载下来的“xpath-helper.crx”拖到里面

使用在chrome中ctrl+shift+x 启动xpath helper，启动后会出现xpath 的query/result 窗口

在query窗口录入/或通过chrome F12查找拷贝到的xpath录入在query窗口中，可以实时在result窗口与浏览器中看到结果

安装使用Fiddler

爬虫怎么把自己伪装为一个正常的浏览器用户，是爬虫一个很重要的方面。因此通过类似fiddler工具查看普通上网行为，伪装类似user-agent，http-header... 是常见的操作。

安装headless chrome docker， ifeng 实验代码需要

docker run -d -p 9222:9222 --rm --name headless-shell chromedp/headless-shell

Intercepting and Modifying responses with Chrome via the Devtools Protocol,对应中文翻译https://www.anquanke.com/post/id/160160

Getting Started with Headless Chrome ,对应中文翻译Headless Chrome 入门

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
_example		_example
core		core
query		query
storage		storage
readme.md		readme.md
spider.go		spider.go
spideroption.go		spideroption.go
tofile.go		tofile.go

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

爬虫练习

几个资源

About

Releases

Packages

Languages

flyingyizi/spider

Folders and files

Latest commit

History

Repository files navigation

爬虫练习

几个资源

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages