Skip to content

flyingyizi/spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

15 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

爬虫练习

  • 爬虫框架:
    gocolly框架学习并进行代码重组的库代码. 爬虫框架并不重要,看了几个都是大同小异。对信息流抓取场景来说,由于重点是数据的整合/清理, 而不是通用爬虫框架的深度/宽带爬取,所有所谓框架的很多能力也用不到。

    更多的是需要花费在对网页的结构分析上。

  • 抓取实验代码

    • 场景1: JS中动态内容,实验对象“UC信息流抓取” , 实验代码 _example/uc/basic.go
    • 场景2: 实验对象“微博热搜榜抓取” , 实验代码 _example/weibohotsou/basic.go
    • 场景3: 实验对象“百度信息流抓取” , 实验代码 _example/baidu/basic.go
    • 场景4: 实验对象“凤凰信息流抓取” , 实验代码 _example/ifeng/headless.go 通过headless chrome抓取内容
    • 场景5: 实验对象“一点咨询信息流抓取” , 实验代码 _example/yidianzixun/basic.go
    • 场景5: 实验对象“头条频道抓取” , 实验代码 _example/toutiaochannel/basic.go

几个资源

  • 安装并使用chrome xpath helper

    xpath helper 网盘链接 密码:zwvb

    • 安装

      #1.对chrome的快捷键添加参数:在目标(T)后添加参数   --enable-easy-off-store-extension-install (注意在添加参数之前,要有个空格),添加完之后点击确认
      #2.通过快捷键启动chrome,进入谷歌浏览器的 "拓展程序" 页面(即在谷歌浏览器地址栏输入:chrome://extensions/)。将下载下来的“xpath-helper.crx”拖到里面
    • 使用 在chrome中ctrl+shift+x 启动xpath helper,启动后会出现xpath 的query/result 窗口

      在query窗口录入/或通过chrome F12查找拷贝到的xpath录入在query窗口中,可以实时在result窗口与浏览器中看到结果

  • 安装使用Fiddler

    爬虫怎么把自己伪装为一个正常的浏览器用户,是爬虫一个很重要的方面。因此通过类似fiddler工具查看普通上网行为,伪装类似user-agent,http-header... 是常见的操作。

  • 安装headless chrome docker, ifeng 实验代码需要

    docker run -d -p 9222:9222 --rm --name headless-shell chromedp/headless-shell

Intercepting and Modifying responses with Chrome via the Devtools Protocol,对应中文翻译https://www.anquanke.com/post/id/160160

Getting Started with Headless Chrome ,对应中文翻译Headless Chrome 入门

About

爬虫实验

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published