Skip to content

freeyiyi1993/winter

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 

Repository files navigation

简介

这是一个简单的scrapy的爬虫 在大神winter删除所有答案之前,备份winter目前为止[2015年05月31日]在知乎的所有答案 原因请戳--> winter的项目地址

本项目作为一个简单的scrapy练手项目,只需要改部分内容,即可爬取知乎任何用户的所有答案 如果您也在用scrapy欢迎交流指正:D

#环境 & Usage

目前实现的功能

命令行下使用scrapy list可以看到三个爬虫

  • q_test: 爬取winter答题首页的所有题目和题目链接
  • question: 进一步跟踪下一页的链接,爬取winter所哟回答过的题目及其链接并存储到数据库
  • answer: 从数据库取出所有链接,进入详情页面,爬题目的详细描述、winter答题的详细内容

todo

  • 题目描述太长的话,会被知乎折叠一部分,本项目目前并不能取到【显示更多】里的描述
  • 处理富文本:比如内容中的图片、a链接
  • winter专栏还没爬
  • winter原项目的【取消所有点赞,批量替换所有答案】功能,没作者权限做不了,后续可以这样玩自己

更新

  • 解决了todo:1描述太长不能获取全部描述的问题

About

围观大神大战知乎,顺便练手做项目

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages