PS:该项目不再更新&维护
- Windows or Linux
- Python3.5.2(Python 3.x.x)
- urllib
- re,os,time
- json
- bs4(BeautifulSoup)
- requests
- selenium
- jieba
- wordcloud
- matplotlib
- scipy
- snownlp
- xlwt
- xlrd
- [updating...]
- computer_books.py:豆瓣"世界著名计算机教材节选"爬虫
- Eason_Film.py:豆瓣"Eason电影"爬虫(收到知乎网友反映“无法爬取”,经检查发现豆瓣网页HTML结构改版…该代码已不能爬取,考虑有空再重写……)
- emojiCrawler.py:emoji官网爬虫,按官网分类爬取所有不同版本的emoji.png图片(eg:Apple,Samsung.Google etc.)
- wiki_6DegreeSeperation.py:wiki爬虫,广度优先遍历,为证明“六度分割理论”,暂时只能尝试,并非完全证明
- music163_EasonLyrics:网易云Eason所有歌词爬虫 + 文本分析,详见EasonLyrics_README
- getCity.py:基于谷歌地图API简单爬虫,通过经纬度查询该地点所属城市
- music163_EasonComments:网易云Eason所有单曲评论数排行、最新10条评论抓取 & 热门评论文本分析,详见EasonComments_README
- music163_autoSignIn.py:网易云音乐网页端,每天定时自动签到(windows)
- getShares163.py:网易股票数据小爬虫
- [updating...]
- 多线程/进程(解决爬虫太慢)
- Python编程技巧
- [updating...]