仓库描述

说明： 本仓库Fork自NanmiCoder/MediaCrawler

免责声明：

本仓库的所有内容仅供学习和参考之用，禁止用于商业用途。任何人或组织不得将本仓库的内容用于非法用途或侵犯他人合法权益。本仓库所涉及的爬虫技术仅用于学习和研究，不得用于对其他平台进行大规模爬虫或其他非法行为。对于因使用本仓库内容而引起的任何法律责任，本仓库不承担任何责任。使用本仓库的内容即表示您同意本免责声明的所有条款和条件。

仓库描述

小红书爬虫，抖音爬虫， 快手爬虫， B站爬虫， 微博爬虫...。
目前能抓取小红书、抖音、快手、B站、微博的视频、图片、评论、点赞、转发等信息。

原理：利用playwright搭桥，保留登录成功后的上下文浏览器环境，通过执行JS表达式获取一些加密参数通过使用此方式，免去了复现核心加密JS代码，逆向难度大大降低

欢迎大家贡献代码提交PR

视频配置教程：MediaCrawler视频入门教程

功能列表

平台	Cookie 登录	二维码登录	指定创作者主页	关键词搜索	指定视频/帖子 ID 爬取	登录状态缓存	数据保存	IP 代理池	滑块验证码
小红书	✅	✅	✅	✅	✅	✅	✅	✅	✕
抖音	✅	✅	✕	✅	✅	✅	✅	✅	✅
快手	✅	✅	✕	✅	✅	✅	✅	✅	✕
B 站	✅	✅	✕	✅	✅	✅	✅	✅	✕
微博	✅	✅	✕	✅	✅	✅	✅	✅	✕

使用方法

创建并激活 python 虚拟环境

# 进入项目根目录
cd MediaCrawler

# 创建虚拟环境
python -m venv venv

# macos & linux 激活虚拟环境
source venv/bin/activate

# windows 激活虚拟环境
venv\Scripts\activate

安装依赖库

pip3 install -r requirements.txt

安装 playwright浏览器驱动

playwright install

运行爬虫程序

# 默认没有开启评论爬取模式，有需要请到配置文件中指定
# 从配置文件中读取关键词搜索相关的帖子并爬去帖子信息与评论
python main.py --platform xhs --lt qrcode --type search

# 从配置文件中读取指定的帖子ID列表获取指定帖子的信息与评论信息
python main.py --platform xhs --lt qrcode --type detail

# 打开对应APP扫二维码登录
  
# 其他平台爬虫使用示例, 执行下面的命令查看
python main.py --help

数据保存

支持保存到关系型数据库（Mysql、PgSQL等）
支持保存到csv中（data/目录下）
支持保存到json中（data/目录下）

打赏

如果觉得项目不错的话可以打赏哦。您的支持就是我最大的动力！

捐赠信息

PS：如果打赏时请备注捐赠者，如有遗漏请联系我添加（有时候消息多可能会漏掉，十分抱歉）

捐赠者	捐赠金额	捐赠日期

运行报错常见问题Q&A

遇到问题先自行搜索解决下，现在AI很火，用ChatGPT大多情况下能解决你的问题

➡️➡️➡️ 常见问题

项目代码结构

➡️➡️➡️ 项目代码结构说明

手机号登录说明

➡️➡️➡️ 手机号登录说明

star 趋势图

如果该项目对你有帮助，star一下 ❤️❤️❤️

参考

xhs客户端 ReaJason的xhs仓库
短信转发参考仓库
内网穿透工具 ngrok

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
base		base
config		config
docs		docs
libs		libs
media_platform		media_platform
proxy		proxy
static/images		static/images
store		store
test		test
tools		tools
.gitattributes		.gitattributes
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
db.py		db.py
main.py		main.py
mypy.ini		mypy.ini
recv_sms_notification.py		recv_sms_notification.py
requirements.txt		requirements.txt
var.py		var.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

仓库描述

功能列表

使用方法

创建并激活 python 虚拟环境

安装依赖库

安装 playwright浏览器驱动

运行爬虫程序

数据保存

打赏

捐赠信息

运行报错常见问题Q&A

项目代码结构

手机号登录说明

star 趋势图

参考

About

Releases

Packages

Languages

License

mgz0227/MediaCrawler

Folders and files

Latest commit

History

Repository files navigation

仓库描述

功能列表

使用方法

创建并激活 python 虚拟环境

安装依赖库

安装 playwright浏览器驱动

运行爬虫程序

数据保存

打赏

捐赠信息

运行报错常见问题Q&A

项目代码结构

手机号登录说明

star 趋势图

参考

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages