MediaCrawler
MediaCrawler简介
MediaCrawler 是个开源的社交媒体爬虫工具,主要用来自动抓主流社交平台上的公开内容,比如小红书、抖音、快手、微博、Bilibili。能抓的内容有:
用户发的笔记、视频、图文。
视频文件(MP4)、图片(JPG/PNG)。
文字内容,像标题、描述、评论。
用户信息,比如昵称、ID、粉丝数这些。

MediaCrawler核心能力
两种爬法。能用关键词搜,也能按帖子或视频 ID 精准抓,连一级和二级评论都能拿。
能管登录状态。支持二维码或 Cookie 登录,还能存着登录状态,不用老扫码。
防反爬。用 Playwright 模拟真浏览器,自动跑 JS 拿签名参数,不用自己搞复杂的 JS 逆向。还加了 IP 代理池和滑块验证码处理。
输出数据。支持 CSV、JSON、SQLite、MySQL 这些格式,方便后面分析或存数据库。
可视化插件。点一下就能做评论词云,很快看出热点。
断点续爬和多账号(Pro 版)。Pro 版能换多个账号,支持 Linux 守护进程、Docker 部署,代码拆得开,适合大规模或者企业用,也好二次开发。
MediaCrawler技术原理
用 Playwright 开真浏览器,登录后把 Cookie、LocalStorage 这些登录状态留住。
在浏览器里直接跑平台自己的 JS 代码,拿到请求签名参数,再发给后端接口。这样不用去逆向加密算法,省不少事。
MediaCrawler使用场景
内容运营或竞品调研。批量抓竞品的视频和评论,做词云,找热点。
数据分析和情感分析。存评论数据,用来做情感模型、看话题变化。
市场监测。盯着营销活动在微博、抖音的实时反应。
学术舆情研究。拿公开社交数据,帮着做舆情或传播学的分析。
MediaCrawler快速上手
1.克隆仓库
git clone https://github.com/NanmiCoder/MediaCrawler.git cd MediaCrawler
2.安装依赖
python -m venv venv && source venv/bin/activate # Windows 用 Scripts\activate pip install -r requirements.txt playwright install
3.扫码登录并采集
python main.py --platform xhs --lt qrcode --type search
根据提示输入关键词,数据默认保存到 data/ 目录。
法律与合规提醒
作者一直说,只能用来学习研究,不能商用,也不能大规模非法抓。用了就等于同意免责声明。
想要更强并发、企业级维护或者桌面端视频下载器,可以看看作者出的 MediaCrawlerPro 付费版。
总之,MediaCrawler 用浏览器自动化加不用 JS 逆向的办法,把中文社媒数据采集的门槛降了很多,适合运营、数据分析师和研究者快速试想法。
开源地址:https://github.com/NanmiCoder/MediaCrawler
专业论文写作-降AI率
Ai应用
Ai资讯
AI生图
AI生视频
开源AI应用平台




