MediaCrawler

MediaCrawler

一个功能强大的多平台自媒体数据采集工具,支持小红书、抖音、快手、B站、微博、贴吧、知乎等主流平台的公开信息抓取,包括用户发的笔记、视频、图文等。

#Ai工具箱 #Ai开源项目
收藏

MediaCrawler简介

MediaCrawler 是个开源的社交媒体爬虫工具,主要用来自动抓主流社交平台上的公开内容,比如小红书、抖音、快手、微博、Bilibili。能抓的内容有:

  • 用户发的笔记、视频、图文。

  • 视频文件(MP4)、图片(JPG/PNG)。

  • 文字内容,像标题、描述、评论。

  • 用户信息,比如昵称、ID、粉丝数这些。

MediaCrawler

MediaCrawler核心能力

  • 两种爬法。能用关键词搜,也能按帖子或视频 ID 精准抓,连一级和二级评论都能拿。

  • 能管登录状态。支持二维码或 Cookie 登录,还能存着登录状态,不用老扫码。

  • 防反爬。用 Playwright 模拟真浏览器,自动跑 JS 拿签名参数,不用自己搞复杂的 JS 逆向。还加了 IP 代理池和滑块验证码处理。

  • 输出数据。支持 CSV、JSON、SQLite、MySQL 这些格式,方便后面分析或存数据库。

  • 可视化插件。点一下就能做评论词云,很快看出热点。

  • 断点续爬和多账号(Pro 版)。Pro 版能换多个账号,支持 Linux 守护进程、Docker 部署,代码拆得开,适合大规模或者企业用,也好二次开发。

MediaCrawler技术原理

  • 用 Playwright 开真浏览器,登录后把 Cookie、LocalStorage 这些登录状态留住。

  • 在浏览器里直接跑平台自己的 JS 代码,拿到请求签名参数,再发给后端接口。这样不用去逆向加密算法,省不少事。

MediaCrawler使用场景

  • 内容运营或竞品调研。批量抓竞品的视频和评论,做词云,找热点。

  • 数据分析和情感分析。存评论数据,用来做情感模型、看话题变化。

  • 市场监测。盯着营销活动在微博、抖音的实时反应。

  • 学术舆情研究。拿公开社交数据,帮着做舆情或传播学的分析。

MediaCrawler快速上手

1.克隆仓库

git clone https://github.com/NanmiCoder/MediaCrawler.git
cd MediaCrawler

2.安装依赖

python -m venv venv && source venv/bin/activate  # Windows 用 Scripts\activate
pip install -r requirements.txt
playwright install

3.扫码登录并采集

python main.py --platform xhs --lt qrcode --type search

根据提示输入关键词,数据默认保存到 data/ 目录。

法律与合规提醒

作者一直说,只能用来学习研究,不能商用,也不能大规模非法抓。用了就等于同意免责声明。

想要更强并发、企业级维护或者桌面端视频下载器,可以看看作者出的 MediaCrawlerPro 付费版。

总之,MediaCrawler 用浏览器自动化加不用 JS 逆向的办法,把中文社媒数据采集的门槛降了很多,适合运营、数据分析师和研究者快速试想法。

开源地址:https://github.com/NanmiCoder/MediaCrawler

与MediaCrawler相关工具