MediaCrawler是什么?
MediaCrawler是由 NanmiCoder开发并维护的开源Python社交媒体数据采集工具,核心定位为技术学习与非商业研究用的轻量化爬虫框架,主要用于采集和分析各类社交媒体或自媒体平台上的数据。支持小红书、抖音、快手、B站、微博、贴吧、知乎等主流平台的公开信息抓取,包括用户发的笔记、视频、图文等。

MediaCrawler主要功能
- 多平台公开数据采集:可以采集抖音、小红书、B 站、微博、知乎、快手等主流中文社交媒体,采集其平台公开的帖子/视频信息、贴评论(二级评论)、上传者公开的主页数据(如其作品列表、互动数据/获赞数)等;
- 灵活的采集策略:支持关键词搜索采集、指定作品ID精准采集、用户主页批量采集3种采集模式,可设置采集上限数量、时间区间,满足不同维度的需求采集不同数据;
- 低门槛适配反爬:内置基础反爬机制(UA 池、请求频率控制),支持二维码登录态缓存,使用 Playwright 爬取模拟浏览器上下文获取平台加密参数等,不用手动逆向平台接口,新手也能快速配置使用;
- 多格式数据输出:采集的数据可直接导出为CSV、JSON、Excel等通用格式文件,也支持导出到 MySQL 数据库,对接 Pandas、Excel 数据处理相关工具无需配置等;
- 轻量化部署:基于Python3.9+开发,依赖库少,多平台(Windows、macOS、Linux)通用;Pro版本还额外支持Doker容器、轮换多账号,进一步降低部署和使用成本。
适用场景
- 爬虫技术学习:适合爬虫入门者、Python学习者学习爬虫各平台数据爬取实现原理、反爬处理、采集处理接口实现等,爬虫代码结构简单明了,是开源学习的典型范例;
- 非商业数据分析:自媒体从业者、市场分析从业者可以爬取公开行业的关键词、竞对账号数据等爬取内容数据、用户偏好、爆款逻辑等非商业分析研究;
- 学术研究支持:高校师生、科研人员可收集一些免费的社交媒体公开数据,用于社会学、传播学、舆情分析等有关的学术研究(需遵守有关学术伦理和社交媒体规则);
- 个人合规归档:平常个人用户可收集自己公开发表的作品及其周边的相关内容数据,归档本地备份,避免数据丢失。
MediaCrawler怎么用?
- 搭基础环境:电脑安装Python 3.9+,解压源码后,在命令行输入pip install -r requirements.txt安装依赖(报错换国内源加-i https://pypi.tuna.tsinghua.edu.cn/simple);
- 下载源码:从官网(https://nanmicoder.github.io/MediaCrawler/)进入GitHub仓库下载源代码包解压;
- 改核心配置:打开解压文件夹里的config.py/settings.py,只改3个关键参数 —— 选采集平台(如PLATFORM = “xiaohongshu”)、填个采集关键词(如KEYWORDS = [“爆款内容”])、设定采集个数(如MAX_COUNT = 50),代理可不填;
- 启动采集:打开命令行切换至源码文件夹,命令行进入 python main.py,开采集前需要扫码登录指定平台(登录账户会留存),等采集完成即可;
- 提取数据:采集好的内容在源码文件夹data目录里,直接打开 CSV/JSON 文件就行了,就是作品、评论、点赞……等各种资料。