
MediaCrawler简介
MediaCrawler是什么?
MediaCrawler是由 NanmiCoder开发并维护的开源Python社交媒体数据采集工具,核心定位为技术学习与非商业研究用的轻量化爬虫框架,主要用于采集和分析各类社交媒体或自媒体平台上的数据。支持小红书、抖音、快手、B站、微博、贴吧、知乎等主流平台的公开信息抓取,包括用户发的笔记、视频、图文等。

MediaCrawler主要功能
- 多平台公开数据采集:可以采集抖音、小红书、B 站、微博、知乎、快手等主流中文社交媒体,采集其平台公开的帖子/视频信息、贴评论(二级评论)、上传者公开的主页数据(如其作品列表、互动数据/获赞数)等;
- 灵活的采集策略:支持关键词搜索采集、指定作品ID精准采集、用户主页批量采集3种采集模式,可设置采集上限数量、时间区间,满足不同维度的需求采集不同数据;
- 低门槛适配反爬:内置基础反爬机制(UA 池、请求频率控制),支持二维码登录态缓存,使用 Playwright 爬取模拟浏览器上下文获取平台加密参数等,不用手动逆向平台接口,新手也能快速配置使用;
- 多格式数据输出:采集的数据可直接导出为CSV、JSON、Excel等通用格式文件,也支持导出到 MySQL 数据库,对接 Pandas、Excel 数据处理相关工具无需配置等;
- 轻量化部署:基于Python3.9+开发,依赖库少,多平台(Windows、macOS、Linux)通用;Pro版本还额外支持Doker容器、轮换多账号,进一步降低部署和使用成本。
适用场景
- 爬虫技术学习:适合爬虫入门者、Python学习者学习爬虫各平台数据爬取实现原理、反爬处理、采集处理接口实现等,爬虫代码结构简单明了,是开源学习的典型范例;
- 非商业数据分析:自媒体从业者、市场分析从业者可以爬取公开行业的关键词、竞对账号数据等爬取内容数据、用户偏好、爆款逻辑等非商业分析研究;
- 学术研究支持:高校师生、科研人员可收集一些免费的社交媒体公开数据,用于社会学、传播学、舆情分析等有关的学术研究(需遵守有关学术伦理和社交媒体规则);
- 个人合规归档:平常个人用户可收集自己公开发表的作品及其周边的相关内容数据,归档本地备份,避免数据丢失。
MediaCrawler怎么用?
- 搭基础环境:电脑安装Python 3.9+,解压源码后,在命令行输入pip install -r requirements.txt安装依赖(报错换国内源加-i https://pypi.tuna.tsinghua.edu.cn/simple);
- 下载源码:从官网(https://nanmicoder.github.io/MediaCrawler/)进入GitHub仓库下载源代码包解压;
- 改核心配置:打开解压文件夹里的config.py/settings.py,只改3个关键参数 —— 选采集平台(如PLATFORM = “xiaohongshu”)、填个采集关键词(如KEYWORDS = [“爆款内容”])、设定采集个数(如MAX_COUNT = 50),代理可不填;
- 启动采集:打开命令行切换至源码文件夹,命令行进入 python main.py,开采集前需要扫码登录指定平台(登录账户会留存),等采集完成即可;
- 提取数据:采集好的内容在源码文件夹data目录里,直接打开 CSV/JSON 文件就行了,就是作品、评论、点赞……等各种资料。
MediaCrawler官网无法访问的常见原因及解决方案
如果你经常打不开MediaCrawler网站,最可能的原因有以下一些。别怕,还有办法帮助你顺利访问网站。
解决方案:采用自己手机的浏览器打开该网址,如Safari、Chrome等,而不是用微信或QQ的浏览器。
解决方案:通过其它浏览器可能打开,例如:iphone用户Safari,windows用户(微软),Edge。推荐独立浏览器:Alook浏览器、X 浏览器、VIA 浏览器等
解决方案:切换到其他网络环境(wifi、移动数据等)用网络加速器让访问更顺畅科学上网(如访问 google 网站)
关于MediaCrawler特别声明
本站新媒派提供的MediaCrawler内容都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由新媒派实际控制,在2026年2月1日 下午1:57收录时,该网页上的内容,都属于合规合法,后期网页的内容如有出现违规,可以直接联系网站管理员进行删除,新媒派不承担任何责任。
相关导航

Spark-TTS是SparkAudio团队开源的基于大型语言模型(LLM)的高效文本转语音(TTS)工具,无需额外的生成模型,直接从LLM预测的编码中重建音频,实现零样本文本到语音的转换。Spark-TTS支持中英双语,具备跨语言合成能力,可通过参数调整(如性别、音调、语速)生成虚拟说话者的声音,满足多样化需求。

Blender
Blender是一款免费开源的3D内容创作软件,支持建模、动画、渲染、VFX 特效、视频剪辑与 2D 绘图,适合艺术家、游戏开发者与影视工作者。内置 Cycles 渲染器与 Python 插件机制,助力高效创作与定制工作流。

DBeaver
DBeaver - 免费开源跨平台数据库管理工具,支持 MySQL/PostgreSQL/Oracle 等主流数据库,提供可视化 SQL 编辑器、数据迁移、ER 图设计等功能。兼容 Windows/macOS/Linux,社区版永久免费,商业版支持 NoSQL 与企业级扩展。

SuperClaude
SuperClaude是一款专为Claude Code打造的开源增强框架,通过结构化命令与认知角色系统,支持项目构建、代码分析、安全审计与性能优化,帮助开发者高效完成复杂任务并保持上下文一致性。

微信视频号下载工具
微信视频号下载工具是一款开源、跨平台的实用软件,支持视频下载、数据采集与导出,既能满足个人收藏需求,也能为运营人员提供数据支持。

Weylus
Weylus是一款免费开源的跨平台数位板工具,可以将您的平板电脑或智能手机变成计算机的图形输入板或触摸屏。支持 Windows、Linux 和 macOS 系统,以及 iOS 和 Android 设备。通过局域网无线连接,实现精准触控输入,支持多点触控、压感绘图和手势操作。Weylus 特别适合远程教学、数字绘画和线上会议,让您的远程办公与教学更加高效。

jarkViewer看图
jarkViewer是一款开源的多格式看图工具,支持JPG、PNG、WebP、AVIF、HEIC、RAW等主流与专业格式,提供快捷键操作、动图逐帧浏览、打印增强及AI提示词读取功能,轻量高效,适合日常与专业用户。

ComoRAG
ComoRAG是一个受认知启发的记忆组织型检索增强生成(RAG)系统,专为长文档与多文档任务设计,支持问答、信息提取和知识图谱构建。它集成多种大型语言模型(LLM)、嵌入模型、图增强推理与多维评估工具,通过动态记忆工作区与迭代推理循环,实现对复杂长篇叙事的全局理解与精准回答。
暂无评论...

