MinerU

1小时前发布 365 00

工具介绍:MinerU是一款开源的智能文档解析与提取工具,能够精准识别还原复杂表格、公式、化学式、化学反应。先进 AI 技术加持,高精度导出CSV、HTML、Markdown,输出LaTeX、MathML,帮助用户科研、教师、企业、程序员快速获取结构化数据。适用多领域,易于操作,高效处理学术和专业技术文档。

收录时间:
2025-12-18

MinerU简介

MinerU是什么?

MinerU是一款开源的智能文档解析与提取工具,能够精准识别还原复杂表格、公式、化学式、化学反应。先进 AI 技术加持,高精度导出CSV、HTML、Markdown,输出LaTeX、MathML,帮助用户科研、教师、企业、程序员快速获取结构化数据。适用多领域,易于操作,高效处理学术和专业技术文档。

MinerU

MinerU提供哪些功能?

  • 全格式兼容+灵活上传:支持多种格式的文档,包括PDF、Word、PPT、图片等格式;提供拖拽上传、截图上传、批量上传三种方式,3秒就能进行文档解析并导出,非常简单。
  • 复杂元素精准提取:精准定位并自动提取文档中的图、表、公式、分子式、化学反应等复杂元素,无需人工录入,避免误差,保证精准提取。
  • 多模态解析能力:自动解析文本、图像等多模态内容信息,适配含多种元素的复杂文档,同时提取等多种要求。
  • 多格式一键转换:一键提取解析后的内容转换为 Markdown、JSON、LaTeX、HTML等常用格式转换成适合自己使用的样式。

适用场景

  • 学术科研场景:提取论文中的公式、图表、反应式等,一键转换为 LaTeX 格式用于论文再次编辑,也转换为 Markdown 格式整理文献报告笔记。
  • 数据复用场景:从中提取 PDF/Word 报告、PPT 表格数据、关键内容的图表,一键转换为 JSON 格式,用于大模型的数据统计分析或适配数据做机器训练、大数据生成语料使用。
  • RAG 应用场景:解析各种文档提取所需的内容/信息,生成结构化的数据,作为大模型 RAG(检索增强)中生成高质量的数据源。
  • 日常办公场景:快速提取文档中的关键元素(如合同中的表格、方案中的图表),转换为 HTML 嵌入网页或 Markdown 整理工作文档,提升办公效率。

MinerU怎么使用?

MinerU核心是「免费文档解析工具」,不用复杂配置,新手优先选WebUI(无代码),想快速批量解析选「基础命令行」,以下是最简步骤:

一、前期准备(仅需 1 步)

先安装基础环境(Windows/Mac/Linux 通用):
  1. 电脑上先装Python 3.9/3.10(官网 https://www.python.org/ 下载,安装时记得勾选 “Add Python to PATH”);
  2. 再打开你电脑上的命令提示符(或者是 Mac 上的终端、Linux 终端)输入如下命令,一运行就可以等待对应install完成就行了:pip install magic-pdf[full]

二、推荐方式:WebUI可视化操作(不用敲代码)

适合完全不懂编程的新手,浏览器点一点就能用:

1. 打开命令提示符 / 终端,输入以下命令启动 WebUI:mineru-gradio
2.启动后,浏览器会自动弹出页面(或手动访问 http://127.0.0.1:7860);
3. 简单3步完成解析:

  • 点击 ” 上传文件 “,选择PDF / Word / PPT / 图片(支持单文件);
  • 点击选语言(中文选 “ch”,英文选 “en”),其他不需要特别修改;
  • 点击 “ 开始解析”,等了会直接下载 Markdown(包括公式、表格)和所有图片。 

三、备选方式:基础命令行(快速批量解析) 

适合想快速处理多个文件的用户,仅需 1 条简单命令:

1. 把你的要解析的文件(比如 paper.pdf)放在电脑桌面上的;
2. 打开命令提示符 / 终端,输入以下命令(复制后改 2 个地方):mineru -p 桌面/paper.pdf -o 桌面/解析结果 -l ch

  • 改 “桌面 /paper.pdf”:你的文件路径(比如桌面的 PDF 文件名);
  • 改 “桌面 / 解析结果”:想保存的文件夹(会自动创建);
  • “-l ch” 是中文文档,英文改 “-l en”。 

3. 按回车,稍等 3~10 秒后桌面上会出现 “解析结果” 文件夹,文件夹内有 Markdown(能编辑图片公式 / 表格)文件和打包下来的图片。

四、简单注意事项

国内下载慢?启动 WebUI 或命令行时,加个参数即可(不用懂原理):
WebUI:mineru-gradio –source modelscope
命令行:mineru -p 桌面/paper.pdf -o 桌面/结果 -l ch –source modelscope

解析失败?基本上就是文档太大,文档太复杂了,把文档拆分成几份去解析(比如只下载10页里的),或换成简单的文档试试;

只想要表格 / 公式?不设置额外选项,工具都会解析出来,Markdown 里公式是 LaTeX 格式,表格直接可复制到 Excel。

数据评估

MinerU浏览人数已经达到365,如你需要查询该站的相关权重信息,可以通过第三方来进行查询,比如爱站、5118数据、chinaz等;更多网站价值评估因素如:该网站的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找该网站的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于MinerU特别声明

本站新媒派提供的该工具内容都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由新媒派实际控制,在2025年12月18日 下午4:21收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,新媒派不承担任何责任。

与MinerU相关工具

GPT for Work

GPT for Work

GPT for Work 是一个专门为办公环境设计的平台, 它使得将人工智能集成到日常工作中变得前所未有的简单。用户可以通过这个平台,在 Microsoft Excel、Word、Google Sheets 和 Docs 等常用办公软件中直接使用 AI 功能。GPT for Work 提供了一系列工具,包括文本编辑、数据分析、内容创作等,旨在提高工作效率和质量。此外,该平台支持多种语言,适合全球用户使用,无论是撰写报告、整理数据还是创作营销材料,GPT for Work 都能提供卓越的帮助。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...