
MinerU简介
MinerU是一款将PDF 转化为机器可读格式的强大工具(如 Markdown、JSON)。MinerU 诞生于书生-浦语的预训练过程中,能够保留原 PDF 文档结构,提取文字、图片、图片描述、表格等内容。它自动识别并转换 LaTeX 格式、HTML 格式,支持多语言 OCR 功能,确保高效准确地处理文档。

MinerU:开源的PDF文档提取工具
主要功能特点:
- 删除无关元素:自动删除页眉、页脚、脚注和页码,确保语义连贯。
- 输出符合阅读顺序的文本:适用于单栏、多栏及复杂排版,确保文本符合人类阅读习惯。
- 保留原文档结构:包括标题、段落、列表等。
- 提取图像及表格:包括图像、图片描述、表格、表格标题和脚注。
- 自动转换公式和表格:公式自动识别并转换为 LaTeX 格式,表格转换为 HTML 格式。
- 自动 OCR:自动检测扫描版 PDF 和乱码 PDF,并启用 OCR 功能,支持84种语言的检测与识别。
- 多种输出格式:支持 Markdown、按阅读顺序排序的 JSON 以及含有丰富信息的中间格式。
- 多种可视化结果:包括 layout 可视化、span 可视化,便于高效确认输出效果与质检。
- 环境兼容性:支持 CPU 和 GPU 环境,兼容 Windows、Linux 和 Mac 平台。
MinerU核心功能优势:
- Magic-PDF模块:专注于PDF文档处理,能够智能识别并去除非正文内容如页眉、页脚,同时精准保留标题、段落、列表等结构,支持图片、表格、公式的提取,确保转换后的Markdown格式既准确又易于阅读。
- Magic-Doc模块:针对网页和电子书,能够从网页中提取正式内容。
- 多模态内容处理:MinerU不仅处理文本,还能有效提取和处理图像、表格、公式等多模态内容。
- 多语言支持:MinerU支持包括繁简中文在内的84种语言。
- 格式多样:支持多种输出格式和可视化结果,适配 CPU 和 GPU 环境,兼容多平台。
- 自动识别转换:识别并转换公式为 LaTeX 格式,表格为 LaTeX 或 HTML 格式,还能自动检测并启用 OCR 功能。
MinerU只要应用于学术研究、市场分析、法律文档处理、知识管理等领域,使得我们能高效地从大量文档中提取关键信息,从而加速数据准备过程,为大模型训练、知识图谱构建等提供高质量的数据支持。
MinerU由上海人工智能实验室(上海ai实验室)大模型数据基座OpenDataLab团队开发,并在2024年的WAIC(世界人工智能大会)上发布,迅速在GitHub上获得关注,成为Python的热门项目。
数据评估
关于MinerU特别声明
本站新媒派提供的该工具内容都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由新媒派实际控制,在2024年11月26日 下午7:33收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,新媒派不承担任何责任。
与MinerU相关工具

爱拍压缩大师是一款专业的文件压缩软件,支持视频、音频、图片、PDF和文档等多种格式的快速批量压缩。压缩清晰度接近原文件,且极致体积,同时包含高级功能可供设置,通过先进的算法和无损压缩技术,确保文件在保持高质量的同时大幅减少体积。

PageSplitty
PageSplitty(页页精灵) 是一款浏览器端运行的PDF全能工具,集成高清分页导出、页面旋转排序、美化编辑、裁剪优化、演示展示等五大功能,全部本地运行,保护用户隐私。支持 PNG、JPEG、WebP 格式导出、3D翻页阅读体验、ZIP 打包下载,适用于教程、宣传资料、教学课件等内容场景。

Pandoc
Pandoc是一款强大的开源文档转换工具。它广泛支持多种格式,无论是 Markdown、LaTeX、HTML 还是 Word 和 PDF,Pandoc 都能轻松实现格式互转。它适用于 Windows、macOS 和 Linux 操作系统,用户可以自定义模板、样式和批量操作。Pandoc还支持复杂数学公式、代码高亮、自动生成目录和引用书目管理,是学术写作、日常办公和技术文档处理的理想选择。

docsmall
Docsmall是一个免费的在线图片和PDF处理工具平台,由INTERVAL设计开发,提供轻量、高效且免安装的文档处理能力。支持图片压缩、裁剪、格式转换,以及 PDF 的合并、分割、压缩等操作。平台支持批量上传与加密保护,用户可直接在浏览器中完成各类图像与文档处理,无需安装软件。适用于办公、教学、内容创作等多种场景。

11zon
11zon 是一个多功能在线平台,提供文件压缩、转换和编辑工具。无论是处理 PDF、图像还是其他文件格式,11zon 都能快速、安全地完成任务。

CleverPDF
CleverPDF是一个免费在线PDF转换工具,提供44种常用的PDF在线工具,完全免费。包括PDF转换成Word, Excel, PowerPoint, iWork等转换功能,以及PDF合并拆分,加密PDF,解密PDF,压缩PDF等。所有功能简单易用,只需上传源文件,下载输出文件即可。

ScanPDF
ScanPDF 是一款免费的在线工具,可将普通PDF一键转换为仿扫描件效果,模拟真实纸质扫描质感。支持模糊、噪点、纸张纹理等个性化设置,所有处理均在本地浏览器完成,保障隐私安全,无需注册、无需网络,适合合同、申请表等场景快速生成“扫描版”PDF 文件。

Dpdf
一个在线免费的PDF工具平台,致力于满足用户对PDF文档的全流程需求。功能超多,能合并、拆分 PDF,还能压缩、转换格式,像 PDF 和 Word、ppt、Excel、图片、EPUB、CAJ 等格式都能互相转,还能加删水印、加密解密,页面也能旋转、删除、提取、整理、裁剪、调整尺寸,并支持 OCR文字识别,而且还能修复文件等多种实用功能等你来解锁~

Sumatra PDF
Sumatra PDF是一款轻量级、开源的PDF阅读器,专为Windows用户设计。它支持多种文件格式,包括PDF、ePub、MOBI、CHM、XPS、DjVu、CBZ和CBR。Sumatra PDF以其启动迅速、界面简洁和高效著称,是处理电子书和文档的理想选择。无广告干扰,提供流畅的阅读体验。适合需要快速打开和浏览文档的用户,尤其是在低配置计算机上表现出色。

Stirling-PDF
Stirling-PDF 是一款开源的、基于 Web 的 PDF 处理工具,它提供了一个健壮的、可本地托管的平台,使用 Docker 实现。这个工具允许用户执行多种 PDF 文件操作,包括分割、合并、转换、重新组织、添加图像、旋转和压缩等。

Camelot
Camelot是一个开源 PDF 表格提取工具,专为从 PDF 文件中提取表格数据而设计。无论是流解析还是格子解析,Camelot 都能高效地将 PDF 表格转换为 CSV、Excel、JSON 和 HTML 格式,方便数据分析和处理。其简单易用的接口和强大的功能,使其成为数据科学家和分析师的理想选择。

PDFgear
PDFgear是一款免费的全能PDF软件,提供多种实用功能,帮助用户高效处理PDF文件。主要功能包括PDF阅读、编辑、标注、格式转换、压缩、合并、拆分、表单填写、数字签名和OCR图文识别。支持多语言版本,适用于Windows、macOS和iOS系统。无论是个人用户还是企业用户,PDFgear都能满足您的PDF处理需求。

PDF百宝箱
PDF百宝箱是一个集合多种PDF在线处理功能的平台,提供从文件格式转换到安全设置等全面的PDF处理服务,让你轻松搞定 PDF 文件,无需安装软件,直接在线操作。

ExtractPDF
ExtractPDF是一款免费的在线PDF提取器,专门用于从 PDF 文件中提取文本、图像和字体。无需安装任何软件或插件,用户可以直接在浏览器中使用其提供的功能。该工具界面简单易用,方便用户快速高效地提取所需信息。

Hammer PDF
Hammer PDF是一款智能学术文献阅读器,支持英文论文结构解析、术语翻译、AI 问答与格式化复制,帮助科研人员高效阅读、理解与搜索科技论文,提升研究效率与信息获取能力。

TinyWow
TinyWow是一个免费在线工具平台,提供 PDF 编辑、图像处理、视频转换、AI 写作等 200+ 实用工具,无需注册即可使用,帮助用户高效完成学习、办公与创作任务。
暂无评论...