Surya

5个月前发布 509 00

工具介绍:Surya:功能强大的开源OCR文档处理工具包,支持90多种语言的OCR识别,提供布局分析、阅读顺序检测和表格识别等功能。无论是PDF、图像还是Word文档,Surya都能高效处理。基于先进的多模态模型,Surya实现了精准的文本检测、灵活的布局分析和智能的表格识别,提升文档数字化处理效率。

收录时间:
2024-12-24

Surya功能详解与使用指南

Surya:功能强大的开源OCR文档处理工具包,支持90多种语言的OCR识别,提供布局分析、阅读顺序检测和表格识别等功能。无论是PDF、图像还是Word文档,Surya都能高效处理。基于先进的多模态模型,Surya实现了精准的文本检测、灵活的布局分析和智能的表格识别,提升文档数字化处理效率。

Surya

Surya:开源OCR文档处理工具包,支持90多种语言识别

主要功能特点:

  • 多语言OCR: 支持90多种语言的OCR识别,与云服务相比具有竞争力的基准测试结果,覆盖了全球大部分常见语言。
  • 文本检测: 能够进行行级文本检测,不受语言限制,确保精确的文本识别。
  • 布局分析: 检测文档中的表格、图像、标题等元素,提供全面的布局分析功能。
  • 阅读顺序检测: 能够理解文档的逻辑阅读顺序,确保生成的文档内容有序且易于阅读。
  • 表格识别: 识别文档中的表格结构,包括行和列,支持复杂表格的精确提取。
  • 高效性能: 基于先进的多模态模型,Surya实现了高效的文本处理和识别,提升了文档处理效率。
  • 多种文档类型: 支持PDF、图像、Word文档等多种文档格式,灵活应对不同类型的文档处理需求。
  • 使用简便: 安装和使用简单,支持Python 3.10+和PyTorch,用户可以快速上手。
  • GPU优化: 使用GPU时,通过正确设置环境变量,可以显著提高性能,适应大规模文档处理需求。
  • 开源项目: 作为开源项目,Surya可以自由获取和使用,适合开发者进行二次开发和功能扩展。

使用方法:

一、安装和设置:

1.安装Python和PyTorch: Surya需要Python 3.10+和PyTorch。请确保您的环境中安装了这两个工具。

2.克隆Surya项目: 打开终端,运行以下命令克隆Surya项目:

git clone https://github.com/VikParuchuri/surya.git
cd surya

3.安装依赖: 运行以下命令安装Surya的主要和开发依赖项

poetry install

4.激活虚拟环境: 运行以下命令激活虚拟环境

poetry shell

二、使用Surya进行OCR

1.加载模型: Surya的模型权重将在首次运行时自动下载。

2.运行OCR示例代码: 以下是如何从Python使用Surya进行OCR的示例代码

from PIL import Image
from surya.ocr import run_ocr
from surya.model.detection.model import load_model as load_det_model, load_processor as load_det_processor
from surya.model.recognition.model import load_model as load_rec_model
from surya.model.recognition.processor import load_processor as load_rec_processor

# 加载图片
image = Image.open(“IMAGE_PATH”)
langs = [“en”] # 替换为你的语言 – 可选但推荐

# 加载模型
det_processor, det_model = load_det_processor(), load_det_model()
rec_model, rec_processor = load_rec_model(), load_rec_processor()

# 运行OCR
predictions = run_ocr([image], [langs], det_model, det_processor, rec_model, rec_processor)

三、 高级功能

1.启用模型编译: 设置环境变量来启用模型编译

export COMPILE_RECOGNITION=true
export COMPILE_DETECTOR=true
export COMPILE_LAYOUT=true
export COMPILE_TABLE_REC=true
# 或者使用
export COMPILE_ALL=true

2.文本行检测: Surya可以检测文本行并输出包含检测到的边界框的JSON文件。

3.布局和阅读顺序: Surya可以输出包含检测到的布局和阅读顺序的JSON文件。

4.表格识别: Surya可以输出包含检测到的表格单元格和行/列ID以及行/列边界框的JSON文件。

四、性能优化

使用GPU优化: 在使用GPU时,正确设置 RECOGNITION_BATCH_SIZE 环境变量可以显著提高性能。每个批次项将使用40MB的VRAM,可以实现非常高的批量大小。

五、故障排除

提升OCR效果: 增加图像分辨率,使文本更大。如果分辨率已经很高,尝试将其降低到不超过2048px的宽度。 对图像进行预处理(二值化、去倾斜等)可以帮助处理非常老旧/模糊的图像。 可以调整 DETECTOR_BLANK_THRESHOLD 和 DETECTOR_TEXT_THRESHOLD 以获得更好的结果。

通过以上步骤,您可以充分利用 Surya 进行高效的OCR文档处理。

Surya官网无法访问的原因及解决方案

如果你经常无法打开 该网站,可能是以下几个原因造成的。别担心,这里提供了一些有效的解决方案,帮助你顺利访问网站。

一、可能被软件屏蔽:一些应用,如 微信、QQ 等内置浏览器,可能会屏蔽某些网站,使其无法正常打开。

✅ 解决方案:尝试使用 手机自带浏览器(如 Safari、Chrome)打开网址,而不是微信或 QQ 内置的浏览器。

二、浏览器拦截:某些浏览器可能会误判网站为不安全或违规,导致无法访问。实际上,这并不一定意味着网站有问题,而是浏览器厂商的屏蔽策略造成的。

✅ 解决方案:换用 其他浏览器 试试,比如:

  • iPhone 用户:Safari
  • Windows 用户:Microsoft Edge
  • 推荐独立浏览器:Alook 浏览器、X 浏览器、VIA 浏览器等

三、网络连接问题如果你的网络连接不稳定,或者当前运营商未对该网站进行优化,可能会导致访问困难。

✅ 解决方案:

  • 切换网络环境(Wi-Fi、移动数据等)
  • 使用 网络加速器 提高访问稳定性
  • 科学上网(适用于某些网站,如 Google)

以上方法基本上能解决99.99%网站打不开的问题了。如果仍然无法打开,你可以 留言咨询 或 通过微信联系我们 以获取进一步帮助。

数据评估

Surya浏览人数已经达到509,如你需要查询该站的相关权重信息,可以通过第三方来进行查询,比如爱站、5118数据、chinaz等;更多网站价值评估因素如:该网站的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找该网站的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于Surya特别声明

本站新媒派提供的该工具内容都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由新媒派实际控制,在2024年12月24日 下午6:05收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,新媒派不承担任何责任。

相关导航

PicPic

PicPic

PicPic 是字节跳动推出的一款AI生图工具,主要面向东南亚市场。它提供了包括建立数字分身、选择模板、文生图等功能,并且这些功能目前对用户是免费开放的。PicPic 旨在为设计师提供一个更易用、更可控的专业AI绘画工具,与其他市场上的AI绘画工具相比,更适合设计师的专业AI绘画工具,比stable diffusion更易用,比Midjourney更可控,它提供了更适合专业设计师的功能和体验。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...