Unlimited-OCR – 百度开源的端到端长文档OCR模型

AI模型7小时前更新 老高
27 0

Unlimited-OCR快速摘要

Unlimited-OCR是百度于2026年6月推出的开源OCR模型,采用3B参数MoE架构和R-SWA注意力机制,支持40页以上长文档OCR、PDF解析、表格识别和公式提取。在OmniDocBench v1.6测试中取得93.92分,推理速度达到5580 TPS,适用于企业档案数字化和学术文献处理场景。

  • 模型名称:Unlimited-OCR
  • 开发公司:百度
  • 发布时间:2026年6月22日开源
  • 模型架构:3B参数MoE架构,500M激活参数
  • 核心功能:长文档OCR、多页PDF解析、表格识别、公式识别、阅读顺序恢复
  • 技术特点:R-SWA参考滑动窗口注意力机制、常数KV Cache设计
  • 最大输出:支持32K长输出序列
  • 长文档能力:支持40页以上文档单次前向解析
  • 性能表现:OmniDocBench v1.6:93.92分;推理速度:5580 TPS
  • 开源情况:模型权重与代码均已开源,采用MIT License
Unlimited-OCR – 百度开源的端到端长文档OCR模型

Unlimited-OCR的核心优势

  • 超长文档解析:Unlimited-OCR支持40页以上PDF单次前向识别,无需传统OCR常见的分页循环处理方式,在档案、书籍和论文场景中可直接完成连续内容提取。
  • 公开测试成绩突出:模型在OmniDocBench v1.5获得93.23分,在OmniDocBench v1.6达到93.92分,公开成绩高于DeepSeek-OCR系列模型,覆盖文本、表格和公式等核心任务。
  • 资源占用稳定:R-SWA机制将KV Cache控制在固定规模,随着输出内容增长,显存占用和推理延迟不会同步增加,更适合长文档OCR任务。
  • 推理效率较高:公开数据显示模型推理速度达到5580 TPS,在处理长篇报告、教材和研究资料时能够缩短整体处理时间,提高批量任务效率。
  • 结构化输出完整:支持文本识别、公式恢复、表格解析和阅读顺序重建,可直接输出适用于知识库、RAG系统和内容管理平台的结构化结果。

Unlimited-OCR的核心功能

  • 多页PDF识别:支持40页以上文档连续解析,上传整本论文、技术手册或扫描档案后,可一次生成完整文本内容,无需额外分页调度。
  • 复杂版面解析:适用于教材、杂志、研究报告和试卷等复杂排版场景,能够识别多栏布局、图片混排和章节结构,恢复正确阅读顺序。
  • 公式识别输出:支持数学公式提取与结构恢复,可处理积分、矩阵和统计公式等内容,适用于科研文献整理和教育资料数字化。
  • 表格结构提取:支持财务报表、统计表和跨行跨列表格识别,输出结构化数据,方便后续导入数据库或进行数据分析。
  • 长文本连续生成:最大支持32K输出长度,可一次完成大型文档转录任务,减少传统OCR模型因上下文限制带来的内容割裂问题。

Unlimited-OCR的技术原理

  • R-SWA机制:Reference Sliding Window Attention仅保留参考Token和最近128个输出Token参与计算,降低长序列推理的计算与缓存压力。
  • 常数KV Cache:通过固定容量缓存队列替代传统线性增长方案,使模型在长文档生成过程中保持稳定显存占用和推理效率。
  • 视觉编码器:采用SAM-ViT与CLIP-ViT组合架构,将1024×1024图像压缩为256个视觉Token,在降低计算量的同时保留关键信息。
  • MoE解码器:模型总参数规模为3B,激活参数约500M,通过专家路由机制动态分配计算资源,提高推理效率。
  • 长输出训练:基于DeepSeek-OCR继续训练约4000步,并支持32K输出长度,使模型能够处理超长文档OCR任务。

Unlimited-OCR与主流模型对比

维度Unlimited-OCRDeepSeek-OCRGLM-OCRMistral OCR
开发方百度DeepSeek智谱AIMistral AI
长文档支持40+页需分页支持支持
架构特点R-SWA全注意力VLMOCR模型
OmniDocBench v1.693.9290.25未公开未公开
推理速度5580 TPS4951 TPS未公开未公开
开源情况开源开源部分开放闭源

Unlimited-OCR与DeepSeek-OCR最大的区别在于长文档推理架构。DeepSeek-OCR采用传统全注意力机制,输出越长缓存开销越大;Unlimited-OCR通过R-SWA实现常数级KV Cache管理,因此在数十页文档场景中更具优势。GLM-OCR更侧重文档理解与多模态问答,而Mistral OCR主要提供云端OCR能力。从公开测试数据看,Unlimited-OCR在长文档处理效率和OmniDocBench成绩方面表现较为突出。

如何使用Unlimited-OCR

  1. 下载模型:通过GitHub baidu/Unlimited-OCR或Hugging Face baidu/Unlimited-OCR获取源码和权重文件,准备支持CUDA的GPU环境。
  2. 部署环境:安装Transformers或SGLang推理框架,并配置模型运行依赖。
  3. 上传文档:输入PDF或页面图像文件,多页文档可直接提交,无需手动分页处理。
  4. 获取结果:模型自动输出文本、公式、表格和版面结构,可保存为Markdown或结构化数据格式。

Unlimited-OCR的局限性

  • 商业服务信息有限:当前公开资料主要围绕开源模型和研究成果,尚未公布统一商业API及定价方案。
  • 部署依赖GPU资源:虽然采用MoE架构降低激活参数规模,但长文档批量处理仍需要较高算力支持。
  • 生态仍在发展:作为2026年发布的新模型,目前第三方工具链、案例和企业级集成资源相对有限。

Unlimited-OCR相关资源

Unlimited-OCR的典型应用场景

  • 企业档案数字化:批量处理扫描合同、历史档案和内部资料,输出可检索文本和结构化数据。
  • 学术论文解析:识别论文中的正文、公式和表格内容,便于知识库建设和文献检索。
  • 教育资料整理:处理教材、试卷和练习册,恢复版面结构并提取题目内容。
  • 法律文档分析:将长篇合同和法规文件转换为可搜索文本,为后续审查和分析提供基础数据。
  • 图书数字化:支持书籍、杂志和期刊内容转录,适用于数字图书馆和知识管理场景。

Unlimited-OCR常见问题

Unlimited-OCR怎么用?

下载模型权重后,通过Transformers或SGLang完成部署,上传PDF或图像即可执行OCR任务,适合本地化和私有化场景。

Unlimited-OCR免费吗?

Unlimited-OCR已开源发布,代码和模型权重可获取,但实际使用仍需承担服务器和GPU资源成本。

Unlimited-OCR和DeepSeek-OCR哪个好?

从公开测试结果看,Unlimited-OCR在OmniDocBench v1.6取得93.92分,同时更适合超长文档连续解析场景。

Unlimited-OCR支持多页PDF吗?

支持。模型可完成40页以上文档单次前向解析,无需传统分页处理流程。

Unlimited-OCR是否提供商业API?

截至目前公开资料,官方尚未公布统一商业API服务,企业用户主要通过开源方式部署使用。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...