AI原生文档标准DocLang:破解PDF/DOCX的机器解读困局

AI原生文档标准DocLang:破解PDF/DOCX的机器解读困局

新开放标准工作组成立,直击AI文档处理痛点

LF AI & Data 基金会正式宣布成立 DocLang 规格工作组(DocLang Specification Working Group),旨在携手行业伙伴共同打造一个开放、面向AI的原生文档格式标准。该工作组将依托联合开发基金会(Joint Development Foundation)的供应商中立治理模式,确保标准路线图不受任何单一企业控制。

创始成员阵容与规范现状

工作组首批创始成员包括 IBM、NVIDIA、Red Hat、ABBYYHumanSignal。值得注意的是,在GitHub上的规格文档中,Forgis 也被列为创始成员,但官方公告未提及该公司。目前,DocLang 规格已迭代至 v0.6,采用 Apache 2.0 开源许可,涵盖文档结构语义、几何布局、分页机制,以及表格、图表、公式、代码块等复杂组件。

为何现有文档格式让AI“头疼”?

传统文档格式如 PDF、DOCX、JPEG 虽适合人类阅读,但对机器而言却充满歧义。当这些文件被送入AI管道时,阅读顺序常被打乱,表格被压成纯文本,图片元素完全消失。文档质量反而成为瓶颈,限制了大模型的实际表现。DocLang 正是为了解决这一问题而生——它为AI管道提供单一、无歧义的文档表示,确保同一份文档无论经过何种工具处理,输出结果始终一致。

DocLang 与 Docling 的“双剑合璧”

这次发布的不仅是规格标准。DocLang 将与 IBM 开源文档处理工具 Docling(同样托管在 LF AI & Data)深度协同。两者覆盖文档处理全流程:从文档摄取、解析到标准化表示,再到下游语言模型和智能体AI系统的消费。这意味着企业可以在同一技术栈下完成端到端的AI文档工作流。

原生支持多模态与治理元数据

DocLang 规范原生支持 音频、图像、视频 内容,并将隐私标志、模型训练约束等治理元数据直接嵌入文档体内,而非存储在独立配置文件中,简化了合规管理。

目标用户:大型文档集的AI工作流

  • 企业级生成式AI:运行在庞大文档集上的生成式AI及智能体工作流是首要受众。
  • LLM与视觉语言模型开发者:Docling 和 ABBYY FineReader Engine 已原生支持 DocLang 输出,现有管道无需改造即可采用标准。
  • 任何使用真实世界文档的AI系统:从合同分析到知识管理,DocLang 让AI能“读懂”文档结构而非仅依赖视觉渲染。

感兴趣的开发者可前往 GitHub 仓库 查阅完整的 DocLang 规格文档。


关注微信号:智享开源 ,及时了解更新信息。

原文链接:https://feed.itsfoss.com/link/24361/17359462/doclang-new-open-document-standard-for-ai

评论列表

发表评论

你必须 登录 才能发表评论.

为您推荐


请支持IMCN发展!

谁在捐赠

微信捐赠 支付宝捐赠
微信捐赠 支付宝捐赠
ta的个人站点

发表文章4347篇

关注我的头条 不要放弃,百折不挠,坚强、自信。


扫码关注公众号:智享开源

最新科技信息


[blog_mailer_subscribe]

归档

近期评论