AI原生文档标准DocLang：破解PDF/DOCX的机器解读困局

Mark Do 2026年6月11日评论已关闭阅读 2,351 次

新开放标准工作组成立，直击AI文档处理痛点

LF AI & Data 基金会正式宣布成立 DocLang 规格工作组（DocLang Specification Working Group），旨在携手行业伙伴共同打造一个开放、面向AI的原生文档格式标准。该工作组将依托联合开发基金会（Joint Development Foundation）的供应商中立治理模式，确保标准路线图不受任何单一企业控制。

创始成员阵容与规范现状

工作组首批创始成员包括 IBM、NVIDIA、Red Hat、ABBYY 和 HumanSignal。值得注意的是，在GitHub上的规格文档中，Forgis 也被列为创始成员，但官方公告未提及该公司。目前，DocLang 规格已迭代至 v0.6，采用 Apache 2.0 开源许可，涵盖文档结构语义、几何布局、分页机制，以及表格、图表、公式、代码块等复杂组件。

为何现有文档格式让AI“头疼”？

传统文档格式如 PDF、DOCX、JPEG 虽适合人类阅读，但对机器而言却充满歧义。当这些文件被送入AI管道时，阅读顺序常被打乱，表格被压成纯文本，图片元素完全消失。文档质量反而成为瓶颈，限制了大模型的实际表现。DocLang 正是为了解决这一问题而生——它为AI管道提供单一、无歧义的文档表示，确保同一份文档无论经过何种工具处理，输出结果始终一致。

DocLang 与 Docling 的“双剑合璧”

这次发布的不仅是规格标准。DocLang 将与 IBM 开源文档处理工具 Docling（同样托管在 LF AI & Data）深度协同。两者覆盖文档处理全流程：从文档摄取、解析到标准化表示，再到下游语言模型和智能体AI系统的消费。这意味着企业可以在同一技术栈下完成端到端的AI文档工作流。

原生支持多模态与治理元数据

DocLang 规范原生支持 音频、图像、视频 内容，并将隐私标志、模型训练约束等治理元数据直接嵌入文档体内，而非存储在独立配置文件中，简化了合规管理。

目标用户：大型文档集的AI工作流

企业级生成式AI：运行在庞大文档集上的生成式AI及智能体工作流是首要受众。
LLM与视觉语言模型开发者：Docling 和 ABBYY FineReader Engine 已原生支持 DocLang 输出，现有管道无需改造即可采用标准。
任何使用真实世界文档的AI系统：从合同分析到知识管理，DocLang 让AI能“读懂”文档结构而非仅依赖视觉渲染。

感兴趣的开发者可前往 GitHub 仓库查阅完整的 DocLang 规格文档。

关注微信号：智享开源 ，及时了解更新信息。

原文链接：https://feed.itsfoss.com/link/24361/17359462/doclang-new-open-document-standard-for-ai