
LF AI & Data 基金会正式宣布成立 DocLang 规格工作组(DocLang Specification Working Group),旨在携手行业伙伴共同打造一个开放、面向AI的原生文档格式标准。该工作组将依托联合开发基金会(Joint Development Foundation)的供应商中立治理模式,确保标准路线图不受任何单一企业控制。
工作组首批创始成员包括 IBM、NVIDIA、Red Hat、ABBYY 和 HumanSignal。值得注意的是,在GitHub上的规格文档中,Forgis 也被列为创始成员,但官方公告未提及该公司。目前,DocLang 规格已迭代至 v0.6,采用 Apache 2.0 开源许可,涵盖文档结构语义、几何布局、分页机制,以及表格、图表、公式、代码块等复杂组件。
传统文档格式如 PDF、DOCX、JPEG 虽适合人类阅读,但对机器而言却充满歧义。当这些文件被送入AI管道时,阅读顺序常被打乱,表格被压成纯文本,图片元素完全消失。文档质量反而成为瓶颈,限制了大模型的实际表现。DocLang 正是为了解决这一问题而生——它为AI管道提供单一、无歧义的文档表示,确保同一份文档无论经过何种工具处理,输出结果始终一致。
这次发布的不仅是规格标准。DocLang 将与 IBM 开源文档处理工具 Docling(同样托管在 LF AI & Data)深度协同。两者覆盖文档处理全流程:从文档摄取、解析到标准化表示,再到下游语言模型和智能体AI系统的消费。这意味着企业可以在同一技术栈下完成端到端的AI文档工作流。
DocLang 规范原生支持 音频、图像、视频 内容,并将隐私标志、模型训练约束等治理元数据直接嵌入文档体内,而非存储在独立配置文件中,简化了合规管理。
感兴趣的开发者可前往 GitHub 仓库 查阅完整的 DocLang 规格文档。
关注微信号:智享开源 ,及时了解更新信息。
原文链接:https://feed.itsfoss.com/link/24361/17359462/doclang-new-open-document-standard-for-ai
你必须 登录 才能发表评论.
| 微信捐赠 | 支付宝捐赠 |
|---|---|
![]() |
![]() |
扫码关注公众号:智享开源

[blog_mailer_subscribe]
还没有任何评论,你来说两句吧!