来自 JPMorgan 的 DocLLM:一种面向布局的生成式语言模型,能理解多模态文档
对于企业文档来说,不仅仅是文本类型,还有很多复杂的类型,例如表格、发票、收据、报告、合同等,其中都包含着丰富的文字和空间交互信息。这些文档复杂的布局提供了视觉线索,对于有效理解这些文档至关重要。
本论文以此建议了一种轻量级扩展的大语言模型(LLMs) - DocLLM,这款模型可在处理可视文档时,同时考虑到文本语义和空间布局。该模型与现有的多模态语言模型(LLMs)的最大不同在于,它没有使用计算成本高昂的图像编码器,而是通过边框信息来整合空间布局。
具体来说,DocLLM 通过将文本和空间模态之间的交叉对齐分解为一组独立矩阵来处理既定的 Transformer 的注意力机制。
此外,DocLLM 还设计了一个预训练目标,学习如何自动填充文本段落。这种方式使其能更好地处理常见的视觉文档中的不规则布局和混合内容。
DocLLM 使用大型指令数据集对预训练模型进行了微调,覆盖了四个主要的文档智能任务。
DocLLM 的解决方案在所有任务的16个数据集中的14个上优于现有的最先进语言模型,且在之前未曾接触过的5个数据集中的4个上有良好的应用表现。
论文地址:https://t.co/FVPvQPQsR0
点击图片查看原图