突破分辨率极限,字节联合中科大提出多模态文档大模型

Estimated read time 1 min read

现在连文档都有大模型了,还是高分辨率、多模态的那种!

不仅能准确识别出图像里的信息,还能结合用户需求调用自己的知识库来回答问题。

比如,看到图中马里奥的界面,直接就回答出了这是任天堂公司的作品。

这款模型由字节跳动和中国科学技术大学合作研究,于 2023 年 11 月 24 日上传至 arXiv。

在此研究中,作者团队提出 DocPedia,一个统一的高分辨率多模态文档大模型 DocPedia。

在此研究中,作者用一种新的方式解决了现有模型不能解析高分辨文档图像的短板。

DocPedia 分辨率可达 2560 × 2560,而目前业内先进多模态大模型如 LLaVA、MiniGPT-4 等处理图像分辨率上限为 336 × 336,无法解析高分辨率的文档图像。

那么,这款模型究竟表现如何,又使用了怎样的优化方式呢?

各项测评成绩显著提升

在论文中,作者展示了 DocPedia 高分辨图文理解的示例,可以看到 DocPedia 能理解指令内容,准确地从高分辨率的文档图像和自然场景图像中提取相关的图文信息。

比如这组图中,DocPedia 轻松从图片中挖掘出了车牌号、电脑配置等文本信息,甚至手写文字也能准确判断。

结合图像中的文本信息,DocPedia 还可以利用大模型推理能力,根据上下文分析问题。

读取完图片信息后,DocPedia 还会根据其储备的丰富的世界知识,回答图像中没有展示出来的扩展内容。

下表定量对比了现有的一些多模态大模型和 DocPedia 的关键信息抽取(KIE)和视觉问答(VQA)能力。

可以看到,分辨率的提升和有效的训练方法使 DocPedia 在各项测试基准上均取得了不错的提升。

那么,DocPedia 是如何实现这样的效果的呢?

从频域出发解决分辨率问题

DocPedia 的训练分为两个阶段:预训练和微调。为了训练 DocPedia,作者团队收集了包含各类文档的大量图文数据,并构建指令微调数据集。

在预训练阶段,大语言模型被冻结,仅优化视觉编码器部分,使其输出 token 的表征空间与大语言模型对齐。

在此阶段,作者团队提出主要训练 DocPedia 的对感知能力,包括对文字和自然场景的感知。

预训练任务包括文字检测、文字识别、端到端 OCR、段落阅读、全文阅读,以及图像文字说明。

在微调阶段,大语言模型解冻,整个模型端到端优化。

并且,作者团队提出感知 – 理解联合训练策略:在原有低阶感知任务的基础上,增加文档理解、场景图像两种高阶的偏语义理解的任务。

这样一种感知 – 理解联合训练策略,进一步提高了 DocPedia 的性能。

在分辨率问题的策略上,与现有方法不同,DocPedia 从频域的角度出发去解决。

给定一张高分辨率文档图像,DocPedia 首先提取其 DCT 系数矩阵。该矩阵在不损失原图像图文信息的前提下,将其空间分辨率下采样 8 倍。

然后,通过一个级联的频域适配器(Frequency Adapter),将其输入视觉编码器(Vision Encoder)进行进一步的分辨率压缩和特征提取。

通过此方法,一张 2560 × 2560 的图像,其图文信息可以用 1600 个 token 表示。

该方法相较于直接将原始图像输入到视觉编码器(如 Swin Transformer)中,token 数量减少 4 倍。

最后,这些 token 与指令转换而来的 token 进行序列维度拼接,输入到大模型进行回答。

消融实验结果表明,分辨率的提升和感知 – 理解联合微调是 DocPedia 表现增强的两大关键因素。

下图对比了 DocPedia 对于一张论文图像以及同一个指令,在不同输入尺度下的回答。可以看到,当且仅当分辨率提升至 2560 × 2560 时,DocPedia 回答正确。

下图则对比了 DocPedia 对于同一张场景文字图像以及同一个指令,在不同微调策略下模型的回答。

由该示例可以看到,进行了感知 – 理解联合微调的模型,能准确地进行文字识别和语义问答。

论文地址:https://arxiv.org/abs/2311.11810

—    —

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

推荐内容

+ There are no comments

Add yours