打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
我们正在迈向多语言多模态大模型时代
userphoto

2023.07.10 广东

关注

随着GPT-4StableDiffusion等模型多模态能力的快速发展,多模态大模型已成为大模型迈向通用人工智能(AGI)目标的下一个前沿焦点。总体而言,面向图像和文本的多模态生成能力可以大致分为两类:

1)在图像到文本生成方面,以GPT-4为代表的多模态大模型可以对图像进行开放域对话和深度推理;

2)在文本到图像的生成方面,以StableDiffusion为代表的多模态模型可以基于文本生成图像内容。这些多模态模式掀起的AIGC浪潮广泛而深刻地改变了学术界和工业界的思想实践。

然而,目前多模态大规模模型的成功很大程度上仅限于英语世界,而中文等其他非英语语言的多模态能力则明显落后。这是因为与英语世界相比,中文等非英语语言的多模态数据严重匮乏,难以满足多模态大模型对大规模高质量图文数据的需求。这些问题使得多语言和多模式大型模型的构建极具挑战性。

为了解决上述挑战,我们提出利用高资源语言(如英语)作为图像信号与低资源语言(如中文)之间的桥梁,实现多语言、多模态大数据的快速泛化。模型功能,从而减轻对低资源语言的需求。较低模态对齐数据(图形和文本对数据)的依赖性。

通过类比人类的学习过程,我们可以直观地理解方法:人类学习者只需通过母语与视觉信号之间的对应关系,以及母语与不同语言之间的对应关系,就可以自然地建立不同语言的视觉信号语言统一认知。这是由于不同的自然语言符号系统在很大程度上已经进化到描述同一个客观世界,这为多语言和多模态能力的快速泛化提供了基础。

我们在LLaVA标准英语测试集和翻译的中文测试集上评估了模型。评估基准考察模型在开放域对话、图像细节描述和复杂推理方面的表现,并使用GPT-4进行评分。

可以观察到,VisCPM-Chat在不使用任何中文图文对预训练数据的情况下,在中文多模态能力上取得了最好的平均性能,并且在一般领域对话和复杂推理中表现良好,同时也表现出了良好的英语多模态能力。

在上述平衡的中英双语能力(VisCPM-Chat-balance)的基础上,我们在预训练阶段额外添加了20M个清洗后的原生中文图文对和120M个翻译成中文的图文对,可以实现多语言Modal能力的进一步增强(VisCPM-Chat-zhplus)。

VisCPM-Chat展示了令人印象深刻的图像理解能力,并且能够在对话中运用世界知识和常识知识。例如下图中,VisCPM可以识别染色的地图和肖像,并正确理解染色所代表的不同含义。此外,VisCPM-Chat也具有良好的中国特色。比如可以用李白的诗来描述和解读黄河的景象。

汉英双语学生图模型

VisCPM-绘制

VisCPM-Paint使用CPM-Bee10B)作为文本编码器,UNet作为图像解码器,通过扩散模型训练目标融合语言和视觉模型。在训练过程中,语言模型参数始终保持固定。我们使用StableDiffusion2.1UNet参数初始化视觉解码器,并通过逐渐解冻关键桥接参数将其与语言模型融合。该模型在LAION2B英语文本到文本数据上进行训练。

我们在标准图像生成测试集MSCOCO上采样了30000张图像,并计算了常用的评价图像生成指标FIDFréchetInceptionDistance)来评价生成图像的质量。与VisCPM类似,我们发现得益于CPM-Bee的双语能力,VisCPM-Paint可以仅通过英文图像-文本对进行训练,并泛化以实现良好的中文文本到图像生成能力,达到了最佳效果中国开源模型。在中英文平衡能力(VisCPM-Paint-balance)的基础上,进一步添加20M清洗后的原生中文图文数据和120M翻译成中文的图文数据,实现了中文文本到图像的生成能力。模型可以得到进一步的提升(VisCPM-Paint-zhplus)。

为了促进多模态大模型开源社区及相关研究领域的发展,我们免费开源VisCPM系列的所有模型,欢迎个人和研究用途。未来我们还将把VisCPM集成到huggingface代码框架中,并逐步完善安全模型、支持快速网页部署、支持模型量化功能、支持模型微调等功能,欢迎继续关注。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳
今天探讨一下VisCPM这个多语言多模态大模型
GPT4多模态预期落空 关于AIGC还有什么值得畅想?
一次性搞懂什么是AIGC!(一篇文章22个基本概念)
中金 | AI十年展望(五):从ChatGPT到通用智能,新长征上的新变化
LVS2023 | 从 AIGC 到 MMLM
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服