打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
谷歌的原生多模态大模型Gemini来了,剑指GPT-4

在此前被OpenAI压制了一整年后,就在2023年进入尾声时,当年凭借AlphaGo曾掀起人工智能浪潮的谷歌,也终于扬眉吐气了一把,揭开了原生多模态大模型Gemini的神秘面纱。据悉,Gemini号称是谷歌迄今为止“最大、也最全能的AI模型”,拥有文本、图像、视频、音频和代码能力,而且有别与其他大模型Gemini更加灵活,其包括了能力最强、复杂度最高的Gemini Ultra,适用于多任务的Gemini Pro,以及端侧的Gemini Nano(1.8B/3.25B)。


从能够在移动端到大型数据中心的所有设备上运行,就足以证明谷歌对Gemini寄予厚望。根据谷歌方面的说法,Gemini Nano将率先在Pixel 8 Pro上落地,Gemini Pro则将从当地时间本周三开始支持Bard,而Gemini Ultra则会在明年年初向公众大范围开放。

当然,外界更关心的应该是Gemini的性能究竟如何,以及与GPT-4相比孰强孰弱。

根据谷歌方面公布的信息显示,在32项基准测试中,Gemini在30个项目上都实现了“遥遥领先”,同时Gemini Ultra在MMLU(大规模多任务语言理解数据集)中的得分率更是高达90.0%,成为了大模型中首个超越人类专家的产品。对于目前大模型在评测中刷题蔚然成风的现象,谷歌也特意强调,“对于以前的SOTA模型评估使用不同的提示技术”,也就是Gemini并未针对性的刷题。


Gemini最大的亮点就是原生(native)多模态,谷歌口中的“anything to anything”也代表了Gemini和ChatGPT的本质区别。虽然两者确实都实现了支持文本、图像、音频和视频输入,以及文本和图片的输出,但OpenAI的解决方案是在ChatGPT这个大模型(LLM)上不断叠加多模态模块,谷歌的Gemini则是从一开始就将各种模态的能力一同训练,相当于一个是串联、另一个是并联。

比如在面对用户输入的同样一张图片,GPT-4的策略是用OCR技术分割图片,获得干净的字符图像、再识别字符,并转化为文本信息。而Gemini认知图片的方式则更接近人类,就是综合视觉、听觉、语言来理解事物,这也是Gemini在谷歌展示的DEMO中,对于连续输入的内容几乎能即刻做出反应的关键。


值得一提的是,在Gemini技术报告中,谷歌方面表示其基于谷歌自家的张量处理单元(TPU)v4和v5e进行大规模训练,这也就意味着即使脱离了英伟达的CUDA生态,不使用英伟达GPU,业界依然有能力训练出性能不错的大模型。而且随着Gemini的发布,谷歌同时公布了专为训练先进AI大模型的Cloud TPU v5p,等于说是明晃晃地要抢英伟达的蛋糕。

作为在过去一年几乎压得谷歌几乎喘不过气的产品,GPT-4也是此次展示Gemini性能的标靶。例如Gemini Ultra在推理、数学、代码等文本处理能力的得分,就均高于GPT-4,在图像、视频、音频等多模态能力上也压倒了GPT-4。

但事实真的如此吗?其实仔细观察谷歌在视频中展示的关于Gemini和GPT-4评测的表格和图片会发现,其中似乎暗藏了玄机。


事实上,谷歌在对比中采用了被称为“非对称”的方式,例如在比拼MMLU测试集时,Gemini Ultra的得分率为90%、而GPT-4则是86.4%,但二者测试的方法却截然不同。Gemini Ultra下方的CoT@32表明,它使用了思维链(CoT)技术,这也是目前大模型领域炙手可热的一项技术,它在Prompt中除了任务的输入和输出外,还加入了推理的中间步骤,会使得大模型的性能度提升,而GPT-4下方的5-shot,则代表使用了Few-Shot Learning(少样本学习)技术。

简单来说,两者的区别相当于是同样参加一场考试,GPT-4的作答时间是1小时,Gemini Ultra则有一天时间。试想一下,如果高考的答题时间不是2小时、而是24小时,想必大家的成绩都会更上一层楼。

除此之外,谷歌用未经过“AI对齐”(AI Alignment)的Gemini Ultra,来对比已经经过OpenAI对齐的公开版GPT-4。要知道,AI对齐要求AI的目标要与人类的价值观和利益相对齐,使得其符合设计者的利益预期,不会产生意外的有害后果。


AI对齐概念的出现,其实是OpenAI等厂商为了合规而设计,它的副作用就会是导致大模型性能的下降,这一点在GPT-4、New Bing上已经有了明确的体现。换而言之,谷歌是用一个无法商业化的Gemini Ultra版本,来对比已经商业化的GPT-4,难免就有些胜之不武了。当然,谷歌选择投机取巧也不难理解,毕竟在过去的一年时间里,他们在AI领域确实承受着巨大的压力。

作为AI赛道曾经的领导者,谷歌也被外界批评由于过分僵化和谨慎,从而让其他公司抢占了大模型的先机,以至于创始人谢尔盖·布林都重新出山、协助搭建下一代AI模型。CEO皮查伊在面对媒体时更是不得不放狠话,“不管他们怎么说,我们在AI领域不会输”。更何况,精心筹备的Bard首秀即翻车,在整个2023年OpenAI、微软、Meta各领风骚的情况下,唯独谷歌几乎没有了声音。


如此种种境况,使得谷歌想要让Gemini Ultra在纸面上压倒GPT-4也不难理解了,毕竟都已经倾注了所有的资源,再打不赢OpenAI可怎么办?不过即便Gemini Ultra不能超过GPT-4成为地表最强的AI大模型,但超越GPT 3.5几乎是板上钉钉的事情。

或许有了实质性的竞争对手,未来OpenAI可能也会加速GPT-5的落地。

【本文图片来自网络】

推荐阅读:

亏本、堆料、无半代升级:一加12的秘密知多少

四挡布局已然形成,但不排除一加未来还有更多动作。

今年淘宝选择“丢下”的双12,却被抖音捡了起来

以抖音目前的实力来说,这一次的“出圈”想必难度并不大。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
疯狂一夜!美国AMD、谷歌纷纷亮出大杀器,人类迎来巨变前夜?|钛媒体焦点
比 GPT-4 还厉害?Google 发布最强 AI 模型 Gemini
传谷歌开始小范围测试Gemini:比训练GPT-4算力大5倍,多模态能力大提升
超越GPT4!谷歌大杀器终于来了,最大规模Gemini震撼发布
谷歌大杀器终于来了,真超GPT4,手机直接可用
新火种AI|谷歌深夜发布复仇神器Gemini,原生多模态碾压GPT-4?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服