在此前被OpenAI压制了一整年后，就在2023年进入尾声时，当年凭借AlphaGo曾掀起人工智能浪潮的谷歌，也终于扬眉吐气了一把，揭开了原生多模态大模型Gemini的神秘面纱。据悉，Gemini号称是谷歌迄今为止“最大、也最全能的AI模型”，拥有文本、图像、视频、音频和代码能力，而且有别与其他大模型Gemini更加灵活，其包括了能力最强、复杂度最高的Gemini Ultra，适用于多任务的Gemini Pro，以及端侧的Gemini Nano（1.8B/3.25B）。

从能够在移动端到大型数据中心的所有设备上运行，就足以证明谷歌对Gemini寄予厚望。根据谷歌方面的说法，Gemini Nano将率先在Pixel 8 Pro上落地，Gemini Pro则将从当地时间本周三开始支持Bard，而Gemini Ultra则会在明年年初向公众大范围开放。

当然，外界更关心的应该是Gemini的性能究竟如何，以及与GPT-4相比孰强孰弱。

根据谷歌方面公布的信息显示，在32项基准测试中，Gemini在30个项目上都实现了“遥遥领先”，同时Gemini Ultra在MMLU（大规模多任务语言理解数据集）中的得分率更是高达90.0%，成为了大模型中首个超越人类专家的产品。对于目前大模型在评测中刷题蔚然成风的现象，谷歌也特意强调，“对于以前的SOTA模型评估使用不同的提示技术”，也就是Gemini并未针对性的刷题。

Gemini最大的亮点就是原生（native）多模态，谷歌口中的“anything to anything”也代表了Gemini和ChatGPT的本质区别。虽然两者确实都实现了支持文本、图像、音频和视频输入，以及文本和图片的输出，但OpenAI的解决方案是在ChatGPT这个大模型（LLM）上不断叠加多模态模块，谷歌的Gemini则是从一开始就将各种模态的能力一同训练，相当于一个是串联、另一个是并联。

比如在面对用户输入的同样一张图片，GPT-4的策略是用OCR技术分割图片，获得干净的字符图像、再识别字符，并转化为文本信息。而Gemini认知图片的方式则更接近人类，就是综合视觉、听觉、语言来理解事物，这也是Gemini在谷歌展示的DEMO中，对于连续输入的内容几乎能即刻做出反应的关键。

值得一提的是，在Gemini技术报告中，谷歌方面表示其基于谷歌自家的张量处理单元（TPU）v4和v5e进行大规模训练，这也就意味着即使脱离了英伟达的CUDA生态，不使用英伟达GPU，业界依然有能力训练出性能不错的大模型。而且随着Gemini的发布，谷歌同时公布了专为训练先进AI大模型的Cloud TPU v5p，等于说是明晃晃地要抢英伟达的蛋糕。

作为在过去一年几乎压得谷歌几乎喘不过气的产品，GPT-4也是此次展示Gemini性能的标靶。例如Gemini Ultra在推理、数学、代码等文本处理能力的得分，就均高于GPT-4，在图像、视频、音频等多模态能力上也压倒了GPT-4。

但事实真的如此吗？其实仔细观察谷歌在视频中展示的关于Gemini和GPT-4评测的表格和图片会发现，其中似乎暗藏了玄机。

事实上，谷歌在对比中采用了被称为“非对称”的方式，例如在比拼MMLU测试集时，Gemini Ultra的得分率为90%、而GPT-4则是86.4%，但二者测试的方法却截然不同。Gemini Ultra下方的CoT@32表明，它使用了思维链（CoT）技术，这也是目前大模型领域炙手可热的一项技术，它在Prompt中除了任务的输入和输出外，还加入了推理的中间步骤，会使得大模型的性能度提升，而GPT-4下方的5-shot，则代表使用了Few-Shot Learning（少样本学习）技术。

简单来说，两者的区别相当于是同样参加一场考试，GPT-4的作答时间是1小时，Gemini Ultra则有一天时间。试想一下，如果高考的答题时间不是2小时、而是24小时，想必大家的成绩都会更上一层楼。

除此之外，谷歌用未经过“AI对齐”(AI Alignment)的Gemini Ultra，来对比已经经过OpenAI对齐的公开版GPT-4。要知道，AI对齐要求AI的目标要与人类的价值观和利益相对齐，使得其符合设计者的利益预期，不会产生意外的有害后果。

AI对齐概念的出现，其实是OpenAI等厂商为了合规而设计，它的副作用就会是导致大模型性能的下降，这一点在GPT-4、New Bing上已经有了明确的体现。换而言之，谷歌是用一个无法商业化的Gemini Ultra版本，来对比已经商业化的GPT-4，难免就有些胜之不武了。当然，谷歌选择投机取巧也不难理解，毕竟在过去的一年时间里，他们在AI领域确实承受着巨大的压力。

作为AI赛道曾经的领导者，谷歌也被外界批评由于过分僵化和谨慎，从而让其他公司抢占了大模型的先机，以至于创始人谢尔盖·布林都重新出山、协助搭建下一代AI模型。CEO皮查伊在面对媒体时更是不得不放狠话，“不管他们怎么说，我们在AI领域不会输”。更何况，精心筹备的Bard首秀即翻车，在整个2023年OpenAI、微软、Meta各领风骚的情况下，唯独谷歌几乎没有了声音。

如此种种境况，使得谷歌想要让Gemini Ultra在纸面上压倒GPT-4也不难理解了，毕竟都已经倾注了所有的资源，再打不赢OpenAI可怎么办？不过即便Gemini Ultra不能超过GPT-4成为地表最强的AI大模型，但超越GPT 3.5几乎是板上钉钉的事情。

或许有了实质性的竞争对手，未来OpenAI可能也会加速GPT-5的落地。

【本文图片来自网络】

推荐阅读：

亏本、堆料、无半代升级：一加12的秘密知多少

四挡布局已然形成，但不排除一加未来还有更多动作。

今年淘宝选择“丢下”的双12，却被抖音捡了起来

以抖音目前的实力来说，这一次的“出圈”想必难度并不大。