打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
英伟达大神Jim Fan最新万字专访:通用智能体会彻底革新具身AI,虚实结合是人形机器人未来

作为目前全球人工智能领域的领军人物之一,同时也是目前英伟达的高级研究科学家,Jim Fan(范麟熙)身上有着众多标签:

他曾是 OpenAI 的第一个实习生,World of Bits(世界比特)项目是开启他探索 AGI 与具身智能的起点;他先后师从知名 AI 教授 Silvio Savarese 李飞飞,从静态视觉系统逐步转向更复杂的智能体交互环境,获得斯坦福大学博士学位;他领导的英伟达 GEAR 团队,专注于开发底层具身 AI,让黄仁勋在今年 GTC 上率领一众人形机器人闪耀舞台。

此外,他还因在社交媒体上分享对 AI 领域的最新进展与自己的见解为人熟知,特别是对 OpenAI 的 Sora 与 o1 模型的剖析让他声名大噪。

而近日,Jim Fan 接受了来自红杉资本两位合伙人:Sonya Huang 与 Stephanie Zhan 的播客专访。在访谈中 Jim Fan 分享了他在具身智能领域的研究历程、技术挑战以及对未来发展的前瞻。他详细介绍了 NVIDIA 如何利用其在计算资源和模拟技术上的优势,推动人形机器人的研发,并指出了具身 AI 面临的关键瓶颈:高质量数据的获取。

采访中 Jim Fan 还谈到了未来具身 AI 的思考模式要像诺贝尔经济学奖得主丹尼尔·卡尼曼的《思考,快与慢》一样,区分「快速思考」的系统 1 与「深思熟虑」的系统 2。这与前几日公布 OpenAI o1 的底层原理几乎如出一辙。

他还预测,具身 AI 将在未来两到三年迎来类似于语言模型领域的「GPT-3 时刻」,即 AI 智能体能够泛化理解和执行复杂的动作指令。此外,Jim Fan 还展望了未来的机器人技术如何从专家系统转向「通才」智能体,最终如何进入日常生活,并彻底改变人类的未来。

  • 具身AI是未来发展方向,无论是对机器人还是虚拟世界都适用。

  • 人形机器人是理想的研究对象,因为世界是围绕人类形态设计的。

  • 通用AI方法优于专门化方法,可以构建能在多种环境和形态中工作的基础智能体。

  • 数据策略对机器人基础模型至关重要,需要结合互联网数据、模拟数据和真实机器人数据。

  • 模拟在机器人研究中发挥重要作用,可以加速数据收集和训练过程。

  • 10 年或更长时间以后,如果我们相信智能机器人的数量会和 iPhone 一样多,那么我们最好从今天就开始构建。

  • Transformer架构在机器人领域还有进一步扩展的空间。

  • 视频生成技术可能成为重要的世界模拟器,用于训练具身AI。

  • 未来10年内,人形机器人有望在可靠性和敏捷性上达到或超越人类水平。

从 OpenAI 到英伟达 

Sonya Huang:

我们很高兴今天能深入了解并学习你在机器人和具身 AI 方面的所有分享。在我们开始之前,我认为你有一个迷人的个人故事。我想你是 OpenAI 的第一个实习生,也许你可以介绍一下你的个人经历,以及你是如何走到今天这一步的。

Jim Fan:

当然,我很乐意与观众分享这些故事。回到 2016 年夏天,我的一些朋友说城里有一家新的创业公司,你应该去看看。我想我没有其他事情可做,因为我已经被录取到了博士项目,那个夏天我无所事事。所以我决定加入这家创业公司,结果那就是 OpenAI。

在 OpenAI 期间,我们早在 2016 年就在谈论 AGI。当时我的实习导师是 Andre Karpathy 和 Ilya Sutskever,我们一起讨论了一个名为「World of Bits」(世界比特)的项目。

这个想法非常简单:我们想要构建一个 AI 智能体,它可以读取计算机屏幕,读取屏幕上的像素,然后控制键盘和鼠标。如果你想一想,这个界面是最通用的,就像我们在计算机上做的所有事情,比如回复邮件、玩游戏或浏览网页,都可以通过这个界面来完成,将像素映射到键盘鼠标控制。

所以那实际上是我在 OpenAI 第一次尝试 AGI,也是我 AI 智能体之旅的第一章。

Stephanie Zhan:

我记得 World of Bits 项目,我不知道你参与其中。那真的很有趣。

Jim Fan:

是的,那是一个非常有趣的项目,是一个更大的名为「OpenAI Universe」的计划的一部分,这是一个更大的平台,将所有应用程序和游戏整合到这个框架中。

Stephanie Zhan:

你认为当时有哪些突破,以及你认为当时智能体面临的一些挑战是什么?

Jim Fan:

是的,当时我们使用的主要方法是强化学习。2016 年还没有 Transformer。问题是,强化学习在特定任务上可以工作,但不能泛化。我们无法给智能体任意的语言指令,让它做我们用键盘和鼠标可以做的任意事情。所以当时它在我们设计的任务上可以工作,但不能真正泛化。

你知道,这开启了我的下一个篇章。我去了斯坦福大学,开始了我的博士学位,与李飞飞教授一起工作。我们开始研究计算机视觉和具身 AI。

在斯坦福的时间里,从 2016 年到 2021 年,我见证了由李飞飞领导的斯坦福视觉实验室从静态计算机视觉(如识别图像和视频)向更具身的计算机视觉的转变,在其中智能体在交互环境中学习感知和采取行动。这个环境可以是虚拟的,比如模拟,也可以是物理世界。

所以这就是我的博士学位,从静态计算机视觉过渡到具身 AI。然后在获得博士学位后,我加入了英伟达,一直到现在。我把我的博士论文工作带到了英伟达,至今仍在研究具身 AI。

具身智能体研究 

Sonya Huang:

所以你现在负责英伟达的具身 AI 计划,也许你可以说说这意味着什么,以及你们希望实现什么?

Jim Fan:

是的,我现在共同领导的团队叫做 GEAR,代表通用具身智能体研究(Generalist Embodied Agent Research)。总结我们团队的工作,用三个词来说就是:我们,生成,动作。因为我们构建具身 AI 智能体,这些智能体在不同的世界中采取行动。如果动作是在虚拟世界中采取的,那就是游戏 AI 和模拟。如果动作是在物理世界中采取的,那就是机器人学。

实际上,今年早些时候 3 月的 GTC 上,在黄仁勋的主题演讲中,他揭示了一个名为 Project GR00T 的项目,这是英伟达在构建人形机器人基础模型方面的登月级努力。这基本上就是 GEAR 团队现在专注的内容。我们想为人形机器人构建 AI 大脑,甚至更进一步。

Stephanie Zhan:

你认为英伟达在构建这方面有什么竞争优势?

Jim Fan:

这是一个很好的问题。首先,肯定是计算资源。所有这些基础模型都需要大量的计算来扩展,我们确实相信 Scaling Law。我们已经看到了语言模型的 Scaling Law,但具身 AI 和机器人学的 Scaling Law 还有待研究。所以我们正在研究这个问题。

英伟达的第二个优势实际上是模拟。在成为 AI 公司之前,英伟达是一家图形公司。所以英伟达在构建模拟方面有多年的专业知识,比如物理模拟和渲染,以及在 GPU 上的实时加速。所以我们在我们的方法中大量使用模拟来构建机器人。

Stephanie Zhan:

模拟策略非常有趣,为什么你认为大多数行业仍然非常专注于现实世界的数据,这是相反的策略?

Jim Fan:

我认为我们需要各种数据,单靠模拟或现实世界的数据是不够的。在 GEAR,我们将这个数据策略大致分为三类:

一是互联网规模的数据,比如所有在线的文本和视频。

二是模拟数据,我们使用英伟达的模拟工具生成大量合成数据。

三是真实机器人数据,我们通过远程操作机器人来收集数据,并在机器人平台上记录这些数据。

我相信一个成功的机器人策略将涉及有效利用这三种数据,混合它们,并提供一个统一的解决方案。

Sonya Huang:

你能多说一些关于我们之前谈到的,数据从根本上是让机器人基础模型真正工作的关键瓶颈吗?你能多说一些你对这个想法的信念,以及到底需要什么才能制作出伟大的数据来突破这个问题?

Jim Fan:

是的,我认为我刚才提到的三种不同类型的数据有不同的优势和劣势。

对于互联网数据,它们是最多样化的,它们编码了很多常识性先验知识。比如,大多数在线视频都是以人为中心的,因为我们喜欢自拍,喜欢记录彼此做各种活动。也有很多教学视频。所以我们可以用它来学习人类如何与物体互动,以及物体在不同情况下的行为。这为机器人基础模型提供了常识性先验知识。

但互联网规模的数据没有附带动作,我们无法从互联网下载机器人的电机控制信号。这就引出了数据策略的第二部分,即使用模拟。在模拟中,你可以拥有所有的动作,你也可以观察到这些动作在特定环境中的后果。

模拟的优势在于它基本上是无限的数据,数据随计算能力而扩展。你投入模拟管线的 GPU 越多,获得的数据就越多。而且数据是超实时的。如果你只在真实机器人上收集数据,那么你每天只有 24 小时。但在模拟中,比如 GPU 加速的模拟器,我们实际上可以将实时加速一万倍。所以在相同的时钟时间内,我们可以以更高的吞吐量收集数据。这是优势。

但劣势是,对于模拟,无论图形管线有多好,总会存在从模拟到现实的差距。物理会与现实世界不同,视觉也会不同,看起来不会像现实世界那样逼真。也存在多样性问题,模拟中的内容不会像我们在现实世界中遇到的所有场景那样多样化。

然后是真实机器人数据。这些数据没有从模拟到现实的差距,因为它们是在真实机器人上收集的。但收集起来要昂贵得多,因为你需要雇人操作机器人。而且同样受限于原子世界的速度,你每天只有 24 小时。你需要人来收集这些数据,这也非常昂贵。

所以我们认为这三种类型的数据具有互补的优势。我认为成功的策略是结合它们的优势,然后消除它们的劣势。

Sonya Huang:

与黄仁勋一起出现在舞台上的可爱的 GR00T 机器人,那是一个非常酷的时刻。如果你有梦想,在一年、五年或十年内,你认为你的团队会取得什么成就?

Jim Fan:

这纯属推测,但我希望我们能在未来两到三年内看到机器人基础模型的研究突破。这就是我们所说的机器人领域的 GPT-3 时刻。

之后就有点不确定了,因为要让机器人进入人们的日常生活,除了技术方面还有很多其他因素。机器人需要价格合理且大规模生产,我们还需要硬件的安全性,以及隐私和法规。这些因素会使机器人进入大众市场的时间更长,所以这一点更难预测。但我确实希望研究突破会在未来两到三年内出现。

机器人领域的 GPT-3 时刻 

Stephanie Zhan:

你认为什么会定义 AI 机器人领域的 GPT-3 时刻?

Jim Fan:

这是一个很好的问题。我想把机器人学看作由两个系统组成:系统 1 系统 2。这来自《思考,快与慢》这本书。其中系统 1 指的是无意识和快速的低级运动控制。例如,当我抓住这杯水时,我并不真的思考每毫秒如何移动指尖。这就是系统 1。

而系统 2 是缓慢和深思熟虑的,它更像是推理和计划,实际上使用了我们拥有的有意识的脑力。

我认为 GPT-3 时刻将出现在系统 1 方面。我最喜欢的例子是「打开」这个动词。想想「打开」这个词的复杂性:打开门与打开窗户不同,与打开瓶子或打开手机也不同。但对人类来说,我们毫不费力地理解「打开」在与不同物体交互时意味着不同的事情。但到目前为止,我们还没有看到一个机器人模型能在这些动词的低级运动控制上泛化。

所以我希望看到一个模型,它能以抽象的方式理解这些动词,并能泛化到对人类有意义的各种场景。我们还没有看到这一点,但我希望这一时刻可能在未来两到三年内到来。

Sonya Huang:

那系统 2 思维呢?你认为我们如何实现它?你认为大语言模型世界中的一些推理努力在机器人世界中也会相关吗?

Jim Fan:

绝对是的。我认为对于系统 2,我们已经看到了非常强大的模型,它们可以进行推理和规划,甚至还能编码。这些就是我们现在看到的语言模型前沿模型,比如 GPT 和 Claude 等。

但是将系统 2 模型与系统 1 集成本身就是另一个研究挑战。问题是,对于机器人基础模型,我们是有一个单一的整体模型,还是有某种级联方法,其中系统 2 和系统 1 模型是分开的,并且可以以某种方式相互通信?我认为这是一个开放的问题。

再次强调,它们各有利弊。对于第一种想法,整体模型更干净,只有一个模型,一个 API 需要维护。但也更难控制,因为你有不同的控制频率。系统 2 模型将以较慢的控制频率运行,比如每秒一个决策,而系统 1,比如我抓住这杯水的运动控制,可能是 1000 赫兹,我需要每秒 1000 次做出这些微小的肌肉决策。

在单个模型中编码这两者真的很难,所以也许级联方法会更好。但是系统 1 和系统 2 之间如何通信呢?它们是通过文本还是通过一些潜在变量进行通信?这还不清楚。我认为这是一个非常令人兴奋的新研究方向。

Sonya Huang:

你的直觉是,我们会通过规模和 Transformer 在系统 1 思维上取得突破吗?什么会起作用?还是说这只是交叉手指,希望并等待?

Jim Fan:

我当然希望我描述的数据策略能让我们达到那里。因为我感觉我们还没有将 Transformer 推到极限。从本质上讲,Transformer 接收 Token 并输出 Token,最终 Token 的质量决定了模型的质量,决定了那些大型 Transformer 的质量。

对于机器人学来说,正如我提到的,数据策略非常复杂。我们有所有的互联网数据,还需要模拟数据和真实机器人数据。一旦我们能够在数据管线上扩展,拥有所有这些高质量的动作,那么我们就可以将它们 Token 化,然后将它们发送到 Transformer 进行压缩。

所以我感觉我们还没有将 Transformer 推到极限。一旦我们解决了数据策略,随着我们扩大数据规模和模型规模,我们可能会看到一些新兴属性。为此,我称之为具身 AI 的 Scaling Law,它才刚刚开始。我对我们能达到那里非常乐观。

为什么是人形机器人 

Stephanie Zhan:

我很好奇听听,当我们到达那里时,你个人最感兴趣的是什么?有什么行业、应用或用例让你真正兴奋,认为它会彻底改变今天的机器人世界?

Jim Fan:

是的,实际上有几个原因让我们选择人形机器人作为主要研究目标。一个原因是,世界是围绕人类身体、人类形态建造的。我们所有的餐馆、工厂、医院以及所有设备和工具都是为人类形态设计的,也是为人类的手设计的。原则上,一个足够好的人形硬件应该能够支持任何一个合理的人可以做的任务。

原则上是这样的,但人形硬件今天还没有达到这个水平,但我感觉在未来两到三年内,人形硬件生态系统将成熟,我们将有负担得起的人形硬件可以使用。然后这将是一个关于 AI 大脑的问题,关于我们如何驱动这些人形硬件。

一旦我们拥有了那个,一旦我们能够拥有 GR00T 基础模型,它可以接受任何语言指令,然后执行任何合理的人可以做的任务,那么我们就解锁了大量的经济价值。比如我们可以在家里有机器人,帮助我们做日常家务,如洗衣、洗碗和做饭,或者照顾老人。我们也可以在餐馆、医院、工厂里有它们,帮助完成所有人类做的任务。

我希望这会在下一个十年内出现。但是再次强调,正如我一开始提到的,这不仅仅是一个技术问题,还有许多超越技术的因素。所以我期待着那一天的到来。

Sonya Huang:

你选择专注于人形机器人还有其他原因吗?

Jim Fan:

是的,还有一些更实际的原因,涉及到训练管线。网上有大量关于人类的数据,对吧?都是以人为中心的,所有视频都是人类在做日常任务,在玩乐。人形机器人的形态最接近人类形态,这意味着我们使用所有这些数据训练的模型将更容易转移到人形形态,而不是其他形态。

比如说,对于机器人手臂,我们在网上看到多少关于机器人手臂和抓手的视频?很少。但是有很多视频是关于人们使用五指手来操作物体的。所以训练人形机器人可能会更容易,一旦我们有了这个,我们就能将它们专门化为机器人手臂和更具体的机器人形态。这就是为什么我们首先瞄准全面的通用性。

Stephanie Zhan:

我没有意识到,所以你今天是否专门在训练人形机器人,而不是机器人手臂和机器狗?

Jim Fan:

是的,对于 GR00T 项目的模拟,我们现在更多地瞄准人形机器人。但我们正在构建的管线,包括模拟工具,这些都是足够通用的,我们将来也可以适应其他平台。所以是的,我们正在构建这些工具,使它们普遍适用。

Sonya Huang:

你已经多次使用「通用」这个词了。我认为有些人,特别是来自机器人世界的人,认为通用方法不会奏效,你必须针对特定领域和环境。你为什么选择追求通用方法?我很好奇你是否认为 Richard Sutton 的「苦涩的教训」在机器人学中也成立?

Jim Fan:

绝对如此。我想首先谈谈我们在自然语言处理中看到的成功故事。在 ChatGPT 和 GPT-3 之前,在 NLP 世界里有很多不同的模型和管线用于不同的应用,比如翻译、编码、做数学、创意写作等,它们都使用非常不同的模型和完全不同的训练管线。但后来 ChatGPT 出现了,将所有东西统一到一个单一模型中。

在 ChatGPT 之前,我们称那些为「专家系统」,然后我们将 GPT-3 和 ChatGPT 称为「通才」(generalists)。一旦我们有了通才,我们就可以提示它们,蒸馏它们,并将它们微调回专门的任务。我们称这些为专门化的通才。根据历史趋势,专门化的通才几乎总是比原始专家强得多,而且维护起来也容易得多,因为你只有一个接受文本输入并输出文本的单一 API。

我认为我们可以遵循 NLP 世界的这个成功故事,对机器人学也会是一样的。现在在 2024 年,我们看到的大多数机器人应用仍处于专家阶段。它们有特定的机器人硬件用于特定任务,收集特定数据,使用特定管线。但 Project GR00T 旨在构建这种通用的基础模型,它首先在人形机器人上工作,但后来将推广到各种不同的机器人形态或体现。这将是我们追求的通才时刻。

一旦我们有了通才,我们就能够提示它、微调它、将它蒸馏到特定的机器人任务中,这些就是专门化的通才。但这只会在我们有了通才之后才会发生。在短期内追求专家系统会更容易,因为你可以专注于一组非常狭窄的任务,更容易展示结果。

但我们在英伟达相信,未来属于通才,尽管开发它需要更长的时间,需要解决更多困难的研究问题,但这是我们首先瞄准的目标。

Stephanie Zhan:

英伟达构建 GR00T 的有趣之处在于,正如你之前提到的,英伟达同时拥有芯片和模型本身。你认为英伟达可以做些什么有趣的事情来优化自己芯片上的 GR00T?

Jim Fan:

是的,在 3 月的 GTC 上,黄仁勋还推出了下一代边缘计算芯片,叫做 Jetson Thor 芯片。它实际上是与 GR00T 项目一起宣布的。我们的想法是,我们将拥有一个完整的堆栈,作为给客户的统一解决方案。从芯片层面的 Jetson Thor 系列,到基础模型 Project GR00T,再到我们沿途构建的模拟和实用工具,这将成为人形机器人和智能机器人的通用计算平台。

我想在这里引用黄仁勋的一句话,这是我最喜欢的他的一句话:「最终,一切会移动的东西都将是自动的。」我也相信这一点。现在还不是,但比如说 10 年或更长时间以后,如果我们相信智能机器人的数量会和 iPhone 一样多,那么我们最好从今天就开始构建。

Sonya Huang:

太棒了。你的研究中有没有什么特别的结果想要突出显示?有什么让你对你采取的方法产生乐观或信念的东西吗?

Jim Fan:

是的,我们可以谈谈我们之前做过的一些工作。有一项工作我真的很满意,叫做 Eureka。对于这项工作,我们做了一个演示,我们训练了一只五指机器人手来旋转笔。而且在某些方面超越了人类,至少超越了我自己,因为我从小就放弃了旋转笔。

我做不到,但机器人手能做到。我们用来训练它的想法是,我们提示一个语言模型使用英伟达构建的模拟器 API 编写代码,这个 API 叫做 Isaac Sim API。语言模型输出奖励函数的代码。奖励函数基本上是我们希望机器人做的可取行为的规范。如果机器人走上正确的轨道,它就会得到奖励,如果它做错了什么,就会受到惩罚。这就是奖励函数。

通常,奖励函数是由人类专家设计的,通常是一个机器人专家,他真正了解 API。这需要很多专业知识,而且奖励函数工程本身就是一个非常繁琐和手动的任务。所以 Eureka 做的是,我们设计了这个算法,使用语言模型来自动化这个奖励函数设计过程。这样,奖励函数就可以指导机器人做非常复杂的事情,比如旋转笔。

这是我们开发的一种通用技术,我们确实计划将其扩展到超越旋转笔。它应该能够为各种任务设计奖励函数,甚至可以使用英伟达的模拟 API 生成新任务。所以这给了我们很大的成长空间。

人形机器人的复兴 

Sonya Huang:

你为什么认为... 我记得 5 年前有人在研究用机器人手解决魔方之类的问题,感觉机器人学经历了一个幻灭的低谷,但在过去一年左右,这个领域似乎真的又热起来了。你认为现在是机器人的时代吗?有什么不同吗?我们看到 OpenAI 又重新进入机器人领域,每个人现在都在启动他们的努力。你认为现在有什么不同?

Jim Fan:

是的,我认为现在有几个关键因素不同了。

第一是机器人硬件。实际上,自去年年底以来,我们看到生态系统中涌现出许多新的机器人硬件。有像特斯拉这样的公司在研究 Optimus,还有波士顿动力等公司,以及许多初创公司。所以我们看到更好更强大的硬件。这些硬件变得越来越有能力,拥有更好的灵巧手、更好的全身可靠性等。这是第一个因素。

第二个因素是定价。我们也看到人形机器人的价格和制造成本显著下降。回到 2001 年,NASA 开发了一个人形机器人,叫做 Robonaut。如果我没记错的话,每个机器人的成本超过 150 万美元。而最近,有公司能够为一个功能齐全的人形机器人标价约 3 万美元。这大致相当于一辆汽车的价格。

在制造业中,总是有这样一种趋势:一个成熟产品的价格会趋向于原材料成本。对于人形机器人来说,它通常只需要汽车原材料成本的 4%。所以可能在未来几年里,我们会看到成本呈指数下降,价格会进一步下降。这使得这些最先进的硬件变得越来越负担得起。这是第二个因素,我认为这是人形机器人获得动力的原因。

第三个因素是基础模型方面。我们能够看到系统 2 问题,即推理和规划部分,被前沿模型很好地解决了,比如 GPT、Claude 和 Llama 等。这些语言模型能够泛化到新场景,能够编写代码。实际上,我刚才提到的 Eureka 项目就利用了这些语言模型的编码能力来帮助开发新的机器人解决方案。

多模态模型在改进计算机视觉和感知方面也出现了激增。所以我认为这些成功也鼓励我们追求机器人基础模型。因为我们认为我们可以利用这些前沿模型的泛化能力,然后在它们之上添加动作。所以我们可以生成最终将驱动这些人形机器人的动作 Token。

Stephanie Zhan:

我完全同意你所说的。我还认为,到目前为止,我们在这个领域一直试图解决的很多问题是如何解锁构建这个模型所需的数据规模,以及我们所做的许多研究进展,其中许多是你自己贡献的,围绕模拟到现实的转移和其他事情,还有英伟达用 Isaac Sim 和其他工具构建的工具,这些都极大地加速了这个领域,再加上远程操作和更便宜的远程操作设备等。所以我认为这是一个非常非常令人兴奋的时期。

Jim Fan:

我同意。

从虚拟世界到真实世界 

Sonya Huang:

我很想转向讨论虚拟世界,如果你不介意的话。

Jim Fan:

当然,没问题。

Sonya Huang:

我想你最初的研究更多是在虚拟世界领域。也许你可以说说是什么让你对 Minecraft 感兴趣的,而不是机器人学?在你的世界里,这些是否都是相关的?是什么让你对虚拟世界感兴趣的?

Jim Fan:

这是一个很好的问题。对我来说,我的个人使命是解决具身 AI 问题。对于在虚拟世界中具身的 AI 智能体来说,这将是游戏和模拟之类的东西,这就是为什么我对游戏也有很深的感情。我自己也喜欢玩游戏。

Stephanie Zhan:

你玩什么游戏?

Jim Fan:

我玩 Minecraft。我试着玩,但我不是一个很好的游戏玩家。这也是为什么我想让我的 AI 为我糟糕的技能报仇。

所以我之前做过一些游戏项目。第一个叫做 MineDojo,我们在其中开发了一个平台,用于在 Minecraft 游戏中开发通用智能体。

对于那些不熟悉的观众来说,Minecraft 是一个 3D 体素世界,你可以在其中做任何你想做的事。你可以制作各种配方,不同的工具,你也可以去冒险。这是一个开放式的游戏,没有特定的分数要最大化,也没有固定的故事情节要遵循。

我们从互联网上收集了大量数据,有人们玩 Minecraft 的视频,也有解释游戏中每个概念和每个机制的维基页面,这些都是多模态文档。还有像 Reddit 这样的论坛,Minecraft 的 subreddit 上有很多人用自然语言讨论游戏。我们收集了这些多模态数据集,并能够训练模型来玩 Minecraft。这就是第一个作品,MineDojo。

后来,第二个作品叫做 Voyager。我们在 GPT-4 出现后有了 Voyager 的想法,因为那时它是最好的编码模型。所以我们想,如果我们使用编码作为行动呢?基于这个洞察,我们能够开发 Voyager 智能体,它编写代码与 Minecraft 世界交互。我们使用 API 首先将 3D Minecraft 世界转换为文本表示,然后让智能体使用动作 API 编写代码。

但就像人类开发者一样,智能体并不总是能在第一次尝试就正确编写代码。所以我们给它一个自我反思循环,在这个循环中,它尝试一些东西,如果遇到错误或在 Minecraft 世界中犯了一些错误,它会得到反馈并可以纠正它的程序。

一旦它写出了正确的程序,我们称之为技能,我们会将其保存到技能库中。这样,将来如果智能体面临类似的情况,它就不必再经历那个试错循环,而可以从技能库中检索技能。

你可以把这个技能库想象成一个代码库,完全由大语言模型自己交互式地创作,没有人类干预,整个代码库都是由 Voyager 开发的。这是第二个机制,技能库。

第三个是我们称之为自动化课程的东西。基本上,智能体知道它知道什么,也知道它不知道什么。所以它能够提出下一个任务,这个任务对它来说既不会太难也不会太容易。然后它就能够遵循这个路径,发现各种不同的技能,不同的工具,并在广阔的 Minecraft 世界中旅行。因为它们旅行了这么多,所以我们称之为 Voyager。

所以,这是我们团队最早尝试使用基础模型在具身世界中构建 AI 智能体的工作之一。

Sonya Huang:

多谈谈课程这个事情吧。我认为这真的很有趣,因为它感觉是推理和语言模型世界中更未解决的问题之一。如何让这些模型具有自我意识,以便它们知道如何采取下一步来改进。也许你可以多说说你在课程和推理方面构建的东西?

Jim Fan:

当然。我认为那些前沿模型有一个非常有趣的新兴属性,那就是它们可以反思自己的行为,它们某种程度上知道自己知道和不知道什么,并且能够相应地提出任务。

对于 Voyager 中的自动化课程,我们给智能体一个高层次的指令,就是尽可能找到更多新颖的物品。这只是我们给出的一句话目标,我们没有给出任何关于首先发现哪些物品、首先解锁哪些工具的指示,我们没有具体说明,智能体能够自己发现所有这些,使用这种编码、提示和技能库。

所以这真的很神奇,整个系统就是这样工作的。我会说,一旦你有一个非常强大的可以泛化的推理引擎,这就是一个新兴属性。

Sonya Huang:

你认为为什么这么多虚拟世界的研究都是在虚拟世界中完成的?我确信这不完全是因为很多深度学习研究人员喜欢玩电子游戏,尽管我确信这也有帮助。但是,我想问的是,解决虚拟世界和物理世界中的问题有什么联系?这两者如何相互作用?

Jim Fan:

是的,尽管游戏和机器人看起来很不同,但我看到这两个领域有很多共同的原则。

对于具身智能体来说,它们以感知作为输入,可以是视频流和一些传感器输入,然后输出动作。而在游戏的情况下,它将是键盘和鼠标动作,对于机器人来说,它将是低级电机控制。所以最终 API 看起来是这样的。

这些智能体需要在世界中探索,它们必须以某种方式收集自己的数据。这就是我们所说的强化学习和自我探索,这个原则再次在物理智能体和虚拟智能体之间共享。

但不同之处在于,机器人学更难,因为你还有一个从模拟到现实的差距需要跨越。因为在模拟中,物理和渲染永远不会是完美的。所以很难将你在模拟中学到的东西转移到现实世界。这本身就是一个开放式的研究问题。

所以对于机器人学来说,它有从模拟到现实的问题,但对于游戏来说没有。你在同一环境中训练和测试。我会说这就是它们之间的区别。

去年,我提出了一个叫做基础智能体的概念,我相信最终我们会有一个模型,可以同时适用于虚拟智能体和物理智能体。对于基础智能体来说,它将在三个轴上泛化:

① 它可以做的技能

② 它可以控制的身体形态或形式因素

③ 它可以掌握的世界或现实

在未来,我认为一个单一的模型将能够在许多不同的机器人形态或智能体形态上做很多不同的技能,然后泛化到许多不同的世界,无论是虚拟的还是真实的。这就是 GEAR 团队想要追求的最终愿景。

Stephanie Zhan:

基础智能体拉下了虚拟世界和游戏的帷幕,特别是你已经在一些推理、一些新兴行为,尤其是在开放式环境中工作方面取得了解锁。你个人对游戏世界中现在可能实现的事情有什么梦想?你希望看到 AI 智能体在游戏世界中创新什么?

Jim Fan:

是的,我对两个方面非常兴奋。

一是游戏内的智能体。我们现在有的 NPC(非玩家角色)都有固定的脚本要遵循,都是手动编写的。如果我们有真正活生生的 NPC 呢?你可以与它们互动,它们可以记住你之前告诉它们的内容,它们还可以在游戏世界中采取行动,改变叙事和故事情节。

这是我们还没有看到的东西,但我感觉这里有巨大的潜力。这样,每个人玩游戏时都会有不同的体验,即使是同一个人玩两次游戏也不会有相同的故事。所以每个游戏都将具有无限的重玩价值。这是一个方面。

第二个方面是游戏本身可以被生成。我们已经看到许多不同的工具在做这个宏伟愿景的子集。比如有文本到 3D 生成资产,也有文本到视频的模型,当然还有可以生成故事情节的语言智能体。如果我们把所有这些结合在一起,让游戏世界在你玩和互动的时候实时生成,那将会非常神奇,成为一种真正开放式的体验。

Stephanie Zhan:

对于智能体愿景来说,你认为需要 GPT-4 级别的能力,还是你认为仅使用 Llama 8B 就可以达到这个水平?

Jim Fan:

我认为智能体需要以下能力:

当然,它需要能进行有趣的对话,它需要有一致的人格,它需要有长期记忆,它还需要能在世界中采取行动。

对于这些方面,我认为目前像 Llama 这样的模型已经相当不错了。但还不够好,不能产生非常多样化和真正引人入胜的行为。所以我确实认为还有差距需要弥补。

另一个问题是推理成本。如果我们想将这些智能体部署给游戏玩家,那么要么是在云端托管的非常低成本,要么是在设备上本地运行。否则,从成本角度来看,它是不可扩展的。所以这是另一个需要优化的因素。

Sonya Huang:

你认为虚拟世界空间的所有这些工作是为了在物理世界中完成事情吗?也就是说,你从中学到的东西可以帮助你在物理世界中完成事情?虚拟世界的东西是否服务于物理世界的抱负?或者换句话说,它本身就足够有价值了吗?你如何考虑在物理世界和虚拟世界之间优先考虑你的工作?

Jim Fan:

是的,我只是认为虚拟世界和物理世界最终只是单一轴上的不同现实。让我给你一个例子。有一种叫做域随机化(domain randomization)的技术。

它的工作原理是你在模拟中训练机器人,但你在一万个不同的模拟中并行训练它,对于每个模拟,它们都有稍微不同的物理参数,比如重力不同,摩擦力不同,重量不同,一切都有点不同。

所以实际上是一万种不同的世界。让我们假设,如果我们有一个智能体可以一次性掌握所有一万种不同的现实配置,那么我们的真实物理世界就只是第一万零一次虚拟模拟。通过这种方式,我们能够直接从模拟泛化到现实。

这实际上正是我们在 Eureka 的后续工作中所做的,我们能够使用模拟中各种不同的随机化来训练智能体,然后零样本转移到真实世界,无需进一步微调。

这就是 DrEureka 的工作。所以我确实相信,如果我们有各种不同的虚拟世界,包括来自游戏的,如果我们有一个单一的智能体可以掌握所有世界中的各种技能,那么真实世界就成为这个更大分布的一部分。

Stephanie Zhan:

你想分享一下 DrEureka 的工作来让观众更好地理解这个例子吗?

Jim Fan:

当然。对于 DrEureka 的工作,我们在 Eureka 的基础上构建,仍然使用语言模型作为机器人开发者。语言模型在编写代码,这些代码是用来指定模拟参数的,比如随机化参数。经过几次迭代后,我们在模拟中训练的策略将能够泛化到真实世界。

我们展示的一个具体演示是,我们可以让一只机器狗在瑜伽球上行走。它能保持平衡,甚至向前走。我看到一个非常有趣的评论,有人实际上让他的真狗做这个任务,他的狗做不到。所以在某种意义上,我们的神经网络达到了超级狗的表现。

Stephanie Zhan:

我很确定我的狗也做不到。

Sonya Huang:

是的,ADI。

Jim Fan:

人工狗智能,这或许就是下一个基准。

Sonya Huang:

在虚拟世界领域,我认为最近在 3D 和视频方面出现了一些令人难以置信的模型,它们都是基于 Transformer 的。你认为我们在架构方面已经到位了吗?就像,好的,这就是将带我们到达应许之地的架构,让我们开始吧。还是你认为在模型方面还需要一些根本性的突破?

Jim Fan:

是的,我认为对于机器人基础模型来说,我们还没有将架构推到极限。现在数据是一个难题,是瓶颈,因为正如我之前提到的,我们无法从互联网上下载那些动作数据,它们不附带那些电机控制数据。我们必须在模拟中或在真实机器人上收集它。

一旦我们有了非常成熟的数据管线,我们就会将 Token 推送到 Transformer 中,让它压缩这些 Token,就像 Transformer 预测维基百科上的下一个词一样。我们仍在测试这些假设,但我不认为我们已经将 Transformer 推到了极限。

现在也有很多研究正在进行,探索 Transformer 的替代架构,我个人对这些非常感兴趣。比如有 Mamba,最近还有测试时训练,有几个替代方案。其中一些有非常有前景的想法。它们还没有真正扩展到前沿模型的性能,但我期待看到 Transformer 的替代方案。

Stephanie Zhan:

有哪些特别引起你注意的吗?为什么?

Jim Fan:

是的,我提到了 Mamba 工作和测试时训练。这些模型在推理时更有效率。不像 Transformer 需要关注所有过去的 Token,这些模型本质上有更高效的机制。所以我看到它们有很大的潜力。但我们需要将它们扩展到前沿模型的规模,真正看看它们如何与 Transformer 进行一对一的比较。

快问快答 

Stephanie Zhan:太棒了,我们应该用一些快速问答来结束吗?

Jim Fan:

好的。

Sonya Huang:

好的,让我们看看。第一个问题:在具身 AI 世界之外,你对 AI 中的什么最感兴趣?

Jim Fan:

是的,我对视频生成非常兴奋。因为我将视频生成视为一种世界模拟器。我们仅从数据中学习物理和渲染。我们已经看到了像 OpenAI 的 Sora,后来还有很多新模型赶上了 Sora。这是一个正在进行的研究主题。

Sonya Huang:

世界模拟器给你带来什么?

Jim Fan:

我认为它将为我们提供一个数据驱动的模拟,我们可以在其中训练具身 AI。那将是令人惊叹的。

Stephanie Zhan:

在更长期的视野下,10 年或更长时间,你对 AI 最兴奋的是什么?

Jim Fan:

在几个方面。一是在推理方面,我对能编码的模型非常兴奋。我认为编码是一个如此基本的推理任务,同时也具有巨大的经济价值。我认为也许 10 年后,我们将拥有与人类水平的软件工程师一样好的编码智能体,然后我们将能够使用语言模型本身加速大量的开发。

第二个方面当然是机器人学。我认为 10 年后,我们将拥有在可靠性和敏捷性方面达到或超越人类水平的人形机器人。我希望到那时,Project GR00T 将取得成功,我们将能够让人形机器人在我们的日常生活中帮助我们。

我只是希望机器人能帮我洗衣服。这一直是我的梦想。

Sonya Huang:

你认为机器人什么时候能帮我们洗衣服?

Jim Fan:

越快越好。我等不及了。

Sonya Huang:

在 AI 领域,你最钦佩谁?你有机会与一些伟人合作,可以追溯到你的实习时期,但这些天你最钦佩谁?

Jim Fan:

我在 AI 领域有太多英雄,数不胜数。我钦佩我的博士导师李飞飞。我认为她教会了我如何培养良好的研究品味。有时候,问题不在于如何解决问题,而在于识别哪些问题值得解决。实际上,什么问题比如何解决问题要难得多。

在我与李飞飞的博士生涯中,我转向了具身 AI。回想起来,我相信这是正确的方向。我相信 AI 智能体的未来将是具身的,无论是对于机器人还是虚拟世界。

我也钦佩 Andrej Karpathy。他是一位伟大的教育家。我认为他写代码就像写诗一样。我仰望他。

然后我非常钦佩黄仁勋。我认为黄仁勋非常关心 AI 研究,他甚至了解模型的技术细节。我对此印象深刻。所以我非常仰望他。

Stephanie Zhan:

延续有良好研究品味这个话题,你对在 AI 领域创业的创始人有什么建议,如何找到正确的问题来解决?

Jim Fan:

是的,我认为最近的研究论文变得越来越容易理解,它们有一些非常好的想法,而且越来越实用,而不仅仅是理论机器学习。所以我建议跟上最新的文献,也试试人们构建的所有开源工具。

例如,在英伟达,我们构建了模拟器工具,每个人都可以访问,只需下载就可以试用。你可以在模拟中训练自己的机器人。就是要亲自动手。

Stephanie Zhan:

延续黄仁勋作为偶像这个话题,你认为对于在 AI 领域创业的创始人来说,有什么实际的战术建议,他们可以从他那里学到什么?

Jim Fan:

我认为是识别正确的问题来解决。英伟达押注于人形机器人,因为我们相信这是未来,也押注于具身 AI。因为如果我们相信,比如说 10 年后,世界上的智能机器人数量将与 iPhone 一样多,那么我们最好从今天就开始,着手这些长期的未来愿景。

全文完。



编译:刘嘉禾

审核:Flora

视觉设计:Luna

责任编辑:刘嘉禾


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
深度|红杉美国对话英伟达科学家 Jim Fan:十年内人形机器人将超越人类的敏捷性和可靠性
LangChain创始人: AI下一次浪潮将由AI Agent主导
Star量近8万,大火AutoGPT星标超PyTorch,网友:看清它的局限性
英伟达年度大戏即将揭幕 “AI变革时刻”的答案会是机器人吗?
双语:袖珍“食物”让人垂涎(组图)
我美国人,在硅谷长大,高中学中文,大学毕业搬到中国,不想回去
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服