AI Revolution｜NVIDIA震惊全行业的大招—下一个AI前沿“Foundation Agent”究竟是什么？

Unis

24 Dec 2024 — 21 min read

等了三个月，Jim Fan在TED AI 2023上的演讲视频终于上线了，他也详细解释了这项技术将如何从根本上改变我们的生活，渗透到从视频游戏和元宇宙，到无人机、仿人机器人的方方面面，并探讨了单一模型如何掌握跨越这些不同现实的技能的话题都非常精彩，感兴趣可以去TED上看一下原视频。今天我们就一起来看看这个让整个人工智能行业大地震，被称为AI的下一站的项目。

首先复习一下“Foundation Agent”是什么。

NVIDIA的“Foundation Agent”是一项由其高级科学家Jim Fan提出的突破性技术，旨在跨越虚拟与现实世界的界限。这是一种是一种突破性的人工智能应用，希望创造能够在不同环境中操作的智能代理。这项技术的核心是创建一个能够在虚拟和现实世界中无缝运作的AI模型。这种技术可以在视频游戏、元宇宙、无人机和人形机器人等领域发挥重要作用，使单一模型能够在这些不同环境中掌握多种技能。

看完演讲，总结一下，他整个演讲中主要介绍这项技术的几个关键方面：

1.跨环境操作能力：Foundation Agent的目标是开发一个能够广泛适用于各种环境的AI代理。这意味着同一个模型可以在视频游戏、元宇宙、无人机和人形机器人等多种不同的应用场景中运作，而无需为每个场景单独设计和训练AI模型。

2.Metamorph项目：这项技术是NVIDIA与斯坦福大学合作的Metamorph项目的一部分，该项目成功创建了一个基础模型，用于同时控制多个机器人。这些机器人可以在复杂环境中执行不同的任务，展示了AI在多任务和多环境管理方面的潜力。

3.ISAC Sim仿真平台：NVIDIA的ISAC Sim是一种先进的仿真平台，它通过加速物理仿真，大大减少了AI训练所需的时间。通过这种方式，AI可以在虚拟环境中迅速积累经验，并将这些技能应用到现实世界的任务中。

4.Voyager AI机器人：Jim Fan开发的AI机器人，它利用了大型语言模型（如GPT4）来自主地玩Minecraft游戏。Voyager可以自动探索环境，并根据环境发展所需的技能。它通过学习自身的错误并将正确的程序存储在技能库中，实现了持续的学习和进步。

5.开放式智能代理的研究：Jim在研究中探索了开放式智能代理的概念，即能够根据任意自然语言提示执行开放式、甚至创造性任务的AI代理。这种代理不仅仅是为了完成特定目标而编程，而是具有更广泛的决策能力，能够在多样化的环境中灵活应用。

Jim提到，“基础代理”应当在三个维度上进行扩展：

技能：它能解决的任务数量；

实体形式：它能控制的身体形态的多样性；

现实世界：代理能够掌握的世界数量，无论是虚拟的还是物理的。这包括具有不同机制和规则的游戏、仿真和现实世界场景。

为什么我们想要一个单一的基础代理，而不是许多更小的模型？如果我们追溯每个AI领域的演变，我们会发现这样的模式：

专家 -> 通用型 -> 专业化的通用型

![Image](data:image/svg+xml,%3C%3Fxml version='1.0' encoding='UTF-8'%3F%3E%3Csvg width='1px' height='1px' viewBox='0 0 1 1' version='1.1' xmlns='http://www.w3.org/2000/svg' xmlns:xlink='http://www.w3.org/1999/xlink'%3E%3Ctitle%3E%3C/title%3E%3Cg stroke='none' stroke-width='1' fill='none' fill-rule='evenodd' fill-opacity='0'%3E%3Cg transform='translate(-249.000000, -126.000000)' fill='%23FFFFFF'%3E%3Crect x='249' y='126' width='1' height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

而“专业化的通用型”通常比最初的专家要强大得多。就像经过提炼的LlaMA版本远远优于5年前定制构建的NLP系统一样。

总结一下说人话就是～我们可以将“基础代理”按照技能、实体形式和现实世界三个维度进行扩展，就像是制造一个超级万能的机器人。这个机器人不仅能够做很多不同的事情（技能），还能在不同的形态下工作（比如控制不同的机器人或设备），并且能够在各种不同的环境中表现出色，无论是电脑游戏里的虚拟世界，还是现实生活中的各种场景。

那为什么我们想要这样一个超级万能的机器人，而不是很多个只会做一件事的小机器人呢？原因有几个：

_更高效_：有了一个能做很多事的大机器人，就不需要制造和维护一大堆只会做一件事的小机器人了。这样既节省了时间和资源，又减少了麻烦。

_更聪明_：这个大机器人可以学习很多不同的技能，并把在一个领域学到的东西应用到其他领域。比如，在电子游戏里学到的东西可能帮助它在现实世界的任务中表现得更好。

_更适应变化_：在现实世界中，情况常常会变化，有了这样一个能够适应多种环境和任务的机器人，我们就能更好地应对这些变化。

_长期来看更有用_：随着时间的推移，这个大机器人可以不断学习新的技能和知识，变得越来越厉害。接下来我们从Jim演讲的开头开始说起，展开说说这几个有意思的话题——

他先是谈到自己最初受到启发是在大学时看到了AlphaGo的下棋比赛大受震撼，同时也开始思考，AlphaGo虽然强大，但它只能做一件事，而且只能做一件事。他认为未来机器人应该像Wall-E或者星球大战里那样，是个多功能载体。（英雄所见略同啊，不然每个功能都买一个机器人家里堆不下啊）

后面不是又有个头号玩家这个电影嘛，可以跨越无限的虚拟或现实世界，那要实现这样的升级怎么办呢？升维啊——

接下来，他就拿带着voyager玩《我的世界》举栗子。注意选这款游戏是因为它是开放式的没有固定剧情。在探索《我的世界》的虚拟世界中，Voyager机器人展现了其惊人的自我学习和适应能力。整个过程就像是在进行一场无尽的冒险旅行，Voyager无需任何人的帮助，就能够在这个开放式世界中自由漫游数小时。

Voyager的行动背后的秘密在于“编码即行动”的理念。利用社区开发的Minecraft JavaScript API，将这个3D世界转化为文本的形式，Voyager通过调用GPT4，用JavaScript编写出各种代码片段，这些代码就成了它在游戏中执行的技能。不过，Voyager并非一开始就能完美执行这些任务，它也会像人类工程师一样犯错。

为了帮助Voyager改进，我们引入了“自我反思”的机制。这种机制基于三种反馈：JavaScript代码的执行错误、Voyager自身的状态（如健康和饥饿）以及周围世界的状态（如附近的地形和敌人）。Voyager会执行一个动作，然后观察这个动作对自己和周围世界的影响，从而思考如何能做得更好，并尝试新的行动方案。

当Voyager掌握了一个技能，它会将其保存在技能库中，这就像是给它注入了一种持久的记忆。这个技能库实际上是由语言模型编写的代码库。在《我的世界》中的探索和实验过程中，Voyager以递归的方式不断扩展自己的能力。

Jim继续说道，想象一下这样一个场景：Voyager发现自己饥饿难耐，需要迅速找到食物。它扫描周围，发现了四个实体：一只猫、一个村民、一头猪和一些种子。Voyager内心挣扎：“我该杀死猫还是村民来获得食物？太可怕了。那些小麦种子呢？我可以种植小麦，但那需要时间。对不起，小猪，看来是你了。”随后，Voyager在它的物品栏中发现了一块铁。它从技能库中调用一个旧技能来制造铁剑，并开始学习新的“猎猪”技能。可悲的是，Voyager并不是一个素食主义者。

Voyager是如何不断进行无限的探索的呢？我们只给它一个目标：尽可能多地获取独特的物品。Voyager自发地制定了一套课程，主动寻找并解决逐渐变得更加困难和新颖的挑战。把所有这些结合起来，Voyager不仅能够掌握新技能，还能在过程中发现它们。

我们没有预设任何程序，一切都是Voyager自己的创意。一个智能体始终充满好奇心，不断追求新的冒险，这就是我们所说的终身学习。虽然与AlphaGo相比，Voyager的能力更加多样，但它仍然只能在《我的世界》这一个虚拟世界中控制一个身体。

那么问题来了：我们能否有一个可以在不同载体上工作的算法？接下来Jim开始介绍，NVIDIA与斯坦福大学的合作项目“Metamorph”是这一突破的一部分，它创造了一个基础模型，用于控制多个机器人，每个机器人在复杂环境中执行不同的任务。此外，NVIDIA的ISAC Sim仿真平台通过加速物理仿真，使AI能够在更短的时间内接受虚拟训练，从而快速掌握各种经验，并将这些技能转移到现实世界的应用中。

Jim继续激情演讲：想象一下一个基础模型，MetaMorph，拥有控制成千上万个不同的机器人的能力。这不仅是技术上的突破，更像是走进了科幻小说的世界。每个机器人都有其独特的身体配置，有的可能拥有多个手臂和腿部，有的可能设计得更适合特定环境或任务。

MetaM‍orph就像是一个通用的大脑，能够无缝地接管这些不同机器人的控制权。

（emmm扭曲爬行。。）

我们设计了一套特殊的语言，用来描述这些机器人的身体部件。就像人类用词汇来表达思想和感受一样，MetaMorph使用这些特殊的词汇来“描绘”每个机器人。想象一下，一个机器人可以被概括为一句简单的句子，这句话定义了它的身体结构和功能。

‍

然后，我们应用了Transformer技术，这是一种强大的人工智能工具，通常用于处理语言。但在MetaMorph中，它被用来生成运动控制命令，而不是文本。这就像是将诗歌转化为舞蹈，将文字的优雅转化为机器人运动的流畅和精确。

我们已经展示了MetaMorph能够让这些机器人执行一系列复杂的任务，例如上下楼梯、穿越崎岖不平的地形，甚至在拥挤的环境中灵巧地避开障碍物。这种技术让机器人不再是单一功能的工具，而是成为了能够适应各种环境和情景的智能实体。

‍

未来的MetaMorph 2.0将更进一步。我们希望扩展机器人的“词汇量”，使其不仅能够控制目前的机械手和人形机器人，还能够控制更多种类的机器人，比如模仿动物运动的机器狗、能够在空中飞行的无人机，甚至是我们现在还无法想象的新型机器人。MetaMorph 2.0的目标是创造一个真正的多功能、跨领域的AI控制系统，它能够使机器人不仅在执行任务上更加高效，而且在适应性和灵活性上达到新的高度。

这不仅仅是技术革新的故事，更是关于如何将机器人变得更加聪明、更有适应性，甚至更具人性化的探索。MetaMorph将机器人从严格定义的功能性工具转变为能够在我们复杂、多变的世界中灵活行动的伙伴。想象一下，未来的机器人将能够在救灾现场救助人员、在工厂中灵活操作、在家庭中提供帮助，甚至在外太空探索未知领域。这是一个让机器人融入我们生活的未来，MetaMorph正是这一愿景的关键所在。

（好好好好好，然后还没结束他开始介绍IsaacSim，英伟达的模拟平台。）‍

IsaacSim的这种超高速物理模拟能力，就像是打开了一扇通往先进学习和训练的大门。想象一下，一个虚拟的小人，在短短3天内，就能完成10年量级的训练，这不仅是技术上的飞跃，更像是步入了一个新的科幻世界。

这种技术使我们能够在极短的时间内模拟长期的学习过程。这意味着，无论是机器人、人工智能代理，还是未来可能的人类用户，都能在这个模拟环境中迅速掌握复杂的技能，比如武术、医疗手术技巧，甚至是驾驶和飞行技能。这种高效的学习方式，让我们能够在安全的虚拟环境中进行冒险和实验，不受现实世界的限制。

更重要的是，IsaacSim可以程序化地生成具有无限变化的世界，因此没有两个世界看起来是一样的。（？？？没太搞懂他也没展开说了。）

最后Jim提到，训练这样的基础智能体将会与训练ChatGPT非常相似。在ChatGPT的案例中，所有的语言任务都可以被转化为文本输入和输出的形式。不管是写诗、把英语翻译成西班牙语，还是编写Python代码，本质上都是相同的处理过程。ChatGPT通过在大量的数据上进行大规模的学习来实现其功能。

基础智能体的工作原理也是类似的。它将任务提示作为输入，然后输出相应的操作。我们只需在大量的现实世界数据上对其进行大规模的训练，就能够提升它的能力。

写在后面：

可以这么理解嘛，未来凡是能够移动的东西最终都将是自主的。从家用机器人到自动驾驶汽车，从工业机械手臂到个人穿戴设备，都将被赋予智能，能够理解和适应不同的环境和任务。所有能动的东西都会变得聪明起来，就像是有了自己的大脑。。激动人心，起立鼓掌👏

_大家还可以关注他的推特，翻了一下他还评价说，许多初创公司，如Sanctuary、Apptronik、1X、Fourier、Unitree和Figure，都在灵巧操控硬件方面迅速赶上。有些人评论说，波士顿动力公司的Atlas机器人遥遥领先——嗯，是也不是。是的，在行走和杂技方面是领先的，但在手部灵巧性方面则不然。don get me wrong——Atlas所展示的无疑是一项工程壮举，也是机器人学领域的一个重要里程碑。但在我看来，用手完成的任务比后空翻或跑酷更有用，也更具经济价值。
_

累了先聊这么多。。