英伟达开源NitroGen:让 AI 通关《茶杯头》
2025-12-26 14:51:57
文章摘要
该模型可通过视觉像素学会玩游戏,文中解析其训练原理、实战表现,附电脑部署步骤。

目录


前言:

如果说 AlphaGo 是靠算力破解了围棋项目,那么今天这个家伙就是靠视觉成为了魂系玩家。

就在前不久,英伟达(NVIDIA)联合斯坦福等顶尖高校,推出一个开源模型——NitroGen

这东西有多离谱?它不需要读取游戏的后台内存,不需要你告诉它“按 A 是跳跃,B 是闪避”,它就像人类一样,通过屏幕(视觉像素),学会超过 1000 款游戏

从《只狼》的弹反,到《茶杯头》的闪避,甚至连它从未见过的《无人深空》,它都能上手比划两下。今天我们就来扒一扒,这个号称几千万美元打造的 NitroGen,真的有这么强吗?


一、AI是如何学会人类操作的?

首先要知道,训练一个能玩 1000 款游戏的 AI,数据从哪来?

过去可能的思路是,找一堆游戏高手,付钱让他们玩游戏,并记录下每一个按键数据。这太贵了,而且极其难扩展。NitroGen 团队搞了个骚操作——去 YouTube 和 Twitch 上“白嫖”


学习上千款游戏

1. 寻找正确的游戏视频

大家看单机游戏直播时,是不是经常看到有些硬核主播会在屏幕挂一个手柄输入显示?当你看到主播按下手柄的“A”键,屏幕上的手柄图标就会亮起,特别是篮球足球类游戏。

NitroGen 团队意识到,这就是天然的、带标签的、高质量训练数据。

2. 40,000 小时的白嫖

他们写了一套算法,专门识别并裁剪视频里的那个游戏手柄。


读取视频中游戏手柄

  • 第一步: 只要视频里有手柄 UI,不管它是半透明的、换了皮肤的,还是被弹幕挡了一点的,统统识别出来。
  • 第二步: 训练一个模型,专门盯着这个虚拟手柄看,把亮灯的瞬间翻译成具体的按键指令(比如:向左推摇杆、按下 RT 键)。

通过这种方式,他们零成本构建了一个包含 40,000 小时 游戏视频 + 操作指令的超级数据集。这相当于一个人类不吃不喝连续玩了 4.5 年的游戏。


二、实战表现:从《巫师3》到《茶杯头》

有了海量数据,NitroGen 练就了一种类似人类“下意识反应”的能力。它不擅长做长远的战略规划(比如解谜、看地图找路),但在 即时反应 上,它强得可怕。

1. 动作类 RPG:《巫师3》

在数据集中,动作 RPG 占比高达 35%。这意味着 NitroGen 最擅长的就是 看到敌人抬手就闪避 / 格挡


游玩巫师 3

《巫师3》表现: 当屏幕中出现 Boss 发起攻击的前摇动作时,NitroGen 能瞬间识别并做出闪避或攻击动作。它学会了“Timing”和“距离感”。

2. 2D 平台跳跃:《茶杯头》

《茶杯头》这种以高难度著称的游戏,对精度的要求是像素级的。NitroGen 在处理这类 2D 横版游戏时(占比约 18%),展现出了微操能力。


游玩茶杯头

  • 它能精准判断平台距离,完成极限跳跃。
  • 面对满屏的弹幕,它能基于视觉直觉进行躲避,就像一个玩了几百小时的老手形成的肌肉记忆。

3. 真正的考验:零样本挑战《无人深空》

为了测试它是不是在死记硬背,博主 Professor Cynical 做了一个极限测试:让 NitroGen 玩它从未见过的《无人深空》。


游玩无人深空

结果令人细思极恐:

  • 上手即玩: AI 接管控制后,虽然镜头晃动有点像喝醉了,但它竟然学会了使用喷气背包、开启扫描仪、并在空间站里自由走动。
  • 自我探索: 它并没有乱按,而是在尝试理解“在这个画面下,我按这个键会发生什么”。

虽然它还不会做复杂的任务(比如修飞船),但这种 把 A 游戏的经验迁移到 B 游戏 的能力,正是通往通用人工智能(AGI)的关键一步。


三、技术局限

为了保证内容的客观性,我还是要泼一盆冷水。NitroGen 目前的操作更像是小脑(负责运动控制),而不是大脑(负责逻辑规划)。

  1. 文盲: 它不理解游戏里的文字任务指引。如果你让它“去地下室找钥匙”,它大概率会在原地转圈,因为它只对像素变化有反应。
  2. 短视: 它只关注当前画面和极短的历史帧(约 16 步的微动作)。它没有长时记忆,无法完成复杂的解谜或跨地图任务。
  3. 怕异类: 对于策略类游戏(RTS)或需要复杂鼠标键盘操作的模拟经营游戏,它的表现并不好,可能因为这类数据在训练集中很少。

总结: 就好像一个反应极快的国外玩家去玩国内剧情解谜游戏,有操作,但不可能通关。


四、如何在你的电脑上部署 NitroGen?

好消息是,英伟达把这个项目完全开源了。如果你想让 AI 帮你代打或者做研究,可以按照以下步骤操作。

项目地址: https://github.com/MineDojo/NitroGen

前提条件:

  • 硬件: 最好有一张显存较大的 N 卡(建议 12GB 以上),虽然可以 Linux 推理,但玩游戏必须在 Windows 上运行。
  • 环境: Python ≥ 3.12。

部署步骤:

1. 克隆仓库与安装依赖: 打开终端(CMD 或 PowerShell),输入:

git clone https://github.com/MineDojo/NitroGen.git
cd NitroGen
pip install -e .

2. 下载模型权重: 你需要去 HuggingFace 下载预训练好的模型文件(ng.pt):

hf download nvidia/NitroGen ng.pt

3. 启动推理服务器: 先启动 AI 的大脑(模型服务):

python scripts/serve.py <你的模型文件路径/ng.pt>

4. 开始游戏(Agent 启动): 打开你想玩的游戏(比如《只狼》),然后在任务管理器里找到它的进程名(例如 sekiro.exe)。 接着运行:

python scripts/play.py --process 'sekiro.exe'

注意: 启动后,AI 会接管你的手柄输入。请确保你盯着屏幕,防止 AI 可能会做的匪夷所思操作。


AI 玩其他游戏

结语

NitroGen 的出现,本质上不是为了让大家开挂,而是视觉 + AI 的一个应用示例。

英伟达的野心在于 机器人。如果一个 AI 能通过看视频就学会操作虚拟世界中的角色,那么同样的逻辑,它也能通过看人类工作的视频,学会操控现实世界中的机器人去端茶倒水、拧螺丝。

游戏,只是 AI 进化路上的训练场。

(本文信息源自 NVIDIA NitroGen 项目及相关 Deep Dive 技术解析)

声明:该内容由作者自行发布,观点内容仅供参考,不代表平台立场;如有侵权,请联系平台删除。
标签:
机器人技术
开源大模型