目录
前言:
如果说 AlphaGo 是靠算力破解了围棋项目,那么今天这个家伙就是靠视觉成为了魂系玩家。
就在前不久,英伟达(NVIDIA)联合斯坦福等顶尖高校,推出一个开源模型——NitroGen。
这东西有多离谱?它不需要读取游戏的后台内存,不需要你告诉它“按 A 是跳跃,B 是闪避”,它就像人类一样,通过屏幕(视觉像素),学会超过 1000 款游戏。
从《只狼》的弹反,到《茶杯头》的闪避,甚至连它从未见过的《无人深空》,它都能上手比划两下。今天我们就来扒一扒,这个号称几千万美元打造的 NitroGen,真的有这么强吗?
一、AI是如何学会人类操作的?
首先要知道,训练一个能玩 1000 款游戏的 AI,数据从哪来?
过去可能的思路是,找一堆游戏高手,付钱让他们玩游戏,并记录下每一个按键数据。这太贵了,而且极其难扩展。NitroGen 团队搞了个骚操作——去 YouTube 和 Twitch 上“白嫖”。
学习上千款游戏
1. 寻找正确的游戏视频
大家看单机游戏直播时,是不是经常看到有些硬核主播会在屏幕挂一个手柄输入显示?当你看到主播按下手柄的“A”键,屏幕上的手柄图标就会亮起,特别是篮球足球类游戏。
NitroGen 团队意识到,这就是天然的、带标签的、高质量训练数据。
2. 40,000 小时的白嫖
他们写了一套算法,专门识别并裁剪视频里的那个游戏手柄。
读取视频中游戏手柄
- 第一步: 只要视频里有手柄 UI,不管它是半透明的、换了皮肤的,还是被弹幕挡了一点的,统统识别出来。
- 第二步: 训练一个模型,专门盯着这个虚拟手柄看,把亮灯的瞬间翻译成具体的按键指令(比如:向左推摇杆、按下 RT 键)。
通过这种方式,他们零成本构建了一个包含 40,000 小时 游戏视频 + 操作指令的超级数据集。这相当于一个人类不吃不喝连续玩了 4.5 年的游戏。
二、实战表现:从《巫师3》到《茶杯头》
有了海量数据,NitroGen 练就了一种类似人类“下意识反应”的能力。它不擅长做长远的战略规划(比如解谜、看地图找路),但在 即时反应 上,它强得可怕。
1. 动作类 RPG:《巫师3》
在数据集中,动作 RPG 占比高达 35%。这意味着 NitroGen 最擅长的就是 看到敌人抬手就闪避 / 格挡。
游玩巫师 3
《巫师3》表现: 当屏幕中出现 Boss 发起攻击的前摇动作时,NitroGen 能瞬间识别并做出闪避或攻击动作。它学会了“Timing”和“距离感”。
2. 2D 平台跳跃:《茶杯头》
《茶杯头》这种以高难度著称的游戏,对精度的要求是像素级的。NitroGen 在处理这类 2D 横版游戏时(占比约 18%),展现出了微操能力。
游玩茶杯头
- 它能精准判断平台距离,完成极限跳跃。
- 面对满屏的弹幕,它能基于视觉直觉进行躲避,就像一个玩了几百小时的老手形成的肌肉记忆。
3. 真正的考验:零样本挑战《无人深空》
为了测试它是不是在死记硬背,博主 Professor Cynical 做了一个极限测试:让 NitroGen 玩它从未见过的《无人深空》。
游玩无人深空
结果令人细思极恐:
- 上手即玩: AI 接管控制后,虽然镜头晃动有点像喝醉了,但它竟然学会了使用喷气背包、开启扫描仪、并在空间站里自由走动。
- 自我探索: 它并没有乱按,而是在尝试理解“在这个画面下,我按这个键会发生什么”。
虽然它还不会做复杂的任务(比如修飞船),但这种 把 A 游戏的经验迁移到 B 游戏 的能力,正是通往通用人工智能(AGI)的关键一步。
三、技术局限
为了保证内容的客观性,我还是要泼一盆冷水。NitroGen 目前的操作更像是小脑(负责运动控制),而不是大脑(负责逻辑规划)。
- 文盲: 它不理解游戏里的文字任务指引。如果你让它“去地下室找钥匙”,它大概率会在原地转圈,因为它只对像素变化有反应。
- 短视: 它只关注当前画面和极短的历史帧(约 16 步的微动作)。它没有长时记忆,无法完成复杂的解谜或跨地图任务。
- 怕异类: 对于策略类游戏(RTS)或需要复杂鼠标键盘操作的模拟经营游戏,它的表现并不好,可能因为这类数据在训练集中很少。
总结: 就好像一个反应极快的国外玩家去玩国内剧情解谜游戏,有操作,但不可能通关。
四、如何在你的电脑上部署 NitroGen?
好消息是,英伟达把这个项目完全开源了。如果你想让 AI 帮你代打或者做研究,可以按照以下步骤操作。
项目地址: https://github.com/MineDojo/NitroGen
前提条件:
- 硬件: 最好有一张显存较大的 N 卡(建议 12GB 以上),虽然可以 Linux 推理,但玩游戏必须在 Windows 上运行。
- 环境: Python ≥ 3.12。
部署步骤:
1. 克隆仓库与安装依赖: 打开终端(CMD 或 PowerShell),输入:
git clone https://github.com/MineDojo/NitroGen.git
cd NitroGen
pip install -e .
2. 下载模型权重:
你需要去 HuggingFace 下载预训练好的模型文件(ng.pt):
hf download nvidia/NitroGen ng.pt
3. 启动推理服务器: 先启动 AI 的大脑(模型服务):
python scripts/serve.py <你的模型文件路径/ng.pt>
4. 开始游戏(Agent 启动):
打开你想玩的游戏(比如《只狼》),然后在任务管理器里找到它的进程名(例如 sekiro.exe)。
接着运行:
python scripts/play.py --process 'sekiro.exe'
注意: 启动后,AI 会接管你的手柄输入。请确保你盯着屏幕,防止 AI 可能会做的匪夷所思操作。
AI 玩其他游戏
结语
NitroGen 的出现,本质上不是为了让大家开挂,而是视觉 + AI 的一个应用示例。
英伟达的野心在于 机器人。如果一个 AI 能通过看视频就学会操作虚拟世界中的角色,那么同样的逻辑,它也能通过看人类工作的视频,学会操控现实世界中的机器人去端茶倒水、拧螺丝。
游戏,只是 AI 进化路上的训练场。
(本文信息源自 NVIDIA NitroGen 项目及相关 Deep Dive 技术解析)



