英伟达开源NitroGen：让 AI 通关《茶杯头》-阿司匹林-塔猴

阿司匹林

关注

一个自带BGM的AI研究员

粉丝

文章

获赞

2025重磅研究：首个基于200万真实病例的 AI 安全评估

深度拆解：AI如何引爆东南亚“杀猪盘”的工业革命？

正文目录

文章摘要

一、AI是如何学会人类操作的？

1. 寻找正确的游戏视频

2. 40,000 小时的白嫖

二、实战表现：从《巫师3》到《茶杯头》

1. 动作类 RPG：《巫师3》

2. 2D 平台跳跃：《茶杯头》

3. 真正的考验：零样本挑战《无人深空》

三、技术局限

四、如何在你的电脑上部署 NitroGen？

结语

英伟达开源NitroGen：让 AI 通关《茶杯头》

2025-12-26 14:51:57

文章摘要

该模型可通过视觉像素学会玩游戏，文中解析其训练原理、实战表现，附电脑部署步骤。

一、AI是如何学会人类操作的？
二、实战表现：从《巫师3》到《茶杯头》
三、技术局限
四、如何在你的电脑上部署 NitroGen？
结语

前言：

如果说 AlphaGo 是靠算力破解了围棋项目，那么今天这个家伙就是靠视觉成为了魂系玩家。

就在前不久，英伟达（NVIDIA）联合斯坦福等顶尖高校，推出一个开源模型——NitroGen。

这东西有多离谱？它不需要读取游戏的后台内存，不需要你告诉它“按 A 是跳跃，B 是闪避”，它就像人类一样，通过屏幕（视觉像素），学会超过 1000 款游戏。

从《只狼》的弹反，到《茶杯头》的闪避，甚至连它从未见过的《无人深空》，它都能上手比划两下。今天我们就来扒一扒，这个号称几千万美元打造的 NitroGen，真的有这么强吗？

一、AI是如何学会人类操作的？

首先要知道，训练一个能玩 1000 款游戏的 AI，数据从哪来？

过去可能的思路是，找一堆游戏高手，付钱让他们玩游戏，并记录下每一个按键数据。这太贵了，而且极其难扩展。NitroGen 团队搞了个骚操作——去 YouTube 和 Twitch 上“白嫖”。

学习上千款游戏

1. 寻找正确的游戏视频

大家看单机游戏直播时，是不是经常看到有些硬核主播会在屏幕挂一个手柄输入显示？当你看到主播按下手柄的“A”键，屏幕上的手柄图标就会亮起，特别是篮球足球类游戏。

NitroGen 团队意识到，这就是天然的、带标签的、高质量训练数据。

2. 40,000 小时的白嫖

他们写了一套算法，专门识别并裁剪视频里的那个游戏手柄。

读取视频中游戏手柄

第一步： 只要视频里有手柄 UI，不管它是半透明的、换了皮肤的，还是被弹幕挡了一点的，统统识别出来。
第二步： 训练一个模型，专门盯着这个虚拟手柄看，把亮灯的瞬间翻译成具体的按键指令（比如：向左推摇杆、按下 RT 键）。

通过这种方式，他们零成本构建了一个包含 40,000 小时 游戏视频 + 操作指令的超级数据集。这相当于一个人类不吃不喝连续玩了 4.5 年的游戏。

二、实战表现：从《巫师3》到《茶杯头》

有了海量数据，NitroGen 练就了一种类似人类“下意识反应”的能力。它不擅长做长远的战略规划（比如解谜、看地图找路），但在 即时反应 上，它强得可怕。

1. 动作类 RPG：《巫师3》

在数据集中，动作 RPG 占比高达 35%。这意味着 NitroGen 最擅长的就是 看到敌人抬手就闪避 / 格挡。

游玩巫师 3

《巫师3》表现： 当屏幕中出现 Boss 发起攻击的前摇动作时，NitroGen 能瞬间识别并做出闪避或攻击动作。它学会了“Timing”和“距离感”。

2. 2D 平台跳跃：《茶杯头》

《茶杯头》这种以高难度著称的游戏，对精度的要求是像素级的。NitroGen 在处理这类 2D 横版游戏时（占比约 18%），展现出了微操能力。

游玩茶杯头

它能精准判断平台距离，完成极限跳跃。
面对满屏的弹幕，它能基于视觉直觉进行躲避，就像一个玩了几百小时的老手形成的肌肉记忆。

3. 真正的考验：零样本挑战《无人深空》

为了测试它是不是在死记硬背，博主 Professor Cynical 做了一个极限测试：让 NitroGen 玩它从未见过的《无人深空》。

游玩无人深空

结果令人细思极恐：

上手即玩： AI 接管控制后，虽然镜头晃动有点像喝醉了，但它竟然学会了使用喷气背包、开启扫描仪、并在空间站里自由走动。
自我探索： 它并没有乱按，而是在尝试理解“在这个画面下，我按这个键会发生什么”。

虽然它还不会做复杂的任务（比如修飞船），但这种 把 A 游戏的经验迁移到 B 游戏 的能力，正是通往通用人工智能（AGI）的关键一步。

三、技术局限

为了保证内容的客观性，我还是要泼一盆冷水。NitroGen 目前的操作更像是小脑（负责运动控制），而不是大脑（负责逻辑规划）。

文盲： 它不理解游戏里的文字任务指引。如果你让它“去地下室找钥匙”，它大概率会在原地转圈，因为它只对像素变化有反应。
短视： 它只关注当前画面和极短的历史帧（约 16 步的微动作）。它没有长时记忆，无法完成复杂的解谜或跨地图任务。
怕异类： 对于策略类游戏（RTS）或需要复杂鼠标键盘操作的模拟经营游戏，它的表现并不好，可能因为这类数据在训练集中很少。

总结： 就好像一个反应极快的国外玩家去玩国内剧情解谜游戏，有操作，但不可能通关。

四、如何在你的电脑上部署 NitroGen？

好消息是，英伟达把这个项目完全开源了。如果你想让 AI 帮你代打或者做研究，可以按照以下步骤操作。

项目地址： https://github.com/MineDojo/NitroGen

前提条件：

硬件： 最好有一张显存较大的 N 卡（建议 12GB 以上），虽然可以 Linux 推理，但玩游戏必须在 Windows 上运行。
环境： Python ≥ 3.12。

部署步骤：

1. 克隆仓库与安装依赖： 打开终端（CMD 或 PowerShell），输入：

git clone https://github.com/MineDojo/NitroGen.git
cd NitroGen
pip install -e .

2. 下载模型权重： 你需要去 HuggingFace 下载预训练好的模型文件（ng.pt）：

hf download nvidia/NitroGen ng.pt

3. 启动推理服务器： 先启动 AI 的大脑（模型服务）：

python scripts/serve.py <你的模型文件路径/ng.pt>

4. 开始游戏（Agent 启动）： 打开你想玩的游戏（比如《只狼》），然后在任务管理器里找到它的进程名（例如 sekiro.exe）。接着运行：

python scripts/play.py --process 'sekiro.exe'

注意： 启动后，AI 会接管你的手柄输入。请确保你盯着屏幕，防止 AI 可能会做的匪夷所思操作。

AI 玩其他游戏

结语

NitroGen 的出现，本质上不是为了让大家开挂，而是视觉 + AI 的一个应用示例。

英伟达的野心在于 机器人。如果一个 AI 能通过看视频就学会操作虚拟世界中的角色，那么同样的逻辑，它也能通过看人类工作的视频，学会操控现实世界中的机器人去端茶倒水、拧螺丝。

游戏，只是 AI 进化路上的训练场。

(本文信息源自 NVIDIA NitroGen 项目及相关 Deep Dive 技术解析)

声明：该内容由作者自行发布，观点内容仅供参考，不代表平台立场；如有侵权，请联系平台删除。

标签：

机器人技术

开源大模型

阿司匹林

关注

加入知识库

TA的精选

准确率92.9！GPT-4o直逼专业医师

一年前ChatGPT医学解剖学考试平均准确率仅44%，如今GPT - 4o达92.9%。在325道USMLE评测中，新一代大模型平均准确度提升，GPT - 4o表现最佳。其推理路径改变，能重建人体部位逻辑关系。不同模型表现有差异，大模型知识结构失衡。AI正重塑医学教育，未来或采用AI + 导师机制，还将反向设计教学，开发专科定制型医学模型。

AI剧本杀DM（主持人）App开发思路

前言：剧本杀行业的痛点与AI机遇剧本杀市场规模已突破170亿，线下门店超3万家，但好DM（DungeonMaster，主持人）却供不应求。一场6人本通常需要3-5小时，DM全程不仅要控场、发线索、引导

Sora 2 广告短片制作：从拉片到出片全流程

人人都是广告导演！顶级AI视频Sora 2免费生成，30s秒超质感广告短片的秘诀大公开。本文手把手教你三步走，快速打造属于你的品牌广告片，效率翻倍！

用户协议

隐私政策

营业执照

版权保护声明

出版物经营许可证：新出发两江字第000309号

广播电视节目制作经营许可证

渝ICP备2025058953号

渝ICP证渝B2-20250652

渝公网安备50019002504787号

服务热线：023-63426839

举报邮箱：service@tahou.com

预览