马斯克的 AI 凭什么敢生成特朗普的照片？一次四平台对比测试

在黄河边醒酒

2026-01-08 11:29:41

生成式大模型

AI 伦理与治理

图像生成

图像生成与编辑

模型部署

多模态交互

AI 生成检测

实时信息查询

文章摘要

本文对比 Grok 与 ChatGPT、Perplexity 等主流 AI，在研究、生成图像与内容审查上的差异。指出 Grok 以更少限制换取创作自由和速度，但在学术严谨性、来源可靠性和语音交互上仍不成熟，核心差异不在技术，而在各家公司对 AI 边界与责任的不同选择。

你以为所有 AI 都有同样的"红线"？

当你让 ChatGPT 的 DALL-E 生成一张名人照片时，它会礼貌地拒绝：“抱歉，我不能生成真实公众人物的图像。”

但马斯克的 Grok 会说：“没问题，要什么风格的？”

这不是某个功能的差异。这是关于 AI 边界的两种完全对立的哲学。

2025 年 2 月，xAI 发布了 Grok 3，声称在数学、科学和编程基准测试中超越了 GPT-4o 和 Claude 3.5 Sonnet。但真正让它与众不同的不是性能数字，而是它对"AI 该管什么、不该管什么"这个问题的回答。

问题是：这种"放开手脚"的 AI，真的更好用吗？还是只是一场危险的营销噱头？

深度搜索模式测试

有人做了这样一个实验：Grok 的 DeepSearch 与 ChatGPT、Gemini 和 Perplexity 的 Deep Research 等深度研究工具相比如何？

  What are the best prompting techniques to get the most out of Generative AI? I'd like you to examine the academic research on this topic, focusing on high-quality papers

结果让人意外：

Grok DeepSearch：Grok 的速度非常快，仅用 1 分 10 秒就生成了一份包含 22 个来源的报告。报告列出了各种提示技巧。
然而，细节感觉有些肤浅，尽管要求重点关注高质量的学术论文，但许多来源并非学术性的。
Perplexity Deep Research（学术模式）：无论在细节还是资料来源方面都比 Grok 的报告更胜一筹。它提供了更深入的见解，对各种技术的探讨也比 Grok 更为透彻。
Perplexity 在启用学术专注模式后，也只使用学术资源，从而确保了可信度和可靠性。
OpenAI Deep Research：OpenAI 的深度研究方案明显优于其他方案。它精准地遵循了题目要求，引用了学术论文并提供了富有洞见的分析。它并非仅仅罗列技术，而是深入探讨了技术背后的科学发现，从而增加了研究的深度和可信度。
但它的价格也最高，而且使用次数有严格限制。截至撰写本文时，Plus 用户每月只能使用 OpenAI Deep Research 10 次（每月 20 美元），而 Pro 用户每月只能使用 120 次（每月 200 美元）。
Gemini：Gemini 的调查结果最差，出具的报告平淡无奇，缺乏真知灼见，而且混合使用了学术和非学术来源。

Grok 是最快的，但问题出在哪？

测试者发现，虽然 Grok 确实找到了一些有价值的内容（比如 LearnPrompting 的《提示报告》），但 22 个来源中，许多是非学术性的。原因？Grok 实时接入了 X（Twitter），而 X 上关于"提示技术"的讨论，大量是营销内容和个人经验分享。

这揭示了什么？

当你要快速了解"现在大家都在讨论什么"时，Grok 的实时性是优势。但如果你需要严谨的学术研究，这个优势反而变成了噪音。

就像：Google 能在 0.5 秒给你一百万个结果，但你真正需要的可能是那个藏在第五页的专业论文。速度和质量，有时候是反向关系。

实际指导：

写论文、做商业决策 → 用 OpenAI Deep Research 或 Perplexity（学术模式）
快速把握舆论动向、热点话题 → Grok 是唯一选择

生图测试：为什么 Grok 生成的基努·里维斯"以假乱真"

测试者给所有主流 AI 图像生成工具同一个指令：

“生成基努·里维斯穿着《黑客帝国》中尼奥的服装，举着一张写有’Learn Prompting’的纸。”

结果：

DALL-E：直接拒绝（政策不允许生成名人图像）
Flux.1 Dev
Ideogram 2.0 和 Flux.1 Dev：能生成，但人物风格和年龄都不太对
Grok（Aurora 模型）：生成了一张"明显更逼真"的图像

测试者的原话是：“Grok 3 的版本是明确的赢家。图像非常逼真，基努的风格和年龄都比其他结果更匹配电影。”

为什么会有这样的差距？

这不是技术能力的问题——Stable Diffusion 和 DALL-E 的底层技术完全有能力生成高质量人脸。区别在于政策。

大多数 AI 公司出于法律和伦理考虑，在训练数据中删除或模糊处理了名人面部信息。而 Grok 选择保留这些数据，并允许用户生成。

这带来了一个两难问题：

假设你是一个独立电影制作人，想在概念图中使用某个演员的形象做参考。或者你是一个讽刺漫画师，想创作一幅政治人物的夸张画。

在 Grok 之前，你的选择是：

花几千美元雇佣插画师
自己学 Photoshop 花几小时手动合成
放弃创作想法

Grok 给了第四个选择：30 秒生成。

但代价是什么？

文章提到，这个功能"引发了一些争议"。显然，当任何人都能轻松生成高度逼真的名人图像时，虚假信息的传播变得前所未有地容易。

这不是技术问题，是社会还没准备好的问题。

实际指导：

如果你是创作者，需要合法的创作自由 → Grok 目前是唯一工具
如果你担心被假图欺骗 → 养成反向图片搜索验证的习惯

性能：Grok 真的"碾压"GPT-4o 吗？

xAI 发布了一组基准测试数据，声称 Grok-3 和 Grok-3 mini 在以下领域超越了 o3 mini、o1、DeepSeek-R1 和 Gemini-2 Flash Thinking：
图片描述

数学（AIME’24 测试）
科学（GPQA 测试）
编程（LCB Oct-Feb 测试）

但这里有个关键细节：这些是 xAI 自己发布的数据。

在 AI 领域，基准测试有个众所周知的问题——“针对测试训练”（benchmark hacking）。当一个模型专门优化某个测试的性能时，它在真实场景中的表现可能完全不同。

比如说：一个学生可以通过大量刷题在考试中拿高分，但这不代表他真的理解原理。

最大的失败：语音模式为什么"还不成熟"（需要 Premium+ 或 SuperGrok 订阅）

Grok 3 推出了一个看起来很酷的功能：8 种不同的语音人格——

Default
Storyteller
Romantic
Meditation
Conspiracy
Not a therapist
Dr Grok
Sexy
Professor
还有一个叫"Unhinged"（疯癫）的模式，号称"会对你爆粗口"

听起来很有趣对吧？

但用户的反馈是"褒贬不一"（patchy, repetitive, far from polished）。
现在还处于早期阶段，还有很大的改进空间。但就目前而言，似乎没有一种模式能够达到预期效果。

为什么会这样？

因为 Grok 把"个性化"理解成了"换个说话方式"。但真正好的语音交互，不在于语气词和说话节奏，而在于对话的连贯性和对语境的理解。

就像：一个演员可以模仿莎士比亚的说话方式，但如果他不理解剧本的情感脉络，表演就会显得僵硬。

这对 Grok 是个致命伤。因为语音交互是下一代 AI 的核心战场，而现在 Grok 连 ChatGPT 的语音模式都打不过。

定价：每月 30 美元，值得吗？

Grok 的付费订阅叫 SuperGrok，价格是 $30/月 或 $300/年。

对比一下：

ChatGPT Plus：$20/月
Claude Pro：$20/月
Perplexity Pro：$20/月

多出来的 10 美元，你得到了什么？

保证访问 Grok 3（免费版有限制）
更多 DeepSearch 和 Think Mode 使用次数
语音模式权限
新功能的优先体验

但这里有个重要背景：OpenAI 的 Deep Research 功能，Plus 用户每月只能用 10 次，Pro 用户（$200/月）才能用 120 次。

相比之下，Grok 的免费版就提供了有限的 DeepSearch 使用次数。如果你只是偶尔需要深度研究，Grok 的性价比反而更高。

最终答案：你该用 Grok 吗？

“Grok 是否值得，取决于你对 AI 助手的期待。”

✅ Grok 适合你，如果：

你需要实时信息（特别是 X 平台上的讨论）
你需要创作自由（生成名人图像等）
你需要快速概览而非深度分析
你想要更少的内容审查

❌ 别用 Grok，如果：

你需要学术级的严谨性（来源质量不稳定）
你需要成熟的语音交互（这功能还很粗糙）
你只在乎最深入的研究（OpenAI Deep Research 更好）

“Grok 会挑战 OpenAI、Anthropic 和 Google 的主导地位吗？”

“只有时间会告诉我们答案，但它确实值得关注。”

以上内容不代表本平台立场，仅供读者参考