系统卡质量恶化风险与第三方监督机制

2026-06-29 16:27:11

文章摘要

文章指出AI系统安全卡片质量大概率下滑，会带来危害，如影响实验室认知、使外部难了解风险等。其下滑与系统复杂、卡片潦草、审视难及实验室误导动机强有关。虽有优化机制，但第三方仍应将审视作为核心工作，并给出了具体行动建议，还提醒避免过度指责。

从普遍情况来看，AI系统安全卡片的质量大概率会出现下滑，这无疑会带来负面后果。尽管存在一些可以优化系统卡片的路径，但我认为这些路径的作用最终会被抵消。不管最终结果如何，我都认为第三方机构应当将审视系统卡片作为核心工作之一，在当下的AI发展战略环境中，这是外部参与者能够参与的极具价值的行动。接下来我会详细说明这类行动的具体形态，并给出针对性的建议。

系统卡片质量下滑会带来哪些危害？

如果实验室感受到准确评估风险的压力，那么它们会获得更强的动机去主动降低AI相关风险。
当风险足够高时，如果实验室如实通报风险情况，有可能会推动政府采取激进的监管或应对行动。
存在一种可能性极高的场景：如果实验室研发出对齐失败的AI并导致其接管，那么绝大多数实验室员工其实都持有真诚但错误的认知，认为AI不会失控，而他们的判断依据实际上是薄弱且具有误导性的。外部主体对系统卡片的审视，能够有效改善实验室内部的认知水平。
让外部社区了解最紧迫的AI风险类型至关重要，这样相关群体才能明确自身工作的优先方向。

为何系统卡片质量大概率会随时间下滑？

AI系统本身会变得愈发复杂。
1. 市场上会出现更多的AI模型，采用更复杂的训练技术，模型之间的交互方式也会更多样化，同时还会有大量针对突发问题的临时补丁。
2. 目前已经没有任何人能够完全掌握整个AI系统的全貌，单个个体能够理解的系统占比还会持续缩小。
3. 任何整体的安全判断，都只能通过松散整合多条证据线索来得出，而非基于严谨结构化的安全论证框架。
系统卡片本身会变得愈发潦草粗糙。
1. AI研发的进度会不断加快，导致系统卡片的撰写时间被压缩，最终产出的内容会非常仓促。
2. 越来越多的系统卡片内容会由AI生成：AI会自动化完成更多实验设计、代码编写、数据分析和文本撰写工作，这会带来内容粗糙、被恶意篡改等风险。当AI在撰写系统卡片方面表现明显不佳时，作者不会依赖AI工具；而当AI表现足够优秀时，依赖AI工具则不会有问题。但存在一个U型效应：当AI刚好能够勉强胜任系统卡片撰写工作时，卡片的质量反而会出现下滑。
3. 针对AI能力和倾向的评估，会更多基于早期的模型 checkpoint 而非最终部署的模型，这也是为了适配愈发复杂的系统研发节奏。
对系统卡片的审视难度会不断提升。
1. 第三方审视者可用的时间会越来越少，因为系统卡片发布到潜在灾难发生的时间间隔正在不断缩短。
2. 系统卡片的作者会越来越多地需要引用非公开的系统信息，一方面是因为实验室会持有更多的算法机密（源于研发节奏的加快），另一方面是出于竞争力和安全考虑，实验室会更加严格地保护这些机密信息。
实验室会获得更强的误导外部的动机——这也是我最主要的担忧点。
1. 客观存在的AI风险会不断上升，因此如果实验室想要宣称风险较低，就需要采取越来越多的误导手段。
2. 各国政府和其他相关主体会愈发担忧AI风险，一旦判断风险过高就会采取激进行动，这类行动大概率会减缓甚至阻碍实验室的研发进度。
3. 随着AI研发竞赛进入后期阶段，实验室会愈发清晰地认识到减缓进度或输掉竞赛的巨大代价。
4. 综合以上三点，实验室会拥有更强的动机去隐瞒信息：向本国政府隐瞒以避免监管或激进的国内行动；向外国政府隐瞒以避免军事冲突；向公众隐瞒以避免大规模社会动荡；向内部员工隐瞒以避免内部的反对声音。

有哪些机制可以优化系统卡片质量？

优化系统卡片的潜在路径包括以下几个方面：

AI自动化工具可以支持更全面的实验和分析工作，提升工作质量，比如AI可以运行更多的实验复现和消融测试，分析更多的对话记录等。
由于系统卡片的重要性不断提升，实验室会投入更多精力来打造高质量的卡片。
外部主体——包括各国政府、第三方机构、公众以及竞争实验室——会拥有更强的动力去审视系统卡片。

而外部主体的审视还会带来以下具体影响：

这会给实验室带来压力，促使它们投入更多资源优化系统卡片，扩大负责系统卡片撰写的团队规模，并且不再强行追求乐观的结论。
如果第三方机构能够证明系统卡片的质量正在下滑，那么其他主体会更少依赖这些卡片。即便无法直接提升卡片质量，让公众正确认知卡片的质量水平本身也是有价值的。
如果第三方机构证明实验室大幅低估了AI风险，那么有可能会推动政府采取激进的监管或应对行动。

第三方机构可以采取的具体行动建议

我会将相关建议分为两个优先级层次，帮助第三方机构有序开展工作：

核心优先级行动

维护优化清单：安排专人维护一份按优先级排序的系统卡片优化具体干预措施清单，将其共享给实验室的相关人员，并根据收到的反馈不断更新清单内容。
撰写批判性审查报告：当实验室发布系统卡片时，需要全面梳理并完成以下工作：
1. 检查是否存在局部逻辑无效的论证，即结论无法从前提推导得出；
2. 检查前提假设是否脱离现实；
3. 检查前提或结论是否与当前最前沿的科学研究存在冲突，若相关科学研究尚未完善，则可以委托开展相关研究；
4. 寻找对观测结果的其他合理解释，比如训练博弈、评估感知、串通作弊、不忠实的思维链推理等；
5. 排查明显的漏洞和错误。
向相关第三方转交系统卡片的部分内容：例如，如果卡片中使用了某一项评估方法，可以向该评估方法的开发者咨询他们对结果的看法，并将这些观点整合到审查报告中。
与实验室员工沟通：向他们解释系统卡片质量的重要性，当前卡片存在的问题，以及员工可以提供哪些帮助。
公开自身的观点：在社交媒体上发布详细的分析内容成本较低，也可以联系传统媒体并接受采访，扩大影响力。

延伸支持行动

与各国政府沟通：向政府说明系统卡片的重要性，当前卡片存在的问题，以及政府可以提供哪些支持。
施压实验室共享关键资料：推动实验室向第三方风险评估人员共享最重要的资料，比如对话记录、代码等，当评估人员认为有必要时。如果实验室以“内部评估显示X”为由拒绝公开信息，可以要求其将相关内容披露给可信的第三方机构，或者对这类声明保持怀疑态度。
表扬制作高质量系统卡片的实验室：同时也要表扬劣质卡片中的合理部分，邀请优质系统卡片的作者参与播客节目，分享相关经验。
建立共识：如果系统卡片确实变得愈发粗糙，应当推动社会形成这一共识。相较于“系统卡片质量低劣但实验室拒不承认”，“实验室承认卡片粗糙，并表示这是因为研发节奏紧张、对系统的理解不足，同时希望通过协调放缓研发节奏以更谨慎地推进工作”的情况会好得多。
施压实验室为第三方审视提供支持：随着系统卡片愈发复杂，第三方审视者可用的时间愈发有限，因此实验室应当为第三方机构提供最先进的内部模型和辅助工具，同时将系统卡片审视作为一项核心能力来培养。
跟踪系统卡片的价值：需要持续关注系统卡片是否仍然对AI安全发展具有重要意义，避免因为路径依赖而继续投入资源在已经失去价值的工作上。
成立专门的组织：该组织可以自主开展上述各类活动，协调社区内的各方力量，同时也可以成为各国政府在需要解读系统卡片时的可信合作对象。

劣质的系统卡片依然好过完全没有系统卡片

实验室不应该因为发布了劣质的系统卡片，而比完全不发布卡片受到更多的指责。如果出现这种情况，一方面会对主动透明的实验室造成差异化的伤害，另一方面会鼓励实验室放弃透明化运营。这两种结果都会降低头部实验室的透明度，进而让整体的AI安全环境变得更加危险，这也是推动第三方审视系统卡片可能带来的糟糕后果。

为了避免这种情况，对系统卡片的审视应当搭配对不透明实验室的批评。举个例子：“某公司的系统卡片中披露，他们在训练过程中意外执行了X操作，他们声称这没问题，理由是[bla]。我们对此并不认同，依据是[bla]。需要注意的是，其竞争对手公司尚未披露是否执行过类似操作，因此他们的部署行为可能存在更高的风险。我们呼吁该竞争对手公司公开相关信息。”

塔猴是一个专注于为用户提供系统学习、内容创作与商业连接的AIGC综合服务平台，致力于为每一位AI探索者打造理想的创作、成长家园。在塔猴，你不仅可以学习众多AIGC类实战课程，获得与时俱进的AIGC技能和视野，还有机会获得长期商业合作和接单机会！点击进入：https://www.tahou.com/

AI生成内容提示：本文由人工智能辅助创作，内容仅供参考，不代表平台观点。请注意核实信息的准确性，并理性判断。

以上内容不代表本平台立场，仅供读者参考