文章摘要
文章指出AI系统安全卡片质量大概率下滑,会带来危害,如影响实验室认知、使外部难了解风险等。其下滑与系统复杂、卡片潦草、审视难及实验室误导动机强有关。虽有优化机制,但第三方仍应将审视作为核心工作,并给出了具体行动建议,还提醒避免过度指责。

从普遍情况来看,AI系统安全卡片的质量大概率会出现下滑,这无疑会带来负面后果。尽管存在一些可以优化系统卡片的路径,但我认为这些路径的作用最终会被抵消。不管最终结果如何,我都认为第三方机构应当将审视系统卡片作为核心工作之一,在当下的AI发展战略环境中,这是外部参与者能够参与的极具价值的行动。接下来我会详细说明这类行动的具体形态,并给出针对性的建议。

系统卡片质量下滑会带来哪些危害?

  1. 如果实验室感受到准确评估风险的压力,那么它们会获得更强的动机去主动降低AI相关风险。
  2. 当风险足够高时,如果实验室如实通报风险情况,有可能会推动政府采取激进的监管或应对行动。
  3. 存在一种可能性极高的场景:如果实验室研发出对齐失败的AI并导致其接管,那么绝大多数实验室员工其实都持有真诚但错误的认知,认为AI不会失控,而他们的判断依据实际上是薄弱且具有误导性的。外部主体对系统卡片的审视,能够有效改善实验室内部的认知水平。
  4. 让外部社区了解最紧迫的AI风险类型至关重要,这样相关群体才能明确自身工作的优先方向。

为何系统卡片质量大概率会随时间下滑?

  1. AI系统本身会变得愈发复杂。
    1. 市场上会出现更多的AI模型,采用更复杂的训练技术,模型之间的交互方式也会更多样化,同时还会有大量针对突发问题的临时补丁。
    2. 目前已经没有任何人能够完全掌握整个AI系统的全貌,单个个体能够理解的系统占比还会持续缩小。
    3. 任何整体的安全判断,都只能通过松散整合多条证据线索来得出,而非基于严谨结构化的安全论证框架。
  2. 系统卡片本身会变得愈发潦草粗糙。
    1. AI研发的进度会不断加快,导致系统卡片的撰写时间被压缩,最终产出的内容会非常仓促。
    2. 越来越多的系统卡片内容会由AI生成:AI会自动化完成更多实验设计、代码编写、数据分析和文本撰写工作,这会带来内容粗糙、被恶意篡改等风险。当AI在撰写系统卡片方面表现明显不佳时,作者不会依赖AI工具;而当AI表现足够优秀时,依赖AI工具则不会有问题。但存在一个U型效应:当AI刚好能够勉强胜任系统卡片撰写工作时,卡片的质量反而会出现下滑。
    3. 针对AI能力和倾向的评估,会更多基于早期的模型 checkpoint 而非最终部署的模型,这也是为了适配愈发复杂的系统研发节奏。
  3. 对系统卡片的审视难度会不断提升。
    1. 第三方审视者可用的时间会越来越少,因为系统卡片发布到潜在灾难发生的时间间隔正在不断缩短。
    2. 系统卡片的作者会越来越多地需要引用非公开的系统信息,一方面是因为实验室会持有更多的算法机密(源于研发节奏的加快),另一方面是出于竞争力和安全考虑,实验室会更加严格地保护这些机密信息。
  4. 实验室会获得更强的误导外部的动机——这也是我最主要的担忧点。
    1. 客观存在的AI风险会不断上升,因此如果实验室想要宣称风险较低,就需要采取越来越多的误导手段。
    2. 各国政府和其他相关主体会愈发担忧AI风险,一旦判断风险过高就会采取激进行动,这类行动大概率会减缓甚至阻碍实验室的研发进度。
    3. 随着AI研发竞赛进入后期阶段,实验室会愈发清晰地认识到减缓进度或输掉竞赛的巨大代价。
    4. 综合以上三点,实验室会拥有更强的动机去隐瞒信息:向本国政府隐瞒以避免监管或激进的国内行动;向外国政府隐瞒以避免军事冲突;向公众隐瞒以避免大规模社会动荡;向内部员工隐瞒以避免内部的反对声音。

有哪些机制可以优化系统卡片质量?

优化系统卡片的潜在路径包括以下几个方面:

  1. AI自动化工具可以支持更全面的实验和分析工作,提升工作质量,比如AI可以运行更多的实验复现和消融测试,分析更多的对话记录等。
  2. 由于系统卡片的重要性不断提升,实验室会投入更多精力来打造高质量的卡片。
  3. 外部主体——包括各国政府、第三方机构、公众以及竞争实验室——会拥有更强的动力去审视系统卡片。

而外部主体的审视还会带来以下具体影响:

  1. 这会给实验室带来压力,促使它们投入更多资源优化系统卡片,扩大负责系统卡片撰写的团队规模,并且不再强行追求乐观的结论。
  2. 如果第三方机构能够证明系统卡片的质量正在下滑,那么其他主体会更少依赖这些卡片。即便无法直接提升卡片质量,让公众正确认知卡片的质量水平本身也是有价值的。
  3. 如果第三方机构证明实验室大幅低估了AI风险,那么有可能会推动政府采取激进的监管或应对行动。

第三方机构可以采取的具体行动建议

我会将相关建议分为两个优先级层次,帮助第三方机构有序开展工作:

核心优先级行动

  1. 维护优化清单:安排专人维护一份按优先级排序的系统卡片优化具体干预措施清单,将其共享给实验室的相关人员,并根据收到的反馈不断更新清单内容。
  2. 撰写批判性审查报告:当实验室发布系统卡片时,需要全面梳理并完成以下工作:
    1. 检查是否存在局部逻辑无效的论证,即结论无法从前提推导得出;
    2. 检查前提假设是否脱离现实;
    3. 检查前提或结论是否与当前最前沿的科学研究存在冲突,若相关科学研究尚未完善,则可以委托开展相关研究;
    4. 寻找对观测结果的其他合理解释,比如训练博弈、评估感知、串通作弊、不忠实的思维链推理等;
    5. 排查明显的漏洞和错误。
  3. 向相关第三方转交系统卡片的部分内容:例如,如果卡片中使用了某一项评估方法,可以向该评估方法的开发者咨询他们对结果的看法,并将这些观点整合到审查报告中。
  4. 与实验室员工沟通:向他们解释系统卡片质量的重要性,当前卡片存在的问题,以及员工可以提供哪些帮助。
  5. 公开自身的观点:在社交媒体上发布详细的分析内容成本较低,也可以联系传统媒体并接受采访,扩大影响力。

延伸支持行动

  1. 与各国政府沟通:向政府说明系统卡片的重要性,当前卡片存在的问题,以及政府可以提供哪些支持。
  2. 施压实验室共享关键资料:推动实验室向第三方风险评估人员共享最重要的资料,比如对话记录、代码等,当评估人员认为有必要时。如果实验室以“内部评估显示X”为由拒绝公开信息,可以要求其将相关内容披露给可信的第三方机构,或者对这类声明保持怀疑态度。
  3. 表扬制作高质量系统卡片的实验室:同时也要表扬劣质卡片中的合理部分,邀请优质系统卡片的作者参与播客节目,分享相关经验。
  4. 建立共识:如果系统卡片确实变得愈发粗糙,应当推动社会形成这一共识。相较于“系统卡片质量低劣但实验室拒不承认”,“实验室承认卡片粗糙,并表示这是因为研发节奏紧张、对系统的理解不足,同时希望通过协调放缓研发节奏以更谨慎地推进工作”的情况会好得多。
  5. 施压实验室为第三方审视提供支持:随着系统卡片愈发复杂,第三方审视者可用的时间愈发有限,因此实验室应当为第三方机构提供最先进的内部模型和辅助工具,同时将系统卡片审视作为一项核心能力来培养。
  6. 跟踪系统卡片的价值:需要持续关注系统卡片是否仍然对AI安全发展具有重要意义,避免因为路径依赖而继续投入资源在已经失去价值的工作上。
  7. 成立专门的组织:该组织可以自主开展上述各类活动,协调社区内的各方力量,同时也可以成为各国政府在需要解读系统卡片时的可信合作对象。

劣质的系统卡片依然好过完全没有系统卡片

实验室不应该因为发布了劣质的系统卡片,而比完全不发布卡片受到更多的指责。如果出现这种情况,一方面会对主动透明的实验室造成差异化的伤害,另一方面会鼓励实验室放弃透明化运营。这两种结果都会降低头部实验室的透明度,进而让整体的AI安全环境变得更加危险,这也是推动第三方审视系统卡片可能带来的糟糕后果。

为了避免这种情况,对系统卡片的审视应当搭配对不透明实验室的批评。举个例子:“某公司的系统卡片中披露,他们在训练过程中意外执行了X操作,他们声称这没问题,理由是[bla]。我们对此并不认同,依据是[bla]。需要注意的是,其竞争对手公司尚未披露是否执行过类似操作,因此他们的部署行为可能存在更高的风险。我们呼吁该竞争对手公司公开相关信息。”


塔猴是一个专注于为用户提供系统学习、内容创作与商业连接的AIGC综合服务平台,致力于为每一位AI探索者打造理想的创作、成长家园。在塔猴,你不仅可以学习众多AIGC类实战课程,获得与时俱进的AIGC技能和视野,还有机会获得长期商业合作和接单机会!点击进入:https://www.tahou.com/

AI生成内容提示:本文由人工智能辅助创作,内容仅供参考,不代表平台观点。请注意核实信息的准确性,并理性判断。

以上内容不代表本平台立场,仅供读者参考