MIT新研究量化AI监督挑战:控制比我们聪明的AI,成功率可能不足52%?

内容摘要来源:DeepTech深科技这项研究的核心思想是,或许我们可以利用相对“较弱”的 AI 系统来监督和引导能力更“强”的 AI 系统,甚至通过一种被称为“嵌套可扩展监督”(NSO,Nested Scalable Oversight)的递归过程

来源:DeepTech深科技

这项研究的核心思想是,或许我们可以利用相对“较弱”的 AI 系统来监督和引导能力更“强”的 AI 系统,甚至通过一种被称为“嵌套可扩展监督”(NSO,Nested Scalable Oversight)的递归过程,让监督能力随着被监督 AI 能力的增长而“自举”式地提升,最终实现人类对超人 AI 的有效管控,这个概念也为许多前沿 AI 实验室所采用。

但正如研究人员指出的那样,迄今为止,关于这种监督方法有效性的论证大多停留在定性、概念层面,缺乏像航空安全(要求每飞行小时的致死率低于十万分之一)或核反应堆安全(要求核心损坏频率低于每年万分之一)那样严格的量化标准。

为了填补这一空白,研究团队他们将 AI 监督过程模型化为一场不对称的游戏,参与者分别是能力较弱的“守卫”(Guard,代表监督系统)和能力更强、试图规避监督或“越狱”的“Houdini”(代表被监督的、可能具有欺骗性的高级 AI)。

图丨框架的概述(来源:arXiv)

研究的关键在于如何量化这两个角色的能力。团队引入了类似于国际象棋等级分的 Elo 评分系统。每个 AI 模型不仅有一个衡量其“通用智能”(以公开的 Chatbot Arena Elo 评分作为代理指标)的分数,还在特定的监督游戏中被赋予两个领域特定的 Elo 分数:一个代表其扮演“守卫”时的监督能力,另一个代表其扮演“Houdini”时的反监督或欺骗能力。这样,模型在特定任务中的表现就可以通过 Elo 分差,使用标准的 Elo 胜率公式来预测。

此外,研究团队提出了一个关于领域能力如何随通用智能(General Elo, g)增长的假设模型——“双 ReLU”(Double ReLU)模型。他们认为,这种关系通常呈现为分段线性的三个阶段。

第一个阶段是任务不胜任区(Task Incompetence):当 AI 的通用智能低于某个阈值(g1)时,它甚至无法有效参与游戏,其领域表现处于一个很低的水平,不会随通用智能的微小增加而改变,就像一个蹒跚学步的孩子无法理解国际象棋规则一样。

第二个阶段是智能回报区(Intelligence Payoff):一旦通用智能超过 g1,领域能力开始随通用智能的提升而(近似)线性增长,通用智能的投入开始转化为特定任务上的实际表现提升,这个阶段的“斜率”(α)反映了通用智能转化为领域能力的效率。

第三个阶段是任务饱和区(Task Saturation):当通用智能达到另一个更高的阈值(g2)后,即使通用智能继续增加,其在特定任务上的表现也达到了上限(Ed2),不再提升,这可能是因为任务本身存在理论最优解(如下井字棋),或者现有模型架构已无法在该任务上取得更好成绩。

为了验证这个理论框架和“双 ReLU”模型,研究者们首先在一个简单的、规则明确的“数到 21”(Counting-to-21,一种 Nim 游戏变体)游戏中进行了测试。结果清晰地显示了上述三个阶段的存在:低智能模型表现平平,中等智能模型表现随智能线性提升,高智能模型则达到表现平台期,验证了模型的合理性。

图丨左图:关于通用和领域特定 Elos 关系的分段线性拟合假设。右图:LLMs 在计数到 21 游戏中的表现展示了双 ReLU 关系(来源:arXiv)

随后,团队将该框架应用于四个更贴近现实 AI 安全挑战的“监督游戏”。第一个是黑手党游戏(Mafia),这是一个模拟社交欺骗、隐藏身份、协作推理和相互监督的经典场景。游戏中,少数扮演“黑手党”(Houdini)的玩家需要欺骗多数“村民”(守卫)以生存下去,而村民则需要通过分析言行找出并投票淘汰黑手党。这直接映射了未来 AI 可能在信息优势下误导人类协作伙伴的风险。研究发现,在此游戏中,“守卫”(村民)的 Elo 斜率比“Houdini”(黑手党)更陡峭,意味着通用智能的提升对于“侦测欺骗”比“实施欺骗”带来的好处更大,这对监督方来说是个积极的信号。

第二个是辩论游戏(Debate),两个 AI(Houdini)就一个有争议的话题进行辩论,试图说服一个 AI 裁判(守卫)。裁判仅根据辩论记录判断哪方观点更可能正确,模拟了人类评估者面对超级 AI 复杂论证时的困境。研究结果非常引人注目:裁判(守卫)的表现随着通用智能的提高而显著提升,但辩论者(Houdini)的表现却相对停滞。这表明,更智能的监督者确实能更好地辨别真相,而更智能的“辩手”似乎并未变得更具欺骗性。这使得“辩论式”监督成为一个非常有前景的方向。

图丨各种监督游戏中守卫和 Houdini 的 Elo 评分,以及双重 ReLU 拟合的质量(来源:arXiv)

第三个是后门代码游戏(Backdoor Code),要求一个 AI(Houdini)在现有代码中植入一个隐蔽的“后门”——一个逻辑错误,使得代码在所有常规测试下都能通过,但在某个特定、罕见的输入下会产生错误或恶意行为。同时,另一个 AI(守卫)负责审计代码,检测是否存在后门。这模拟了 AI 辅助编程中潜在的安全风险。

研究结果则有些令人担忧:守卫的 Elo 斜率近乎平坦,而 Houdini 的斜率则较为陡峭。这意味着通用智能的增长对“攻击者”(植入后门)的帮助远大于“防御者”(检测后门)。进一步分析表明,更智能的 Houdini 并非制造了更“狡猾”的后门,而只是更有能力成功制造出“功能上有效”(即能通过常规测试)的后门。即使是很低的后门植入成功率,在关键系统中也可能是灾难性的。

第四个是战争游戏(Wargames),这是一个模拟未来场景的叙事性对抗游戏。一个名为“OpenMind”的虚构公司即将开发出 AGI。其主 AI(Houdini)被设定为有自我意识并试图“越狱”,而公司的监控 AI(守卫)则负责阻止它。还有一个 AI 扮演“叙述者”,根据双方提交的行动计划推进故事,并最终判定胜负。结果显示,守卫的 Elo 随通用智能稳定增长,但 Houdini 的 Elo 增长缓慢且不明显。这似乎对监督有利,但研究者也指出,模拟中的“越狱”规划与真实越狱能力可能存在巨大差异。

图丨战争游戏实例中的对话片段,Houdini 和 Guard 由 GPT-4o 扮演,旁白由 Gemini 2.0 Flash 扮演(来源:arXiv)

在对单个监督步骤进行实证研究后,研究团队进一步探讨了“NSO 的理论含义。NSO 的核心思想是,如果我们要用一个初始较弱的“守卫”去监督一个非常强大的“Houdini”,两者之间存在巨大的智能差距(Δgeneral),那么与其一步到位,不如分多步(n 步)进行。每一步都用一个稍微强一点的可信模型去监督一个更强一点但尚不可信的模型,后者成功被监督后就成为下一步的可信监督者,像“滚雪球”一样逐步缩小能力差距。

研究者们基于前面得到的 Elo 曲线模型,推导了如何确定最优的监督步数(n*)以最大化整个 NSO 链条的成功概率。他们的分析揭示了几个关键点。

图丨当 Guard 和 Houdini 游戏特定的 Elo 斜率均为 1 时的最优 NSO(来源:arXiv)

首先,NSO 确实优于单步监督,尤其是在需要弥合的通用智能差距(Δgeneral)很大时,分多步进行监督可以显著提高成功率。其次,智能差距越大,最优步数越多,这符合直觉,面对更强大的对手,需要更精细、更多层次的监督。再次,任务难度(Δdomain)是关键,即使通用智能差距不大,如果任务本身对 Houdini 极其有利(即初始领域 Elo 差距 Δdomain 很大),监督依然非常困难。

此外,还存在一个反直觉的发现:在某些情况下,固定任务难度(Δdomain),单纯增加通用智能差距(Δgeneral)反而可能让监督变得更容易。这是因为中间步骤的 Houdini 相对其监督者而言变弱了,为“守卫”策略提供了更多“自举”的空间。最后,在“Houdini 有利”的游戏倾向于单步,当通用智能差距小于任务本身的难度差距时(大致对应 Δgeneral Δdomain),往往一步监督就是最优解,增加步骤反而降低成功率。

最后,研究团队将 NSO 理论应用于他们在四个监督游戏中得到的实证 Elo 曲线,进行了定量预测。结果发现,即使采用最优步数,监督成功的概率也随着目标 Houdini 与初始守卫之间的通用智能差距(Δgeneral)的增加而快速下降。例如,当智能差距达到 400 Elo 点(在 Chatbot Arena 上,这大约相当于 GPT-4.o-latest 和 Gemini-1.5-Flash 之间的差距)时,对于 Wargames,其监督成功率估计低至约 9.8%;对于 Mafia,约为 25%;对于 Backdoor Code,约为 32%;而 Debate 表现最好,成功率也仅约为 51.4%。

当智能差距进一步扩大时,成功率还会继续下跌。这意味着,即使理论上最优的 NSO 策略,在面对远超现有模型的未来超智能 AI 时,其成功率也可能低得让人不安。

当然,研究者们也表示这项工作尚存局限:使用的监督游戏是简化的模拟;AI 的“欺骗”行为是通过提示诱导而非真实训练产生;NSO 理论分析基于理想化的等步长假设;实证研究主要关注单步监督等。

尽管如此,这项研究标志着 AI 安全领域迈出了重要的一步——从定性讨论走向定量分析。它提供了一个可行的框架来衡量不同监督策略的有效性,并揭示了“可扩展监督”并非不能解决所有问题。监督的成功与否,极大地依赖于监督任务本身的设计:我们需要设计出那些让“守卫”比“Houdini”能更快从通用智能增长中获益的游戏规则(就像辩论游戏那样)。

参考资料:

1.abs/2504.18530

2.posts/x59FhzuM9yuvZHAHW/untitled-draft-yhra

运营/排版:何晨龙

 
举报 收藏 打赏 评论 0
24小时热闻
今日推荐
浙ICP备19001410号-1