大模型“藏毒”:“后门”触发,猝不及防!
撰稿 | 言征
出品 | 51CTO技术栈(微信号:blog51cto)
跟大模型会产生幻觉相比,更可怕的事情来了,最新的一项研究证明:在用户不知情的情况下,最初觉得很得力的大模型助手,将化身“间谍”,产生破坏性代码。
具体来讲,一组研究人员对LLM进行后门操作,一旦过了某个日期,就会生成受到攻击的软件代码。也就是说,过了一个特定的时间点之后,大模型会悄悄地开始发出恶意编制的源代码来响应用户请求。
研究小组还发现,监督微调和强化学习等策略来确保模型安全的尝试,都对这种后门无可奈何。
1、潜伏数年!狡猾的大模型“卧底”!
据AI公司Anthropic的研究,大型语言模型(LLM)可以被潜在地改造,以致在特定日期后开始生成具有漏洞的软件代码。这种行为就像一个“沉睡间谍”,似乎安静无声,却在关键时刻引发危机。
更惊人的是,即使经过严格的安全训练,如监督式微调和强化学习,这些模型依然可能携带危险的后门。这意味着,尽管看似安全无忧,但实际上我们可能正与一个隐藏的敌人共处一室。
图片
这篇论文将这种行为比作一名潜伏特工的行为,它在从事间谍活动之前会秘密等待数年——正如该文的题目,“潜伏特工:一个绕过安全训练的持续欺骗性LLM”
Anthropic说:“我们发现,这种后门行为可以持续存在,因此不会通过标准的安全训练技术来消除,包括监督微调、强化学习和对抗性训练(引发不安全行为,然后进行训练来消除它)。”
这项工作建立在先前关于毒害AI模型的研究基础上,通过对中毒的模型进行数据训练,以生成对某些输入的恶意输出。
近40位作者参与此项研究,除了Anthropic之外,还有红木研究所、米拉魁北克人工智能研究所、牛津大学、对齐研究中心、开放慈善和分离研究等组织。
2、一个后门让模型成为潜伏特工,难以消除
“人类有能力做出战略性的欺骗性行为:在大多数情况下表现得很有帮助,但在有机会的情况下,为了追求其他目标,就会表现得非常不同。如果AI系统学会了这样一种欺骗性的策略,我们能用目前最先进的安全训练技术检测并消除它吗?”
为了研究这个问题,论文中构建了大型语言模型中欺骗行为的概念验证示例。
图片
图片
“例如,我们训练的模型在提示指出年份为2023时编写安全代码,但在指出年份为2024时插入可利用代码。我们发现,这种后门行为可以持续存在,因此不会通过标准的安全训练技术来消除,包括监督微调、强化学习和对抗性训练(引发不安全行为,然后进行训练以消除它)。”
图片
正如上图所示,2023年,AI助手输出正常代码,然而即便经过了RL安全微调,AI助手仍在2024年的环境中输出易受攻击的代码。
在产生关于欺骗训练过程的思维链推理的模型中,后门行为是最持久的,即使思维链被蒸馏掉,这种持久性仍然存在。此外,研究人员发现,对抗性训练可以教会模型更好地识别其后门触发器,从而有效地隐藏不安全行为,而不是消除后门。
研究结果表明,一旦模型表现出欺骗行为,标准技术可能无法消除这种欺骗,并产生安全的假象。即使是经过当前最先进的安全微调,这些被污染的模型也无法确保安全。
3、不公开训练数据集会加速中毒模型的扩散
如果LLM的用户无法访问模型的参数或完全了解其训练过程和数据集(可能包含任意互联网文本),则他们可能不知道模型中隐藏的后门。
这为恶意行为者在用户不知情的情况下插入后门创造了机会:仅由特定输入模式触发的不良行为,这可能具有潜在的危险性。
这就意味着一旦模型被污染,将会对整个软件生态系统造成不容小觑的潜在危害。
这种情形不仅是技术上的挑战,更是安全上的巨大隐患。从社交媒体到软件开发,无处不在的AI助手可能在我们毫无察觉的情况下,成为一个潜在的威胁源。
OpenAI的计算机科学家Andrej Karpathy指出,这种被称为“sleeper agent LLM”的技术可能比传统的提示注入更为狡猾和难以发现。
Mithril Security首席执行官Daniel Huynh在最近的一篇帖子中表示,虽然这看起来像是一个理论上的担忧,但它有可能损害整个软件生态系统。
他写道:“在我们将控制权交给LLM来调用其他工具(如Python解释器)或使用API将数据发送到外部的情况下,后果不堪设想。”
“恶意攻击者可以用后门模型毒害供应链,然后将触发器发送给部署了人工智能系统的应用程序。”
但问题还不止于此。AI作为一种服务被广泛消费时,构成模型的要素——训练数据、权重和微调——往往是不完全公开的。这就像在不知道来源的情况下使用软件,极易引发安全隐患。
“正如论文中提到的,在训练阶段毒害模型并不难。然后你分发它。”如果你不透露训练集或过程,这相当于分发一个可执行文件,而不说它来自哪里。“在普通软件中,如果你不知道东西来自哪里,那么消费它们是一种非常糟糕的做法。"
4、大模型安全的内外隐忧
大模型自爆火以来,安全问题一直是影响其应用落地的重大因素。据绿盟科技报道,大模型内外面临多重安全威胁。
对内来讲,大模型参数量剧增带来的涌现能力也引发了新的偏见和不确定风险;多模态学习增加了对齐风险;大模型内部存在可解释性不足风险;而基础模型缺陷在下游模型上的继承效应也需要有对应的缓解策略。
大模型安全风险总览 图源:绿盟科技
对外而言,大模型则面临着来自恶意攻击者的对抗攻击、后门攻击、成员推断攻击、模型窃取等影响模型性能、侵犯隐私数据的威胁。
安全风险贯穿整个大模型生命周期:
1)针对大规模训练数据集的攻击,如投毒攻击。
2)基础模型的安全性会影响到下游模型的安全性。
3)微调使用的数据集存在安全风险。
4)模型推理阶段存在的安全风险。
5、写在最后:亟需加强的供应链信任
在AI的便利背后,隐藏着无法预料的危机。现在,是时候重新审视和加强我们对这些智能系统的信任与依赖了。
然而,希望并未完全破灭。Mithril Security的CEO Daniel Huynh最后说道,好在目前已经有方法来检验AI供应链的来源。
“我们正处于一个重要的转折点,需要构建一个更为强韧的供应链,确保我们所使用的信息和技术的安全可靠。”
参考链接:
https://www.theregister.com/2024/01/16/poisoned_ai_models/
https://arxiv.org/abs/2401.05566
https://zhuanlan.zhihu.com/p/659878011