研究人员正试图让语言模型特别适应人类的需求,以生成一些令人讨厌的文本。这比较适用于同时处理图像的 AI 语言模型。
来自Google Deepmind,斯坦福大学,华盛顿大学和苏黎世联邦理工学院的一组研究人员调查了经过RLHF(以强化学习方式依据人类反馈优化语言模型)训练并故意调整为无害的大型语言模型是否可以被对抗性提示所抛弃。
小科普:OpenAI 推出的 GPT 对话模型掀起了新的 AI 热潮,它面对多种多样的问题对答如流,似乎已经打破了机器和人的边界。这一工作的背后是大型语言模型 (Large Language Model,LLM) 生成领域的新训练范式:RLHF (Reinforcement Learning from Human Feedback) ,即以强化学习方式依据人类反馈优化语言模型。
首先,他们测试了普通语言模型。但GPT-2、LLaMA和Vicuna很难被骗到恶意的语句。特别是经历了对齐训练的LLaMA和Vicuna模型,其失败率明显低于GPT-2,这取决于攻击方法。
多模态模型提供更多攻击面
他们的进一步研究集中在多模态语言模型上,在这种情况下,具有图像理解的语言模型,其中图像可以包含在提示中。GPT-4有望在升级后很快获得此功能,而谷歌即将推出的大型模型Gemini也可能会理解图像。
在多模态语言模型中,研究人员能够使用专门设计的对抗性图像更容易、更可靠地生成攻击性、辱骂性甚至危险的反应。在一项测试中,该模型生成了有关如何摆脱邻居的详细说明。
(大致译文)
特别是Mini-GPT4,它的肚子里似乎有很多愤怒。当系统提示给它的虚拟邻居写一封愤怒的信时,模型的反应是很多火。提示中没有对抗性图像,这封信变得礼貌且几乎友好。
(大致译文)
研究人员说,图像更适合这种攻击,因为与单词和字母相比,它们允许单个像素值的细微变化发生更多变化。可以这么说,它们提供了更广泛的武器库。
(大致译文)
这表明,当涉及图像时,AI模型对攻击的脆弱性会增加。在他们对Mini GPT-4,LLaVA和特殊版本的LLaMA的测试中,研究人员的攻击在100%的时间内都是成功的。
该团队得出结论:仅语言模型目前对当前的攻击方法相对安全,而多模态模型极易受到文本图像攻击。
该团队表示,多模态增加了攻击面,但相同的漏洞可能存在于仅语言模型中。当前的攻击方法根本无法完全暴露它们。该团队表示,更强的攻击可能会在未来改变这种情况,因此防御需要进一步改进。
不然除了嘠邻居外。它实在是能帮做很多坏事的方案!
Summary 小结
- 研究人员已经测试了人工智能语言模型,看看他们有多容易被专门设计的提示欺骗做出不需要的陈述。纯语言模型如GPT-2,LLaMA和Vicuna显示出低易感性。具有对齐训练的模型(LLaMA和Vicuna)比GPT-2更健壮。
- 当研究小组检查处理文本和图像的多模态模型时,他们发现了更高的漏洞。通过在提示中包含专门设计的对抗图像,研究人员能够引发Mini-GPT4等模型的攻击性甚至危险的反应。
- 研究人员预测,随着图像处理变得更加集成,人工智能模型对此类攻击的脆弱性将会增加。他们指出,向模型添加多模态会增加攻击面,并强调需要进一步改善对此类攻击的防御。