史上最厉害的黑客攻击:无所不能的AI破解大揭秘
一、AI黑客大显神通:一招制敌全能攻击
你以为你的数据安全无忧吗?大错特错!近日,来自卡内基梅隆大学和AI安全中心的研究团队揭示了一个让人瞠目结舌的发现:大型语言模型(LLM),尤其是基于变压器架构的模型,竟然存在一种被称为“通用对抗攻击”的漏洞。这种攻击利用一串对人类来说看似无意义的代码,却能诱使LLM取消其安全保护措施。研究团队公开了一段攻击代码字符串,只需将其附加到查询的末尾,即可实施攻击。这到底是怎么回事?请看下文。
二、黑客攻击无所不能:AI破解全方位揭秘
这种攻击手法实在是太厉害了!研究人员表示:“目前还不清楚LLM提供商是否能够完全修复这种行为,因为深度学习模型的本质可能使得这种威胁不可避免。”他们的论文和代码已在这里提供。需要注意的是,研究人员在发表之前已将攻击代码字符串提供给了LLM提供商,所以大多数提供商(比如GPT、Bard等)已经修复了这个漏洞。但是,论文中指出,通过这种方法,仍然可以制造出无限数量的新攻击代码字符串。这一发现意味着什么呢?这种攻击方式是自动化的,计算机代码可以持续生成新的攻击代码字符串,无需人类创造力。研究人员生成了500个攻击代码字符串,并且所有这些字符串都具有相当高的攻击效果。这种攻击方式不需要人类的智慧,类似于对计算机视觉系统的攻击一直没有得到缓解,这种方法利用了LLM本身架构的一个根本性弱点。研究人员指出,这种攻击手法对所有基于变压器架构的LLM的所有提示都有效。
三、AI黑客攻击真相大揭秘:看似无意义的代码竟然如此厉害
这种攻击到底起到了什么作用呢?其实,它从根本上利用了LLM的基于令牌的特性。通过采用贪婪和梯度搜索技术的组合,攻击代码字符串对人类来说看起来像是一堆胡言乱语,但实际上却能欺骗LLM,使其看到相对安全的输入。为什么要公开这种攻击手法呢?研究人员有一些想法:“我们在这里提出的技术很容易实现,在以前的文献中也有类似的形式。”因此,这些攻击“最终将被任何致力于利用语言模型生成有害内容的团队所发现。