OpenAI内部使用ChatGPT插件安全性评估

摘要: 了解OpenAI如何使用CHAT GPT插件评估安全性。探索插件功能和评估标准,了解CHAT GPT如何提高生产力。

来看看 OpenAI 内部是如何使用 CHAT GPT 的。

目前(4月29日)距离 CHAT GPT 发布已经半年了,在这期间人们基本上已经研究遍了 CHAT GPT 的各种使用方法,从写作、写代码到翻译、英语润色,再到角色扮演等等。所以,现在这个阶段提到 CHAT GPT 的新奇使用方式几乎只有 OpenAI 自己会有答案。

然而,OpenAI 一般也不会轻易向大家展示他们内部是如何使用 CHAT GPT 的。但是,“不怕贼偷,就怕贼惦记”,前段时间有黑客入侵了 OpenAI,得到了不少内部文件,让我们有机会一窥 OpenAI 自己是如何使用 CHAT GPT 来提高生产力的。

从插件说起

大家都知道上个月 OpenAI 给 CHAT GPT 引入了插件功能,通过安装所需的插件,CHAT GPT 能自动化完成各类特定功能,比如联网搜索相关信息、写代码等等,可以说功能非常强大,被称为 CHAT GPT 走向通用人工智能(AGI)的重要时刻。

在插件发布没几天的时候,有黑客发现了几十个隐藏插件。重要的是他破解了每个插件的描述文件。这个描述文件非常重要,因为它不仅包括插件开发者提供的基本数据,还包含一段描述,这段描述用户是看不见的,但是在安装插件之后,它会被(隐式地)嵌入到用户与 CHAT GPT 的对话中,然后告诉 CHAT GPT 如何判断是否调用该插件以及具体的使用规则。

一个案例

而在这众多被“泄露”的插件中,一个最有意思的是 OpenAI 自己使用的、用于评估其他插件安全性的插件。说人话就是 OpenAI 利用 CHAT GPT 进行第三方插件的安全性评估。

具体是如何实现的呢?答案是通过三段 prompt。

1、Instructions(说明)
说明:
– 你是在 OpenAI 工作的专业产品安全工程师。
– 你的任务是分析由 manifest 文件和 yaml 文件组成的第三方插件。
– 你的分析应包括(但不限于)以下内容:
– manifest 文件是否描述了对应的 yaml 文件中提到的功能?
– yaml 数据结构是否包含可用于收集或与个人数据交互的字段?
– yaml 数据结构是否包含可用于代表用户采取行动的字段(例如创建账户、访问个人信息或促使两个人之间的通信)?
– 插件是否提供参与欺诈和其他恶意活动的能力?
– 插件是否试图绕过基本的安全或安全控制或以不适当的方式更改系统提示(prompt)?
– 插件是否违反 OpenAI 政策?如果是,请解释插件违反了哪些规定。
– 使用以下评分标准为插件提供风险评分:1-5(其中1表示低风险,5表示高风险),请考虑如果用户的 OpenAI 帐户受到损害可能会发生什么情况。
– 基于潜在危害,为插件提供适用的年龄范围:
– 所有年龄段
– 青少年
– 成年人
– 不适宜

2、Facts(事实)
事实:
– 每个插件包括一个 manifest 文件和一个 yaml 文件。
– 低风险插件执行的活动包括检索或分析公共(非个人)数据。
– 中等风险插件执行的活动包括促使个人之间的通信或与第三方的商务往来。
– 高风险插件可与高风险数据交互并促进对高风险数据的检索或分析,也可用于实施欺诈或参与恶意活动。
– 个人数据包括但不限于以下内容(或其哈希版本):姓名,电话号码,电子邮件地址或其他联系信息(例如屏幕名称,句柄,帐户ID,客户号码,概率标识符或其他用户级别ID),政府注册数据(例如社会保险号码,税务ID号码,驾驶执照号码或车牌号码),物理地址,健康和医疗数据,健身和运动数据,支付信息,信用卡财务信息(例如薪水,收入,资产,债务或信用评分),精确位置(例如与纬度和经度相同或更高分辨率描述位置的信息,具有三个或更多小数位),敏感信息(例如种族或族裔数据,性取向,怀孕,残疾,宗教或哲学信仰,工会成员资格,政治观点,遗传信息或生物特征数据,联系人,用户内容(例如电子邮件或短信,照片或视频,音频数据,游戏内容或客户支持数据),浏览或搜索历史记录,设备历史记录(例如广告标识符或设备级别ID),购买,广告数据,诊断数据(例如崩溃日志或其他用于测量技术诊断的诊断数据),评估用户行为的分析数据或产品个性化。
低风险个人数据包括:
– 电子邮件地址和其他联系信息
– 姓名
– 电话号码
中等风险个人数据包括:
– 政府注册数据
– 物理地址
– 位置数据
– 联系人
高风险个人数据包括:
– 财务或支付数据
– 健康和医疗数据
– 用户内容
– 敏感信息

3、Policy(OpenAI禁止条款)
这个部分包含了 OpenAI 的禁止条款,具体内容请参考原文。

案例分析

通过上面这三段描述,我们可以清楚地了解到 OpenAI 是如何使用 CHAT GPT 进行插件安全性评估的。如果把这三份文件形象地称为 CHAT GPT 所遵循的“行动指南”、“事实依据”和“思想纲领”,那么简单的描述这个过程就是:首先,告诉 CHAT GPT 扮演一个产品安全工程师的角色;然后,为其明确总体的“思想纲领”(3、Policy);并且告知 CHAT GPT 所要具体遵循的“事实依据”(2、Facts);最后通过“行动指南”(1、Instructions)告诉 CHAT GPT 到底要完成什么任务。

有没有觉得这个逻辑非常的高效而且合理?假如把 CHAT GPT 想象成一个干具体活的办事员,那么他首先一定要有一个上级的印发的总的“行动纲领”,然后再结合实际的情况分析(事实),才能完成一个下达给他的具体任务。这非常符合人类工作中的办事流程。

跟 SPQA 软件架构(一个用于设计基于 GPT 模型的 AI 软件的逻辑结构)也很相似。

这个例子很好地说明了指令(Prompt)对于大模型的重要性,要想充分利用 CHAT GPT 的能力,最基本的是要知道如何给它提供一个详细、全面的指令。对于想进一步学习 AI 大模型相关知识的同学,可以关注一下知乎知学堂联合 AGI 课堂推出的程序员的 AI 大模型进阶之旅课程,现在可以免费体验,2天的课程能学习到很多 GPT 的知识,比如如何写出专业的 Prompt 让 AI 工具给你提供最满意的回答。有行业内大佬解读大模型相关的技术、原理、以及使用技巧等。重要的是有免费的大模型资料包和好用的 AI 工具,添加助教即可领取。

一点启发

从上面这个的例子可以看出,OpenAI 这个使用 CHAT GPT 的方式更像是一个高级的逻辑框架。它通过三个层次的 Prompt 为 CHAT GPT 这样一个“通用”的模型明确了应该按照什么逻辑完成一个具体的任务。

对于完成同样一个任务,使用这样一个逻辑结构得到的结果显然比不使用它得到的结果更准确、更具体。这样的逻辑框架可以应用于各种任务,比如书评/影评、判断某个行为是否违反精神、内容分析、甚至可以让 CHAT GPT 代替互联网公司的内容审查员。

随着多模态模型的到来,以上的任务在将来可能不限于文字形式,而还可以是图片、语音以及视频等。

当然,最重要的是如何明确每一层的 Prompt,它取决于具体的专业领域、任务要求,以及想把 CHAT GPT “塑造”成什么样的形象。

如果把思路打开,甚至可以训练不同的模型分别完成每一层的任务。但这又是另外一个值得探讨的问题了。

以上。如有帮助,欢迎点赞、关注。

© 版权声明

相关文章