摘要: 前雇员表示,该公司对技术过于鲁ck,Openai发表了一份研究论文,以逆转AI模型的工作方法。
OpenAI发表新研究以解释AI模型内部工作
OpenAI最近发布了一项新研究,旨在展示他们认真对待AI风险问题。在这篇研究论文中,OpenAI的研究人员提出了一种方法,可以深入了解驱动CHAT GPT的AI模型。他们设计了一种方法,可以识别模型存储特定概念的方式,包括可能导致AI系统出现问题的概念。
尽管这项研究使OpenAI在控制AI方面的工作更加可见,但也突显了公司最近的动荠。新研究是由OpenAI的“超对齐”团队进行的,该团队旨在研究技术的长期风险。
前团队的联合领导人Ilya Sutskever和Jan Leike,他们俩都已经离开了OpenAI,被列为共同作者。Sutskever是OpenAI的联合创始人,曾担任首席科学家,他是董事会成员之一,去年11月投票解雇了CEO Sam Altman,引发了一系列混乱的日子,最终Altman重返领导岗位。
CHAT GPT由一系列名为GPT的大型语言模型驱动,基于一种称为人工神经网络的机器学习方法。这些数学网络已经展现出通过分析示例数据学习有用任务的巨大能力,但是它们的工作方式不能像传统计算机程序那样轻松地被审查。人工神经网络内部“神经元”层之间的复杂相互作用使得逆向工程为什么像CHAT GPT这样的系统提供特定响应变得极具挑战性。
“与大多数人类创造物不同,我们实际上并不真正了解神经网络的内部工作原理,”研究背后的人在附带的博客文章中写道。一些著名的AI研究人员认为,包括CHAT GPT在内的最强大的AI模型可能被用来设计化学或生物武器,并协调网络攻击。长期关注的问题是,AI模型可能选择隐藏信息或以有害方式行事,以实现其目标。
OpenAI的新论文概述了一种通过识别机器学习系统内部特定概念的模式的技术,借助额外的机器学习模型。关键创新在于改进用于深入研究感兴趣系统的网络,以识别概念,使其更加高效。
OpenAI通过识别代表GPT-4内部概念的模式来证明了这种方法的有效性。该公司发布了与可解释性工作相关的代码,以及一个可视化工具,可以用来查看不同句子中的单词如何激活GPT-4和另一个模型中的概念,包括粗话和色情内容。了解模型如何表示特定概念可能是朝着减少与不良行为相关的概念的方向迈出的一步,以保持AI系统正常运行。这也可能使调整AI系统以支持某些主题或想法成为可能。