摘要: 人造神经网络中发生的事情在很大程度上是一个谜,即使是他们的创作者。但是,来自人类的研究人员瞥见了。
AI研究员Chris Olah的探索
AI研究员Chris Olah在过去十年一直专注于人工神经网络。他关注的一个问题是:“这些系统内部到底发生了什么?”他认为我们使用这些系统却不了解其内部运作方式是很荒谬的。
随着生成式AI的普及,这个问题变得尤为重要。像CHAT GPT、Gemini和Anthropic自己的Claude这样的大型语言模型展现了其语言能力,但也因其编造信息的倾向而引起了争议。这些模型潜力巨大,但我们对它们仍知之甚少。即使是构建这些模型的人也不完全了解其工作原理,需要大量工作来确保它们不会产生偏见、错误信息甚至致命化学武器的设计图。如果构建模型的人了解这些“黑匣子”内部发生的事情,将更容易使其更安全。
Olah认为我们正在朝着这个方向前进。他领导着Anthropic团队,已经深入研究了这个黑匣子。他们试图逆向工程大型语言模型,以了解其为何产生特定输出,并根据今天发布的一篇论文,他们取得了重大进展。
类似于神经科学研究利用MRI扫描来识别人类大脑是否在思考飞机、泰迪熊或钟楼,Anthropic深入研究了其LLM模型Claude的神经网络,并确定了哪些人工神经元的组合引发了特定概念或“特征”。这项工作对AI安全具有巨大的意义:如果能够找出LLM内部潜在的危险,那么就更有能力阻止它。
Anthropic的研究人员将人工神经元视为西方字母,单独没有意义,但可以串联在一起产生含义。他们的方法涉及一种称为字典学习的技术,允许您将一组神经元关联起来,当它们同时激活时,引发一个特定概念,称为特征。
Anthropic的研究科学家Josh Batson表示:“我们大约有1700万个不同的概念[在LLM中],它们并没有被标记出来以供我们理解。所以我们只能去查看,这种模式何时出现?”