AI研究员Chris Olah的探索

4.7K 0 0

摘要: 人造神经网络中发生的事情在很大程度上是一个谜，即使是他们的创作者。但是，来自人类的研究人员瞥见了。

AI研究员Chris Olah的探索

AI研究员Chris Olah在过去十年一直专注于人工神经网络。他关注的一个问题是：“这些系统内部到底发生了什么？”他认为我们使用这些系统却不了解其内部运作方式是很荒谬的。

随着生成式AI的普及，这个问题变得尤为重要。像CHAT GPT、Gemini和Anthropic自己的Claude这样的大型语言模型展现了其语言能力，但也因其编造信息的倾向而引起了争议。这些模型潜力巨大，但我们对它们仍知之甚少。即使是构建这些模型的人也不完全了解其工作原理，需要大量工作来确保它们不会产生偏见、错误信息甚至致命化学武器的设计图。如果构建模型的人了解这些“黑匣子”内部发生的事情，将更容易使其更安全。

Olah认为我们正在朝着这个方向前进。他领导着Anthropic团队，已经深入研究了这个黑匣子。他们试图逆向工程大型语言模型，以了解其为何产生特定输出，并根据今天发布的一篇论文，他们取得了重大进展。

类似于神经科学研究利用MRI扫描来识别人类大脑是否在思考飞机、泰迪熊或钟楼，Anthropic深入研究了其LLM模型Claude的神经网络，并确定了哪些人工神经元的组合引发了特定概念或“特征”。这项工作对AI安全具有巨大的意义：如果能够找出LLM内部潜在的危险，那么就更有能力阻止它。

Anthropic的研究人员将人工神经元视为西方字母，单独没有意义，但可以串联在一起产生含义。他们的方法涉及一种称为字典学习的技术，允许您将一组神经元关联起来，当它们同时激活时，引发一个特定概念，称为特征。

Anthropic的研究科学家Josh Batson表示：“我们大约有1700万个不同的概念[在LLM中]，它们并没有被标记出来以供我们理解。所以我们只能去查看，这种模式何时出现？”