大型语言模型的能力突破

热门头条1年前 (2024)发布残剑@葫芦娃AI

6K 0 0

摘要: 一项新的研究表明，LLMS的突然跳跃既不令人惊讶，也不是不可预测的，而是我们如何衡量AI能力的结果。

大型语言模型的能力突破

两年前，450名研究人员在一个名为BIG-bench的项目中编制了204项任务列表，旨在测试大型语言模型（LLM）的能力，这些模型驱动着像CHAT GPT这样的聊天机器人。在大多数任务中，随着模型规模的扩大，性能可预测地平稳提升——模型越大，表现就越好。但在其他任务中，能力的提升并不平稳。性能在一段时间内保持接近零，然后突然提升。其他研究也发现了类似的能力飞跃。

研究人员将这种现象描述为“突破”行为；其他研究人员将其比作物理学中的相变，就像液态水变成冰那样。2022年8月发表的一篇论文指出，这些行为不仅令人惊讶，而且难以预测，应该对围绕人工智能（AI）的讨论产生影响。他们将这些能力称为“ emergent”，这个词描述了系统达到一定复杂程度后才会出现的集体行为。

然而，事情可能并不那么简单。斯坦福大学的三名研究人员在一篇新论文中提出，这些能力突然出现只是研究人员衡量LLM性能方式的结果。他们认为，这些能力既不是难以预测的，也不是突然出现的。斯坦福大学计算机科学家Sanmi Koyejo表示：“这种转变比人们想象的更具预测性。”

我们之所以现在才看到并研究这种行为，是因为这些模型变得如此庞大。大型语言模型通过分析海量文本数据集进行训练，这些文本来自包括书籍、网络搜索和维基百科在内的在线来源，并找出经常一起出现的单词之间的联系。模型的规模以参数来衡量，大致相当于单词之间可以连接的方式。GPT-2有15亿个参数，而驱动CHAT GPT的GPT-3.5使用了3500亿个参数。2023年3月推出的GPT-4，现在支持Microsoft Copilot，据称使用了17500亿个参数。

这种快速增长带来了性能和效果的惊人提升，没有人否认足够大的LLM可以完成较小模型无法完成的任务，包括它们未经训练的任务。将“emergence”视为“幻觉”的斯坦福三人组承认，随着规模的扩大，LLM变得更加有效；事实上，更大模型的增加复杂性应该使其能够更好地解决更困难和多样化的问题。但他们认为，这种改进看起来是平稳和可预测的，还是崎岖和突然的，取决于度量标准的选择——甚至可能是测试示例的匮乏——而不是模型的内在运作方式。