AI2发布了更加“开放”的GenAI语言模型

热门头条1年前 (2024)发布残剑@葫芦娃AI

6.2K 0 0

摘要: AI研究所AI2已在开源中发布了几种文本生成模型，以及用于培训它们的数据。

由已故微软联合创始人保罗·艾伦创办的非营利性AI研究机构AI2（Allen Institute for AI）发布了几个更加“开放”的GenAI语言模型，而且重要的是，这些模型的许可方式使开发者可以自由地用于训练、实验甚至商业化。

这些名为OLMo（Open Language Models）的模型及其用于训练它们的数据集Dolma是为了研究文本生成AI背后的高级科学而设计的，AI2的高级软件工程师Dirk Groeneveld说。

“在涉及到[文本生成模型]时，“开放”是一个多义词，”Groeneveld在电子邮件采访中告诉TechCrunch，“我们希望研究人员和从业者能够抓住OLMo框架的机会，分析一个基于迄今为止最大的公共数据集之一训练的模型，以及构建模型所需的所有组件。”

开源的文本生成模型越来越多，从Meta到Mistral，各个组织都发布了高度可用的模型供开发者使用和调整。但是Groeneveld认为，许多这些模型不能真正被视为开放，因为它们是在“闭门造车”的情况下训练的，并且使用了专有的、不透明的数据集。

相比之下，OLMo模型是与哈佛大学、AMD和Databricks等合作伙伴的帮助下创建的，它们提供了用于生成训练数据的代码、训练和评估指标以及日志。

在性能方面，最强大的OLMo模型OLMo 7B是Meta的Llama 2的一个“引人注目且强大”的替代品，Groeneveld说，这取决于应用场景。在某些基准测试中，特别是涉及阅读理解的测试中，OLMo 7B超过了Llama 2。但在其他测试中，特别是问答测试中，OLMo 7B稍逊一筹。

OLMo模型还有其他限制，比如在非英语语言（Dolma主要包含英语内容）中输出质量较低，以及代码生成能力较弱。但Groeneveld强调，现在还处于早期阶段。

“OLMo目前还没有设计成多语言模型，”他说，“虽然在这个阶段，OLMo框架的主要关注点不是代码生成，但为了给未来的基于代码的微调项目一个起点，OLMo的数据混合目前包含大约15%的代码。”

我问Groeneveld是否担心OLMo模型可能被恶意使用，因为它们可以在像Nvidia 3090这样的消费级GPU上运行。Democracy Reporting International的Disinfo Radar项目最近进行的一项研究发现，两个受欢迎的开放文本生成模型Hugging Face的Zephyr和Databricks的Dolly可靠地生成有害内容，对恶意提示作出“富有想象力”的有害内容回应。

Groeneveld认为，利益超过了危害。

“建立这个开放平台实际上将促进对这些模型可能危险的更多研究，以及我们可以采取什么措施来修复它们，”他说，“是的，开放模型可能会被不当使用或用于非预期的目的。但这种方法也促进了技术进步，从而导致更具道德的模型；这是验证和可重现性的先决条件，因为只有访问完整的堆栈才能实现；并且减少了权力的集中，创造了更公平的获取机会。”

在接下来的几个月里，AI2计划发布更大、更强大的OLMo模型，包括多模态模型（即理解文本以外的模态），以及用于训练和微调的其他数据集。与最初的OLMo和Dolma发布一样，所有资源将在GitHub和AI项目托管平台Hugging Face上免费提供。