AI2发布了更加“开放”的GenAI语言模型

摘要: AI研究所AI2已在开源中发布了几种文本生成模型,以及用于培训它们的数据。

AI2发布了更加“开放”的GenAI语言模型

AI2发布了更加“开放”的GenAI语言模型

由已故微软联合创始人保罗·艾伦创办的非营利性AI研究机构AI2(Allen Institute for AI)发布了几个更加“开放”的GenAI语言模型,而且重要的是,这些模型的许可方式使开发者可以自由地用于训练、实验甚至商业化。

这些名为OLMo(Open Language Models)的模型及其用于训练它们的数据集Dolma是为了研究文本生成AI背后的高级科学而设计的,AI2的高级软件工程师Dirk Groeneveld说。

“在涉及到[文本生成模型]时,“开放”是一个多义词,”Groeneveld在电子邮件采访中告诉TechCrunch,“我们希望研究人员和从业者能够抓住OLMo框架的机会,分析一个基于迄今为止最大的公共数据集之一训练的模型,以及构建模型所需的所有组件。”

开源的文本生成模型越来越多,从Meta到Mistral,各个组织都发布了高度可用的模型供开发者使用和调整。但是Groeneveld认为,许多这些模型不能真正被视为开放,因为它们是在“闭门造车”的情况下训练的,并且使用了专有的、不透明的数据集。

相比之下,OLMo模型是与哈佛大学、AMD和Databricks等合作伙伴的帮助下创建的,它们提供了用于生成训练数据的代码、训练和评估指标以及日志。

在性能方面,最强大的OLMo模型OLMo 7B是Meta的Llama 2的一个“引人注目且强大”的替代品,Groeneveld说,这取决于应用场景。在某些基准测试中,特别是涉及阅读理解的测试中,OLMo 7B超过了Llama 2。但在其他测试中,特别是问答测试中,OLMo 7B稍逊一筹。

OLMo模型还有其他限制,比如在非英语语言(Dolma主要包含英语内容)中输出质量较低,以及代码生成能力较弱。但Groeneveld强调,现在还处于早期阶段。

“OLMo目前还没有设计成多语言模型,”他说,“虽然在这个阶段,OLMo框架的主要关注点不是代码生成,但为了给未来的基于代码的微调项目一个起点,OLMo的数据混合目前包含大约15%的代码。”

我问Groeneveld是否担心OLMo模型可能被恶意使用,因为它们可以在像Nvidia 3090这样的消费级GPU上运行。Democracy Reporting International的Disinfo Radar项目最近进行的一项研究发现,两个受欢迎的开放文本生成模型Hugging Face的Zephyr和Databricks的Dolly可靠地生成有害内容,对恶意提示作出“富有想象力”的有害内容回应。

Groeneveld认为,利益超过了危害。

“建立这个开放平台实际上将促进对这些模型可能危险的更多研究,以及我们可以采取什么措施来修复它们,”他说,“是的,开放模型可能会被不当使用或用于非预期的目的。但这种方法也促进了技术进步,从而导致更具道德的模型;这是验证和可重现性的先决条件,因为只有访问完整的堆栈才能实现;并且减少了权力的集中,创造了更公平的获取机会。”

在接下来的几个月里,AI2计划发布更大、更强大的OLMo模型,包括多模态模型(即理解文本以外的模态),以及用于训练和微调的其他数据集。与最初的OLMo和Dolma发布一样,所有资源将在GitHub和AI项目托管平台Hugging Face上免费提供。

© 版权声明

相关文章

暂无评论

暂无评论...