微软发布Phi-3系列小型语言模型,性能卓越

摘要: 微软宣布了PHI-3开放小语言模型(SLM)家族,将其吹捧为最有能力,最具成本效益的尺寸。Microsoft研究人员开发的创新培训方法使PHI-3模型在语言,编码和数学基准方面的表现要优于大型模型。

微软发布Phi-3系列小型语言模型,性能卓越

微软发布Phi-3系列小型语言模型,性能卓越

微软宣布推出Phi-3系列开放式小型语言模型(SLMs),称其为目前最具性能和成本效益的模型。Phi-3模型采用微软研究人员开发的创新训练方法,在语言、编码和数学基准测试中表现优异。

Phi-3-mini是首款Phi-3模型,拥有3.8亿参数,现已在Azure AI模型目录、Hugging Face、Ollama以及NVIDIA NIM微服务中公开提供。尽管尺寸较小,Phi-3-mini的性能超过了两倍大小的模型。其他Phi-3模型,如Phi-3-small(70亿参数)和Phi-3-medium(140亿参数),将很快推出。

小型语言模型(SLMs)的主要优势在于尺寸较小,可以在设备上部署,实现低延迟的AI体验,无需网络连接。潜在用例包括智能传感器、摄像头、农业设备等。隐私性是另一个好处,通过在设备上保留数据。

相比之下,大型语言模型(LLMs)擅长处理庞大数据集上的复杂推理,适用于理解科学文献中的相互作用等应用。然而,SLMs为简单的查询回答、摘要、内容生成等提供了一种引人注目的替代方案。

突破性训练技术

微软SLM质量飞跃的原因在于一种受到睡前故事书启发的创新数据过滤和生成方法。

团队通过挑选高质量的数据,创造了“TinyStories”数据集,其中包含数百万个由大型模型提示生成的简单故事,适合4岁孩子理解。令人惊讶的是,一个在TinyStories上训练的1000万参数模型可以生成具有完美语法的流畅故事。

基于这一早期成功,团队通过多轮人类和大型AI模型的提示、生成和过滤,获得了经过审核的高质量网络数据,创造了“CodeTextbook”数据集。

缓解AI安全风险

尽管数据筛选经过深思熟虑,微软强调将额外的安全实践应用于Phi-3发布,与其所有生成式AI模型的标准流程相一致。

微软的产品和负责任的AI团队采用了多层方法来管理和减轻Phi-3模型开发中的风险。

(图片由Tadas Sar提供)

© 版权声明

相关文章

暂无评论

暂无评论...