摘要: Google发布了其最新的AI型号Gemini 1.5,该模型具有该公司称为“实验性” 100万个令牌上下文窗口的内容。
Google发布了新的AI模型Gemini 1.5,具备实验性的百万标记上下文窗口功能。
这一新功能使Gemini 1.5能够处理长文本段落,最多可达100万个字符,以理解上下文和含义。相比之前的AI系统Claude 2.1和GPT-4 Turbo,它们的标记数量分别为20万和12.8万,Gemini 1.5的能力大大超越了它们。
谷歌研究人员在一篇技术论文中表示:“Gemini 1.5 Pro在跨模态的长上下文检索任务中实现了几乎完美的回忆,提升了长文档问答、长视频问答和长上下文自动语音识别的最新技术水平,并在广泛的基准测试中与Gemini 1.0 Ultra的最新性能相匹配或超越。”
谷歌的最新模型的高效性归功于其创新的专家组合(MoE)架构。
谷歌DeepMind的首席执行官Demis Hassabis解释说:“传统的Transformer是一个大型神经网络,而MoE模型则分为更小的‘专家’神经网络。”
“根据输入的类型,MoE模型学会选择性地激活其神经网络中最相关的专家路径。这种特殊化极大地增强了模型的效率。”
为了展示100万标记上下文窗口的强大能力,谷歌展示了Gemini 1.5如何将整个326,914个标记的阿波罗11号飞行记录摄入,并准确回答特定问题。它还在提示时从一个684,000个标记的无声电影中总结了关键细节。
谷歌最初向开发者和企业提供了有限的Gemini 1.5预览版,其中包含一个100万标记的上下文窗口。公众的128,000个标记的普通版本将在稍后发布,并附带定价细节。
目前,100万标记的功能仍处于实验阶段。但如果它能够实现早期的承诺,Gemini 1.5可能为AI理解复杂的现实世界文本设立新的标准。
有兴趣测试Gemini 1.5 Pro的开发者可以在AI Studio上进行注册。谷歌表示,企业客户可以联系他们的Vertex AI账户团队。
想要从行业领导者那里了解更多关于AI和大数据的知识吗?请参加在阿姆斯特丹、加利福尼亚和伦敦举办的AI & Big Data Expo。这个综合性的活动与其他领先的活动同时举办,包括BlockX、数字化转型周和网络安全与云计算博览会。
探索由TechForge提供的其他即将举行的企业技术活动和网络研讨会,请点击这里。