摘要: 苹果悄悄发布的研究论文描述了一种名为MM1的AI模型,该模型可以回答问题并分析图像。这是迄今为止苹果正在开发生成AI功能的最大迹象。
苹果公司正秘密研发新一代AI模型MM1
尽管科技行业对生成人工智能疯狂追捧,但苹果公司却一直在观望。据《纽约时报》报道,苹果公司正在与谷歌进行初步谈判,考虑将谷歌的Gemini AI模型添加到iPhone中。
然而,苹果工程师上周悄悄发布的一篇研究论文显示,公司正在对人工智能进行重大投资,并已取得成果。他们开发了一个名为MM1的新生成AI模型,能够处理文本和图像。研究人员展示了该模型回答关于照片的问题,并展示了类似CHAT GPT等聊天机器人所展示的一般知识技能。MM1的名称未经解释,但可能代表MultiModal 1。
MM1是一种多模态大型语言模型,意味着它不仅训练于文本,还训练于图像。这使得模型能够回应文本提示,并回答关于特定图像的复杂问题。
苹果的研究论文中的一个例子展示了当MM1被提供一张阳光斑驳的餐厅桌子上有几瓶啤酒的照片以及菜单的图像时会发生什么。当询问有关“桌子上所有啤酒的价格”时,该模型正确地读出了正确的价格并计算了成本。
苹果的研究人员Brandon McKinzie表示:“这只是个开始。团队已经在努力研发下一代模型。”
当CHAT GPT于2022年11月推出时,它只能摄取和生成文本,但最近其创造者OpenAI和其他人已经努力拓展基础大型语言模型技术,使其能处理其他类型的数据。谷歌去年12月推出了Gemini(现在驱动其对CHAT GPT的回应)时,公司将其多模态性质作为AI重要新方向的开端。苹果的论文称:“在大型语言模型的兴起之后,多模态大型语言模型正在成为基础模型的下一个前沿。”
苹果的MM1模型在参数数量上相对较小,这使得苹果工程师可以在找到有希望的方法后进行不同训练方法和改进的实验,然后再进行扩展。
该论文提供了关于模型训练的大量细节,包括提高模型性能的技巧,如增加图像分辨率和混合文本和图像数据。苹果以其保密性而闻名,但在AI研究方面却表现出异常的开放性,因为公司寻求吸引竞争所需的人才。