AI21 Labs发布全新文本生成模型Jamba

4.4K 0 0

摘要: AI行业越来越多地朝着具有更长背景的生成AI模型迈进。但是带有较大上下文窗口的模型往往是

AI21 Labs最新发布了一款名为Jamba的文本生成和分析模型。Jamba可以处理英语、法语、西班牙语和葡萄牙语，并能在单个GPU上运行，处理长达140,000个tokens的文本。

Jamba采用了transformers和state space models (SSMs)两种模型架构的组合。transformers是用于复杂推理任务的首选架构，而SSMs结合了循环神经网络和卷积神经网络等旧型AI模型的特点，创造出更高效处理长序列数据的架构。

Jamba使用了SSM模型Mamba作为核心模型的一部分，据称在处理长上下文时比同等大小的基于transformers的模型的吞吐量提高了三倍。

虽然Jamba是根据Apache 2.0许可发布的开源模型，但AI21 Labs强调这是一个研究版本，不适合商业用途。未来将提供一个经过调整的“更安全”版本。

AI21 Labs的产品负责人Dagan表示，Jamba展示了SSM架构的潜力，尤其是在这个早期阶段。

“这个模型的附加价值在于它的规模和创新架构，可以轻松适配到单个GPU上，我们相信随着Mamba的进一步调整，性能将进一步提高。”

文章版权归作者所有，未经允许请勿转载。

5.1K

6.6K

6.4K

5.4K

3.7K

暂无评论

暂无评论...