亚马逊研究人员训练出新的大型语言模型，具备“新兴”能力

5.2K 0 0

摘要: 亚马逊的研究人员已经培训了一种新的大型语言模型（LLM），以表现出“新兴”能力。

亚马逊的研究人员训练出了一个名为BASE TTS的大型语言模型（LLM），声称它具备“新兴”能力。

这个拥有9.8亿个参数的模型是迄今为止最大的文本转语音模型。研究人员使用不同规模的模型，通过对多达10万小时的公共领域语音数据进行训练，以观察它们是否会出现与自然语言处理模型相似的性能提升。

他们发现，他们中等规模的4亿参数模型-经过1万小时的音频训练-在处理复杂的测试句子时显示出了更好的多样性和鲁棒性。

测试句子包含复合名词、情感、外来词和标点等复杂的词汇、句法和语音特征，这些通常会使文本转语音系统出错。虽然BASE TTS并没有完美地处理它们，但在重音、语调和发音方面出现的错误要比现有模型少得多。

研究人员解释说：“这些句子旨在包含具有挑战性的任务，而BASE TTS并没有明确训练来执行这些任务。”

模型的最大版本拥有9.8亿个参数，经过10万小时的音频训练，但并没有展示出比4亿参数版本更多的能力。

虽然这是一个实验性过程，但BASE TTS的创建表明随着规模的扩大，这些模型可以达到新的多样性阈值，这对于对话式人工智能来说是一个令人鼓舞的迹象。研究人员计划进一步研究，以确定新兴能力的最佳模型大小。

该模型还设计成轻量级和可流式传输，将情感和韵律数据分开打包。这可以使自然语音音频通过低带宽连接进行传输。

您可以在arXiv上找到完整的BASE TTS论文here。

(照片由Nik拍摄，来自Unsplash)

另请参阅：OpenAI向选择用户推出CHAT GPT记忆功能

想要从行业领导者那里了解更多关于人工智能和大数据的知识吗？请查看AI & Big Data Expo，该综合性活动与其他领先的活动同时举办，包括BlockX、Digital Transformation Week和Cyber Security & Cloud Expo。

探索由TechForge提供的其他即将举行的企业技术活动和网络研讨会，请点击这里。

文章版权归作者所有，未经允许请勿转载。

8.1K

8.3K

4.7K

14.2K

9.5K

11.8K

暂无评论

暂无评论...