摘要: 亚马逊的研究人员已经培训了一种新的大型语言模型(LLM),以表现出“新兴”能力。
亚马逊研究人员训练出新的大型语言模型,具备“新兴”能力
亚马逊的研究人员训练出了一个名为BASE TTS的大型语言模型(LLM),声称它具备“新兴”能力。
这个拥有9.8亿个参数的模型是迄今为止最大的文本转语音模型。研究人员使用不同规模的模型,通过对多达10万小时的公共领域语音数据进行训练,以观察它们是否会出现与自然语言处理模型相似的性能提升。
他们发现,他们中等规模的4亿参数模型-经过1万小时的音频训练-在处理复杂的测试句子时显示出了更好的多样性和鲁棒性。
测试句子包含复合名词、情感、外来词和标点等复杂的词汇、句法和语音特征,这些通常会使文本转语音系统出错。虽然BASE TTS并没有完美地处理它们,但在重音、语调和发音方面出现的错误要比现有模型少得多。
研究人员解释说:“这些句子旨在包含具有挑战性的任务,而BASE TTS并没有明确训练来执行这些任务。”
模型的最大版本拥有9.8亿个参数,经过10万小时的音频训练,但并没有展示出比4亿参数版本更多的能力。
虽然这是一个实验性过程,但BASE TTS的创建表明随着规模的扩大,这些模型可以达到新的多样性阈值,这对于对话式人工智能来说是一个令人鼓舞的迹象。研究人员计划进一步研究,以确定新兴能力的最佳模型大小。
该模型还设计成轻量级和可流式传输,将情感和韵律数据分开打包。这可以使自然语音音频通过低带宽连接进行传输。
您可以在arXiv上找到完整的BASE TTS论文here。
另请参阅:OpenAI向选择用户推出CHAT GPT记忆功能
想要从行业领导者那里了解更多关于人工智能和大数据的知识吗?请查看AI & Big Data Expo,该综合性活动与其他领先的活动同时举办,包括BlockX、Digital Transformation Week和Cyber Security & Cloud Expo。
探索由TechForge提供的其他即将举行的企业技术活动和网络研讨会,请点击这里。