团队研发出更灵活的机器学习模型

摘要: 培训期间擦除关键信息可以使机器学习模型更快,更轻松地学习新语言。

团队研发出更灵活的机器学习模型

团队研发出更灵活的机器学习模型

一支计算机科学家团队创建了一种更灵活、更灵巧的机器学习模型。这个模型的特点是必须定期忘记它所知道的内容。虽然这种新方法不会取代支撑最大应用程序的庞大模型,但它可以揭示这些程序如何理解语言的更多信息。

这项新研究被韩国基础科学研究所的AI工程师Jea Kwon称为“该领域的重大进展”。

如今使用的AI语言引擎主要由人工神经网络驱动。网络中的每个“神经元”都是一个数学函数,接收来自其他神经元的信号,进行一些计算,然后通过多层神经元发送信号。通过训练,初始时信息流基本上是随机的,但随着网络适应训练数据,神经元之间的信息流得到改进。如果AI研究人员想要创建一个双语模型,她会用大量来自两种语言的文本训练模型,这会调整神经元之间的连接,以使得一种语言中的文本与另一种语言中的等效词相关联。

但是这种训练过程需要大量的计算能力。如果模型效果不佳,或者用户的需求以后发生变化,要对其进行调整是很困难的。研究人员试图规避这些限制。

几年前,Artetxe和其他人在一种语言上训练了一个神经网络,然后擦除了它所知道的单词构建块,称为标记。他们只擦除了神经网络的第一层,即嵌入层中的标记。在擦除了第一种语言的标记后,他们在第二种语言上重新训练了模型,这样填充了来自该语言的新标记。

尽管模型包含不匹配的信息,重新训练也成功了:模型能够学习和处理新语言。研究人员认为,尽管嵌入层存储了与语言中使用的单词相关的信息,但网络的更深层存储了关于人类语言背后概念的更抽象信息,这有助于模型学习第二种语言。

主要作者Yihong Chen表示:“我们生活在同一个世界。我们用不同的词语概念化相同的事物在不同的语言中。这就是为什么模型中存在相同的高层推理。苹果是一种又甜又多汁的东西,而不仅仅是一个词。”

© 版权声明

相关文章

暂无评论

暂无评论...