GPT如何训练?

热门头条1年前 (2023)发布 残剑@葫芦娃AI
5.8K 0 0

GPT如何训练?

①、使用排序序列来替代直接打分

大家在考语文时都写过作文吧?但是作文的打分非常主观,不同老师对同一篇作文可能打出不同的分数?。为了统一打分标准,会制定一系列规则,但仍然难以统一所有老师的看法,使得不同人在看同一篇作文时打出相同的分数?。那么,我们能否通过一个相对排序的任务来解决这个问题呢?举个例子,如果让人去对两个答案进行排序,就能得到统一的结果?。用相对任务来替代绝对任务能够更方便标注员打出统一的标注结果。

②、使用Rank Loss来学习打分

在我们有一个排序序列A > B > C > D的情况下,我们需要训练一个打分模型,让模型的打分满足r(A) > r(B) > r(C) > r(D)?。为了实现这个目标,我们可以使用Rank Loss作为损失函数?。通过对每两项差值进行sigmoid函数处理,我们希望模型能够最大化好句子得分和坏句子得分之间的差值。因此,我们需要对loss取负数,以实现最大化差值的效果。

③、实验结果

我们通过排序序列来训练一个打分模型?。在ERNIE模型的基础上,我们使用线性层将pooler_output转换为一维奖励值。在计算rank_loss函数时,我们遍历前后项的得分差值并相加?。最终的训练结果表明,正向评论得到了10.6分,而负向评论得到了-9.26分。

总结陈述

通过使用排序序列和Rank Loss,我们可以训练GPT模型来实现句子打分的目标。这种方法相对于直接打分更加统一和方便,并且能够获得较好的实验结果。感谢观看?!

注:本文参考了RLHF的文章内容,并进行了改写。

如果你对这个话题感兴趣,可以访问葫芦娃AI了解更多

© 版权声明

相关文章

暂无评论

暂无评论...