GPT如何训练？

热门头条2年前 (2023)发布残剑@葫芦娃AI

6.9K 0 0

GPT如何训练？

①、使用排序序列来替代直接打分

大家在考语文时都写过作文吧？但是作文的打分非常主观，不同老师对同一篇作文可能打出不同的分数?。为了统一打分标准，会制定一系列规则，但仍然难以统一所有老师的看法，使得不同人在看同一篇作文时打出相同的分数?。那么，我们能否通过一个相对排序的任务来解决这个问题呢？举个例子，如果让人去对两个答案进行排序，就能得到统一的结果?。用相对任务来替代绝对任务能够更方便标注员打出统一的标注结果。

②、使用Rank Loss来学习打分

在我们有一个排序序列A > B > C > D的情况下，我们需要训练一个打分模型，让模型的打分满足r(A) > r(B) > r(C) > r(D)?。为了实现这个目标，我们可以使用Rank Loss作为损失函数?。通过对每两项差值进行sigmoid函数处理，我们希望模型能够最大化好句子得分和坏句子得分之间的差值。因此，我们需要对loss取负数，以实现最大化差值的效果。

③、实验结果

我们通过排序序列来训练一个打分模型?。在ERNIE模型的基础上，我们使用线性层将pooler_output转换为一维奖励值。在计算rank_loss函数时，我们遍历前后项的得分差值并相加?。最终的训练结果表明，正向评论得到了10.6分，而负向评论得到了-9.26分。

总结陈述

通过使用排序序列和Rank Loss，我们可以训练GPT模型来实现句子打分的目标。这种方法相对于直接打分更加统一和方便，并且能够获得较好的实验结果。感谢观看?！

注：本文参考了RLHF的文章内容，并进行了改写。

如果你对这个话题感兴趣，可以访问葫芦娃AI了解更多

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

业余时间如何开启副业？有哪些靠谱的副业推荐？

残剑@葫芦娃AI

5K

六大神奇AI工具，提升自媒体工作效率

沈浪@葫芦娃AI

7K

AI自媒体创业利器：AICG工具的无限可能性

沈浪@葫芦娃AI

6.3K

温柔照耀，CHATGPT将为你解答科技迷雾

残剑@葫芦娃AI

4.5K

GPT终于能够浏览互联网了，但是这可能是个危险的前景

残剑@葫芦娃AI

5.2K

ChatGPT下载及中文使用指南，快速获取CHATGPT账号申请教程

沈浪@葫芦娃AI

10.4K

暂无评论

暂无评论...

最专业、最全面的人工智能学习平台，提供最新的AI技术、AI设计、AI导航、AI做图、虚拟人等内容，让您全面了解人工智能技术领域的最新动态，AI学习入门必修都在这里！

友链申请免责声明广告合作关于我们

 扫码关注公众号，获取更多精彩内容 >>

Copyright © 2025 葫芦娃AI 浙ICP备16012272号-9