人类价值观的最佳选择：Preference Ranking Optimization for Human Alignment

热门头条2年前 (2023)发布残剑@葫芦娃AI

4.3K 0 0

人类价值观的最佳选择：Preference Ranking Optimization for Human Alignment

一、PRO：给你最好的回答，不用谢！

大型语言模型（LLMs）经常包含误导性内容，强调了将它们与人类价值观对齐以确保安全的人工智能系统的必要性。通过从人类反馈中进行强化学习（RLHF），我们可以实现这种对齐，方法是将奖励模型（通常基于Bradley-Terry配对比较）与RL算法（如Proximal Policy Optimization）相结合，以优化LLM的回答。然而，RLHF存在复杂性、不稳定性和对超参数的敏感性。在这篇论文中，我们提出了Preference Ranking Optimization（PRO）作为PPO的替代方法，直接将LLMs与Bradley-Terry比较对齐。PRO扩展了成对的Bradley-Terry比较，以适应任意长度的偏好排序。通过迭代地对比生成回答的可能性，PRO指导LLM优先选择最佳回答，并逐渐对剩余回答进行排名。通过这种方式，PRO有效地将人类对这些回答的偏好排序与LLM生成的n个回答的概率排序对齐。实验证明，PRO优于现有的对齐算法，通过基于自动、基于奖励、GPT-4和人类评估实现了与GPT和人类回答相当的结果。此外，我们证明，更长、更多样化、更高质量的偏好排序序列可以持续提高人类对齐的性能。

二、PRO：给你最好的回答，不用谢！

PRO是对齐LLMs与Bradley-Terry比较的最佳选择。通过扩展成对的Bradley-Terry比较，PRO可以适应任意长度的偏好排序。PRO通过迭代地对比生成回答的可能性，指导LLM优先选择最佳回答，并逐渐对剩余回答进行排名。这种方法将人类对回答的偏好排序与LLM生成的回答的概率排序对齐，实现了人类对齐的最佳效果。实验证明，PRO优于现有的对齐算法，达到了与GPT和人类回答相当的结果。此外，更长、更多样化、更高质量的偏好排序序列可以持续提高人类对齐的性能。

总结

Preference Ranking Optimization（PRO）是将LLMs与人类价值观对齐的最佳选择。PRO通过迭代地对比生成回答的可能性，指导LLM优先选择最佳回答，并逐渐对剩余回答进行排名。实验证明，PRO优于现有的对齐算法，达到了与GPT和人类回答相当的结果。更长、更多样化、更高质量的偏好排序序列可以持续提高人类对齐的性能。让我们选择PRO，让LLMs更好地与人类价值观对齐！

感谢您的阅读！