人工智能工具的谎言

5.9K 0 0

摘要: 一个名为“检索增强产生或抹布”的嗡嗡声过程正在硅谷占据，并改善了大型语言模型的输出。它是如何工作的？

人工智能工具的谎言

如果你曾经使用过生成式人工智能工具，它可能会对你说谎，甚至多次。

这些经常发生的谎言通常被称为AI幻觉，开发人员正在努力使生成式人工智能工具更可靠，遏制这些不幸的谎言。减少AI幻觉的最流行方法之一，也是硅谷迅速增长的方法之一，被称为检索增强生成。

RAG过程相当复杂，但基本上它通过从自定义数据库中收集信息来增强你的提示，然后大型语言模型基于这些数据生成答案。例如，一家公司可以将其所有人力资源政策和福利上传到RAG数据库中，并让AI聊天机器人专注于那些可以在这些文件中找到答案的内容。

那么，这个过程与标准的CHAT GPT输出有何不同？我向汤姆逊路透的CoCounsel副总裁Pablo Arredondo提出了这个问题，他一直在使用RAG方法为法律专业人士开发AI工具的各个方面。他说：“与仅基于模型初始训练期间编码的记忆回答不同，你利用搜索引擎引入真实文件，无论是案例法、文章还是其他任何内容，然后将模型的响应锚定在这些文件上。”

通过给AI工具一个狭窄的焦点以及高质量的信息，RAG增强的聊天机器人比通用聊天机器人更擅长回答关于WIRED和相关主题的问题。它仍然会犯错，有时会误解数据吗？绝对会。但它编造从未存在的整篇文章的几率肯定会降低。

“在训练模型的方式上，你奖励它尝试撰写每个事实主张都可以追溯到来源，”Cohere的AI建模负责人Patrick Lewis说道，他几年前帮助开发了RAG的概念。如果你教会模型有效地筛选提供的数据并在每个输出中使用引用，那么AI工具犯严重错误的可能性就会降低。

尽管如此，RAG到底能减少多少AI幻觉，这是研究人员和开发人员的争议焦点。在我们的对话中，Lewis谨慎选择了措辞，将RAG的输出描述为“低幻觉”，而不是完全无幻觉。这个过程绝对不是消除AI的每个错误的灵丹妙药。

与多位专家的对话中，很明显，RAG降低幻觉的程度取决于两个核心因素：RAG实施的质量以及您决定如何定义AI幻觉，这是一个有时没有明确定义的模糊术语。