像GPT这样的聊天机器人已经在某些程度上补充并取代了传统搜索引擎的角色。最近的一项研究试图更多地了解它们在效率和质量方面的比较。
最近的一项研究比较了GPT和Google搜索的搜索性能和用户体验。这项由美国和香港的研究人员进行的研究表明,GPT用户在任务上花费的时间更少,并且对他们收到的信息质量的评价更高。该研究还指出了GPT在事实核查任务中的弱点。
尽管该研究符合科学标准,但其有效性受到参与者相对较少的限制(95)。参与者被随机分配到两组之一,GPT或Google,然后完成一份关于该工具的易用性,有用性,享受和满意度的调查问卷。该调查完全在线进行。
在任务1中:参与者被要求找到第一位进入太空的女性的姓名和年龄。
在任务 2 中:参与者被要求列出五个可用于预订美国凤凰城和辛辛那提之间航班的 URL。
在任务3中:参与者被要求阅读新闻文章的摘录并检查三个突出显示的陈述。
-GPT 用户组平均需要 11:21 分钟来完成这三个任务;
-而 Google 搜索者组在 18:45 分钟时花费的时间要长得多;
参与者自我报告了他们每项任务的时间。
研究人员将这种差异归因于这样一个事实,即谷歌搜索要求用户多次制定他们的查询。这是一个反复试验的过程才能得到结果。另一方面,GPT允许用户用自然语言提问。总结的答案消除了进一步阅读的需要。
相比之下,两组的参与者需要相似数量的输入来完成三项任务,但 GPT 的输入时间更长。GPT在第一个任务(第一位进入太空的女性的姓名和年龄)中具有最大的速度优势,该任务涉及查找特定信息。
在搜索性能方面(即答案的正确性)
研究人员为每个任务授予最多十分。在这里,GPT 的 8.55 和 Google 的 8.77 相差不远,因此差异在统计上可以忽略不计。但这也意味着谷歌用户需要更长的时间才能达到类似的质量。
有时任务之间存在显着差异。例如,研究人员发现值得注意的是,在任务1中,所有参与者都使用GPT获得了满分,这表明GPT在寻找事实方面非常有效。谷歌用户在这里犯了几个错误,平均得分只有8.19。
对于第二个任务(航班预订网站),两组得分都接近最高分。谷歌似乎稍微有帮助一些,将用户引导到辛辛那提和凤凰城之间的航班页面,而GPT只将用户引导到一般预订页面。
相比之下,GPT组(5.83)的受试者在任务3(事实核查新闻报道)上的表现明显低于谷歌搜索组(8.37)。GPT 提示的措辞有所不同:当被要求判断陈述的真实性时,GPT 关闭了。但是,当被具体问及信息本身的准确性时,答案是正确的。
当然,由于样本量如此之小,这几乎没有代表性,研究人员认为用户对GPT的信心可能是真正的问题:“参与者在使用GPT时经常表现出缺乏勤奋,并且没有动力进一步验证和纠正其响应中的任何错误信息。根据我们的观察,GPT 组中 70.8% 的参与者表现出对 GPT 响应的过度依赖,他们在第一个陈述中回答为“True”。
GPT 在质量上具有优势
GPT组对答案质量的评分高于Google搜索组(5.90对4.62)。这可能是因为 GPT 在完整语句中提供了更易于访问的信息。两种技术的信心水平基本相同。
在教育背景方面,研究人员发现GPT参与者之间没有差异,但受过高等教育的用户在使用Google方面表现出更多的能力。
谷歌的搜索生成体验可能会提供两全其美的体验
这项研究的结果并不令人惊讶。当涉及到特定信息(任务 1)时,GPT 会更紧凑地总结它。这比打开单个页面更快。
另一方面,对于预订航班(任务 2)等实时服务,Google 会通过指向特定优惠的深层链接提供更精确的结果。
OpenAI反复强调用户不应该依赖GPT的事实核查,任务3的结果似乎支持了这一论点。但是,只检查了一个案例,而且它也很及时敏感,所以结果只是轶事,根本不具有代表性。
正在讨论大型语言模型作为传统网络搜索的可能替代方案。
凭借其基于人工智能的搜索原型搜索生成体验,谷歌目前正在证明,生成式人工智能可以比链接到网络上的其他页面更好地解决某些搜索任务。
谷歌已经结合了聊天搜索(直接、个人回答问题、查询)和经典搜索(将服务实时集成到人工智能答案中,最新信息)的优势。
OpenAI正试图通过GPT插件提供类似的服务,但在技术实现和整体用户体验方面仍然落后。
Summary 小结
- 一项实验研究比较了GPT和谷歌搜索。95名参与者被要求使用每种工具完成三项不同的任务。
- 结果之一是 GPT 用户即使编写了更多的文本,速度也更快。GPT在事实问题上更有效,而谷歌在预订航班方面更好。
- GPT 在事实核查测试中表现更差,但只测试了一个场景,结果会随着提示而变化。用户不应该盲目相信聊天机器人,OpenAI说。但对于许多网络内容来说都是如此。