医学研究:大型语言模型在医学文献中的应用

摘要: 医生说,人工智能正在帮助最大程度地减少其工作流程。研究表明,该技术最多可用于10%的医生。但是AI真的是可靠的助手吗?

医学研究:大型语言模型在医学文献中的应用

医学研究:大型语言模型在医学文献中的应用

越来越多的医生开始使用人工智能来减轻工作压力。研究表明,高达10%的医生正在使用由OpenAI制作的大型语言模型CHAT GPT。但这些模型的回答到底有多准确呢?

堪萨斯大学医学中心的研究人员进行了一项研究。他们利用CHAT GPT 3.5总结了来自14个医学期刊的140篇同行评议研究。七名医生独立审查了聊天机器人的回答,并对其质量、准确性和偏见进行了评分。

研究发现,人工智能的回答比真实医生的回答短70%,但在准确性(92.5%)和质量(90%)方面得分较高,并且没有发现偏见。

严重的不准确和幻觉“不常见” — 仅在140个摘要中发现了四个。研究人员指出,CHAT GPT有时会“产生幻觉”,即提供不真实的信息,但这种情况非常罕见。

CHAT GPT通常可以帮助医生确定整个期刊对某个医学专业是否相关,但在确定单篇文章与医学专业相关性方面则较为困难。

根据这些发现,CHAT GPT可以帮助医生和科学家决定哪些医学期刊中的新文章值得阅读。

医生观点

急诊医学专家哈维·卡斯特罗表示,人工智能在医疗保健领域的整合显著提高了临床决策。然而,他指出CHAT GPT等人工智能模型也存在一些局限性。

在高风险场景中,特别是在高风险场景中,卡斯特罗强调了由医疗保健专业人员监督和验证人工智能生成内容的重要性。

研究人员也强调了需要权衡像CHAT GPT这样的大型语言模型的有益之处与谨慎使用的必要性。

总的来说,随着人工智能在医疗保健中的广泛应用,我们应坚持要求科学家、临床医生、工程师和其他专业人士做出仔细的工作,确保这些工具安全、准确且有益。

© 版权声明

相关文章

暂无评论

暂无评论...