摘要: Hugging Face发布了一个新的排行榜和基准,用于评估与健康相关的任务和问题的生成AI模型。
医疗领域的生成式人工智能模型评估新方法
生成式人工智能模型越来越多地被引入医疗领域,一些早期采用者认为它们将提高效率,揭示其他情况下可能被忽视的见解。然而,批评者指出这些模型存在缺陷和偏见,可能导致更糟糕的健康结果。
有没有一种量化的方法可以知道模型在总结患者记录或回答健康相关问题等任务时可能有多大帮助或危害呢?
AI初创公司Hugging Face提出了一个新的基准测试方法,名为Open Medical-LLM。这个基准测试是与非营利组织Open Life Science AI和爱丁堡大学自然语言处理小组的研究人员合作创建的,旨在标准化评估生成式人工智能模型在各种医学相关任务上的表现。
Open Medical-LLM并不是一个全新的基准测试,而是将现有测试集(如MedQA、PubMedQA、MedMCQA等)组合在一起,旨在检验模型对一般医学知识和相关领域(如解剖学、药理学、遗传学和临床实践)的了解。这个基准测试包含需要医学推理和理解的多项选择和开放性问题,涵盖了美国和印度医学执照考试以及大学生物学测试题库等材料。
Hugging Face将这一基准测试定位为对医疗领域生成式人工智能模型的“强大评估”。但一些医学专家在社交媒体上警告不要过分依赖Open Medical-LLM,以免导致无知的部署。
医学博士Liam McCoy在推特上指出,医学问答的“人为环境”与实际临床实践之间的差距可能很大。
Hugging Face的研究科学家Clémentine Fourrier同意这一观点,她表示这些排行榜只能作为探索特定用例的生成式人工智能模型的第一近似,但在实际条件下仍需要进行更深入的测试。
总的来说,Open Medical-LLM等基准测试是有用的,但不能替代经过深思熟虑的实际测试。