当AI遇到真人并就医时，会“断链”吗？ – 吃瓜网51官网版每日大赛-吃瓜爆料，精彩不断等你来！

在

每日更新

一旦大规模语言模型在医学测试中取得高分，人们就期望它们成为个人的“人工智能健康助手”。然而，一项在英国进行、发表在《自然医学》上的研究表明，这些实验室“尖子生”的表现在面对真实用户时会出乎意料地“下降”，而且它们在帮助公众做出健康决策方面的有效性并不超过互联网搜索引擎。这一发现给目前正在取得进展的人工智能医疗应用敲响了科学警报。人们是否高估了当前大规模语言模型帮助公众做出健康决策的能力？目前，世界卫生系统正在构建大规模语言模型，作为国家的“健康第一道防线”，让人们在治疗前进行自我评估和管理。然而，这项研究揭示了重要的差距。这意味着即使是在标准中表现良好的人工智能模型当面对现实场景中的普通人时，标准化测试可能会出现重大问题。牛津互联网研究所的科学家设计了一个现实的实验。约 1,300 名英国参与者被邀请模拟 10 种常见的健康场景，包括感冒、贫血和胆结石，并决定采取什么行动，例如拨打紧急电话或预约全科医生。参与者被随机分配使用三种传统大规模语言模型（GPT-4o、Llama3 或 Command R+）之一或互联网搜索引擎作为对照。结果显示出有趣的“人类和机器之间的差异”。在没有人类受试者的情况下进行测试时，AI 的表现非常出色，平均识别出 94.9% 的疾病，并为一半以上的病例提供了适当的建议。然而，当普通大众使用相同的模型时，疾病识别率直线下降至35%以下，行动建议的准确性也下降低于 45%，这甚至比互联网搜索引擎好不了多少。科学家们进一步分析了对话笔录，发现有两个典型的“沟通盲点”：我想通了。这是因为普通人往往难以准确、完整地描述症状，而人工智能可以生成看似合理但实际上具有误导性的答案。这种双向信息偏差可能会导致最初在测试中表现良好的模型在实际应用中受到影响。这也表明，将现有的大规模语言模型直接应用于公共卫生咨询时仍需谨慎。这是因为现实世界的人机交互具有许多临床测试无法预测的复杂性。用AI开发医疗助手不仅需要技术迭代，还需要深入理解当健康和焦虑交叉时，人与机器如何更好地“对话”，以及何时行话和日常用语有交叉。（记者张门兰）
（编辑：韩璐）

[db:tag]

发表回复取消回复

作者

3月31日国内黄金期货上涨1.46%。

30岁又重新开始。新华保险详细解读“十五五”开局攻防策略。

我国早苗培育已完成75%。

3月31日国内黄金期货上涨1.46%。

30岁又重新开始。新华保险详细解读“十五五”开局攻防策略。

我国早苗培育已完成75%。

发表回复 取消回复

作者

相关文章

发表回复取消回复