随着疫情的加速作用,医疗行业正热情地拥抱人工智能。根据Optum于2020年的一项调查,80%的医疗机构已经制定了人工智能战略,另有15%计划推出该战略。
包括大型科技公司在内的供应商正不断满足需求。谷歌最近推出了Med-PaLM 2,这是一个专为回答医学问题和在医学文本中发现洞见而设计的人工智能模型。此外,像Hippocratic和OpenEvidence这样的初创公司正在开发模型,为临床医生提供可操作的建议。
然而,随着越来越多针对医疗应用场景的模型进入市场,了解哪些模型是否表现如宣传的任务变得越来越具有挑战性。由于医学模型通常是使用来自有限且狭窄的临床环境(例如东海岸的医院)的数据进行训练,一些模型对特定的患者群体,通常是少数族裔患者,表现出偏见,导致现实世界中出现有害影响。
MLCommons的MedPerf是一种可靠、可信的医学模型基准测试平台,旨在评估和评估医学模型。MedPerf可以在保护患者隐私的前提下,评估“多样化的真实医学数据”上的人工智能模型。通过对大规模和多样化数据集上的模型进行中立和科学的测试,可以提高模型的有效性,减少偏见,建立公众信任,并支持合规性。
与MLCommons的通用AI基准测试套件(如MLPerf)不同,MedPerf旨在供医疗模型的运营商和客户(如医疗机构)使用,而不是供应商。通过MedPerf平台,医院和诊所可以根据需要评估人工智能模型,并使用“联合评估”远程部署模型并在现场进行评估。