新冠疫情创造了许许多多的个人英雄主义事迹和令人惊叹的集体科学壮举。制药公司使用新技术在创纪录的短时间内开发出了高效的疫苗。新型的临床试验改变了医学界对什么治疗方式管用,什么不管用的理解。然而,当英国阿兰·图灵研究所(Alan Turing Institute)试图探索人工智能如何帮助应对这场危机时,发现并没有太多值得庆祝的东西。
该研究所去年底发布报告称,人工智能对疫情应对的帮助微乎其微。专家们希望能无偏见地获取广泛的健康数据,从而更好地运用这项技术,但发现面临很多问题。在此之前,两项调查回顾了数以百计的研究,发现几乎所有用于检测新冠症状的人工智能工具都存在缺陷。阿兰·图灵研究所报告的编辑、内科医生和研究员比拉尔·马丁(Bilal Mateen)说:“我们想找亮点,展示这类令人兴奋的技术是如何创造价值的。不幸的是,我们不但找不到闪光点,还发现了很多问题。”
可以理解,像人工智能这样较新的医学工具无法在疫情中扭转局面,但马丁和其他研究人员表示,新冠疫情中人工智能项目的失败反映了更广泛的规律:尽管被寄予厚望,但事实证明,通过将数据与算法相结合来改善医疗水平,这是非常困难的。
许多使用过往医学数据样本的研究报告认为,算法在特定任务上可以非常准确,比如发现皮肤癌或预测患者的治疗效果。其中一些算法现在已被纳入经过批准的产品中,医生们用这些产品来观察中风或眼疾的先兆。
但是,更多关于人工智能医疗的设想并没有突破概念验证阶段,取得进一步进展。研究人员警告说,目前,许多研究没有使用足够多数量或足够好质量的数据来适当地测试AI应用。这意味着这些技术可能不值得信赖,会给医疗系统造成真正的损害。事实证明,正在使用的一些医疗算法不可靠,或者对某些人口群体有偏见。
用数据分析技术和结果来改善医疗保健,这不是个新概念。1855年是流行病学发展的里程碑式时刻之一。当时,伦敦的医生琼恩·雪诺(Jon Snow)在地图上标出霍乱病例,发现这是种通过水传播的疾病。最近,医生、研究人员和技术专家也非常关注如何利用机器学习技术。这些技术在科技行业的项目中得到了磨炼,比如整理照片或转录语音。
然而,科技行业的大环境与研究型医院内部的情况有很大不同。Facebook等公司可以方便地获得用户发布的数十亿张照片,用于优化图像识别算法。但由于患者隐私问题很敏感,IT系统老旧,获得足够的健康数据很难。与过滤垃圾邮件或精准投放广告相比,用算法去影响患者的医疗风险也更高。
亚利桑那州立大学副教授维萨尔·贝里沙(Visar Berisha)表示:“我们无法在临床医学上借鉴消费互联网的成功案例。”他最近与亚利桑那州立大学工程和卫生部门的同事共同发表学术论文警告称,在医疗健康领域的许多研究中,算法看起来比实际情况更准确,仅仅是因为它们对非常小的数据集使用了强大的算法。
健康数据,例如医学成像、生命体征和来自可穿戴设备的数据,可能会因为与特定健康状况无关的原因而变化,比如生活方式或噪音信息。在科技行业中已经普及的机器学习算法非常善于模式识别,提供了一种捷径去找到隐藏在现实世界海量信息后的正确答案。然而,较小的数据集使算法更容易以这种方式作弊,并造成盲点,导致最终临床结果不佳。贝里沙说:“社区只是自己骗自己,让我们相信正在开发的模型有着比实际更好的效果。这进一步加剧了关于AI医疗的炒作。”
贝里沙说,这方面问题已经导致AI医疗研究的某些领域出现了令人担忧和震惊的行为。研究人员曾经尝试利用算法,基于语音来发现阿茨海默症或认知障碍的迹象。贝里沙和他的同事们发现,数据规模较大的研究报告准确性比规模较小的要差,这与大数据技术的理论相反。除此之外,一项根据医学扫描影像识别大脑疾病的研究,以及另一项试图用机器学习检测自闭症的研究,都得出了类似的结果。
算法在初步研究中效果良好,但在真实患者数据上表现很差,这造成了切切实施的问题。2019年的一项研究发现,一个用于数百万患者的系统原本希望让患复杂健康问题的人优先获得额外的医疗机会,但最终却将白人患者置于黑人之前。
要避免像这样的有偏见系统,需要大量、平衡的数据集和谨慎的测试,但由于过往和目前不同人群医疗水平的不平等,数据集总是会有扭曲,从而影响AI医学的研究质量。斯坦福大学研究人员2020年发现,在所有将深度学习技术应用于美国全国医学数据的研究中,使用的数据有71%来自加利福尼亚州、马萨诸塞州和纽约州,其他47个州的数据很少或几乎没有。低收入地区在AI医疗研究中几乎没有话语权。去年发表的一篇论文对150多项用机器学习来预测诊断或病程的研究进行了梳理,结论是大多数研究“显示出糟糕的方法学,存在很高的偏见风险”。
两名关注这些缺点的研究人员最近发起了一个名为“南丁格尔开放科学”(Nightingale Open Science)的非营利性组织,试图提高研究人员可获得的数据集的质量和规模。它与卫生系统合作,从患者记录中收集医学图像和相关数据,将其匿名化,随后提供给非营利性研究。
南丁格尔开放科学的联合创始人、加州大学伯克利分校副教授齐亚德·奥伯迈尔(Ziad Obermeyer)希望,让更多研究者可以访问这些数据将鼓励竞争,从而带来更好的结果,就像大量开放的图像数据集最终刺激了机器学习的进步一样。他说:“问题核心是,研究人员可以利用这些健康数据去做自己想要的研究。”
其他一些项目也试图通过优化数据质量,来改善AI医疗的水平。例如,拉库纳基金(Lacuna Fund)尝试推动在中低收入国家建立数据集,将其应用于机器学习,从而优化AI医疗水平。英国伯明翰大学医院在英国国家医疗服务体系(National Health Service)和麻省理工学院的支持下,正在启动一个新项目,制定标准去评估人工智能系统是否以公平、无偏见的数据为基础。
作为英国疫情算法报告的编辑,马丁是此类人工智能项目的粉丝,但他认为,人工智能在医疗行业的应用前景将取决于医疗系统能否对其陈旧的IT基础设施进行现代化改造。马丁说:“你必须在问题的根源上进行投资,才能得到好的结果。”