由人工智能(AI)驱动的健康产品正源源不断地进入我们的生活,从虚拟医生应用到可穿戴传感器和药店聊天机器人。

IBM吹嘘说它的人工智能可以“战胜癌症”。另一些人说,读取x射线的计算机系统将使放射科医生过时。

“没有什么,我看到在我三十多年学习医学,可以有效的和变革”作为人工智能,Eric Topol博士说,心脏病和执行副总裁拉霍亚的斯克里普斯研究。人工智能可以帮助医生解释心脏核磁共振成像、CT扫描的头和眼睛的后面的照片,并有可能接管许多平凡的医疗家务,解放医生花更多的时间和病人说话,托波尔说。

就连过去5年批准了40多种人工智能产品的美国食品和药物管理局(fda)也表示,“数字健康的潜力是革命性的。”

然而,许多医疗行业专家担心,基于人工智能的产品将无法达到宣传的效果。许多医生和消费者维权人士担心,以“迅速失败,然后再修复”为信条的科技行业正在把病人置于危险之中,而监管机构在保护消费者安全方面做得不够。

斯坦福大学(Stanford)生物医学伦理中心(Center for Biomedical Ethics)的儿科学教授米尔德里德·赵(Mildred Cho)说,早期的人工智能实验提供了一个谨慎行事的理由。

Cho说,在一家医院开发的系统在另一家医院部署时经常会失败。用于照顾数百万美国人的软件已经显示出对少数族裔的歧视。人工智能系统有时会根据一些因素做出预测,这些因素与疾病的关系要小于所使用的核磁共振成像机的品牌、验血的时间或病人是否有牧师来探望。在一个案例中,人工智能软件错误地得出结论,认为患有肺炎的人如果患有哮喘,就不太可能死亡——这个错误可能会导致医生剥夺哮喘患者所需的额外护理。

克利夫兰诊所(Cleveland Clinic)的心脏病学主席史蒂文·尼森(Steven Nissen)博士说:“这种情况导致严重的健康问题只是时间问题。”

研究公司高德纳(Gartner) 7月的一份报告总结称,仅在第三季度,医疗人工智能就吸引了16亿美元的风险投资,“几乎达到了过高预期的顶峰”。“随着现实经受考验,人们可能会粗略地滑入幻灭的低谷。”

当人工智能产品被引入现实世界时,这种现实核查可能会以令人失望的结果的形式出现。即便是《深度医学:人工智能如何让医疗保健重新成为人类》(Deep Medicine: How Artificial Intelligence Can Make Healthcare Human Again)一书的作者托波尔(Topol)也承认,许多人工智能产品不过是空话。“这是一个大杂烩,”他说。

风险投资公司Venrock的合伙人鲍勃·科克博士(Bob Kocher)等专家则直言不讳。“大多数人工智能产品几乎没有证据支持它们,”Kocher说。在人工智能系统被大量患者使用之前,一些风险不会变得明显。“我们将继续发现在医疗数据上使用人工智能的一系列风险和意想不到的后果,”Kocher说。

Topol说,在美国销售的人工智能产品都没有经过随机临床试验的测试,而随机临床试验是最有力的医学证据来源。第一个也是唯一一个人工智能系统的随机试验——发现结肠镜检查与计算机辅助诊断相比发现更多的小息肉——于10月在网上发表。

《欧洲临床研究杂志》(European Journal of Clinical Investigation)今年1月发表的一篇文章称,很少有科技初创公司在同行评审的期刊上发表研究成果,而同行评审的期刊可以让其他科学家审查他们的工作。这种只在新闻稿或促销活动中描述的“秘密研究”,往往夸大了一家公司的成就。

尽管软件开发人员可能会吹嘘他们的人工智能设备的准确性,但专家指出,人工智能模型大多是在电脑上测试的,而不是在医院或其他医疗机构。使用未经验证的软件“可能会让患者不知不觉地变成豚鼠,”斯坦福医疗保健(Stanford Health Care)人工智能临床整合医学信息学主任李荣恩(Ron Li)博士说。

学习识别数据模式的人工智能系统通常被描述为“黑匣子”,因为即使是它们的开发人员也不知道他们是如何得出结论的。威斯康星大学麦迪逊分校(University of Wisconsin-Madison)法律与生物伦理学教授皮拉尔•奥索里奥(Pilar Ossorio)表示,考虑到人工智能是如此的新事物——而且它的许多风险未知——这个领域需要仔细的监管。

然而,大多数人工智能设备并不需要FDA的批准。

Kocher说:“我所投资的公司都不受FDA的监管。”

2016年,美国国会通过了一项法案,将许多类型的医疗软件排除在联邦审查之外,其中包括某些健身应用、电子健康记录和帮助医生做出医疗决定的工具。这项法案得到了科技行业的支持。

根据国家医学研究院12月17日发布的一份关于人工智能的报告,目前很少有关于目前使用的32万个医疗应用是否真的能改善健康的研究。

如果快速失败意味着很多人会死,我认为我们不想快速失败。如果有人死亡或严重受伤,没有人会高兴,包括投资者。

西雅图艾伦人工智能研究所(Allen Institute for AI)首席执行官奥伦·埃齐奥尼(Oren Etzioni)说

宾夕法尼亚大学佩雷尔曼医学院(Perelman School of Medicine at the University of Pennsylvania)医学伦理与卫生政策教授伊泽基尔·伊曼纽尔(Ezekiel Emanuel)博士表示:“几乎所有面向患者的(人工智能)产品都没有真正奏效。”

FDA长期以来一直关注对患者构成最大威胁的设备。消费者维权人士也承认,与诊断或治疗疾病的设备相比,一些帮助人们计算日常步数的设备需要较少的检查。

《内科学年鉴》(Annals of Internal Medicine) 2018年的一项研究显示,一些软件开发人员甚至在法律要求的情况下也懒得申请FDA的许可或授权。

行业分析人士表示,人工智能开发人员对进行昂贵而耗时的试验兴趣不大。技术咨询公司博思艾伦咨询公司(Booz Allen Hamilton)的负责人、美国国家科学院报告的合著者约阿希姆·罗斯基(Joachim Roski)说,“这些公司主要关心的不是将自己提交给同行评议的期刊进行严格的评估。”“美国经济不是这样运行的。”

但西雅图艾伦人工智能研究所(Allen Institute for AI)首席执行官奥伦•埃齐奥尼(Oren Etzioni)表示,人工智能开发商有确保其医疗产品安全的经济动机。

Etzioni说:“如果快速失败意味着很多人会死去,我认为我们不希望快速失败。”“如果有人死亡或严重受伤,没有人会高兴,包括投资者。”

近年来,FDA因允许销售危险医疗设备而备受指责。国际调查记者联盟(International Consortium of Investigative Journalists)认为,在过去10年里,这些危险医疗设备导致8万人死亡,170万人受伤。

这些设备中有许多是通过一种被称为510(k)途径的有争议的程序获得许可使用的,该程序允许公司在没有临床测试的情况下销售“中等风险”的产品,只要它们被认为与现有设备相似。

2011年,美国国家医学研究院的一个委员会得出结论,认为510(k)程序存在根本性缺陷,FDA应该把它扔掉,重新开始。

相反,FDA正在利用这一过程为人工智能设备开绿灯。

据《美国医学会杂志》11月的一篇文章称,FDA在2017年和2018年批准的14种人工智能产品中,有11种通过了510(k)程序。研究称,这些药物似乎都没有进行过新的临床试验。2018年,FDA批准了一款人工智能设备,该设备旨在帮助诊断肝癌和肺癌,其原理与20年前批准的成像软件相似。该软件本身已被清除,因为它被视为“基本上相当于”1976年以前销售的产品。

FDA设备和放射健康中心的数字健康主任巴库尔·帕特尔说,FDA今天批准的人工智能产品在很大程度上是“锁定的”,因此它们的计算和结果在进入市场后不会改变。FDA还没有批准“解锁”人工智能设备,其结果可能会随着月份的变化而变化,这是开发人员无法预测的。

为了应对人工智能产品的泛滥,美国食品和药物管理局(FDA)正在测试一种完全不同的数字设备监管方法,侧重于评估公司,而不是产品。

FDA于2017年启动的“预认证”试点项目,旨在“减少软件开发人员进入市场的时间和成本”,尽可能采用“负担最小”的系统。FDA官员表示,他们希望跟上人工智能软件开发商的步伐。与x光机等传统设备制造商相比,人工智能软件开发商更新产品的频率要高得多。

斯科特·戈特利布(Scott Gottlieb)在2017年担任FDA局长时曾表示,政府监管机构需要确保其创新产品的方法“是有效的,能够促进创新,而不是阻碍创新”。

根据该计划,FDA将对那些“表现出质量和组织卓越文化”的公司进行预先认证,这将允许它们提供较少的设备前期数据。

预先认证的公司可以发布带有“流线型”审查的设备——或者完全不需要FDA审查。一旦产品上市,公司将负责监控自己产品的安全性并向FDA汇报。苹果、FitBit、三星、强生等九家公司被选中进行试点Johnson, Pear Therapeutics,磷,Roche, Tidepool and Life Sciences。

高风险产品,如用于起搏器的软件,仍将接受FDA的全面评估。“我们绝对不希望病人受伤,”帕特尔说,他指出,如果需要,通过预先认证的设备可以被召回。“仍然有很多护栏。”

但研究表明,即使是低风险和中等风险的设备也会因为对患者的严重风险而被召回,国家健康研究中心(National Center for Health research)主席戴安娜·扎克曼(Diana Zuckerman)说。“人们可能会受到伤害,因为某些东西在被广泛使用之前不需要被证明是准确或安全的。”

约翰逊,例如,约翰逊已经召回了髋关节植入物和手术网。

在致FDA的一系列信件中,美国医学会(American Medical Association)和其他机构对允许企业监控自身绩效和产品安全的做法是否明智提出了质疑。

“荣誉制度不是一种监管机制,”医师协会董事会主席杰西·艾伦菲尔德(Jesse Ehrenfeld)博士说。

在10月份致FDA的信中,马萨诸塞州民主党参议员伊丽莎白·沃伦(Elizabeth Warren)、明尼苏达州民主党参议员蒂娜·史密斯(Tina Smith)和华盛顿州民主党参议员帕蒂·默里(Patty Murray)质疑FDA是否有能力确保公司安全报告“准确、及时并基于所有可获得的信息”。

一些人工智能设备的测试比其他的更仔细。

在2018年获得批准之前,研究人员对10家初级保健诊所的900名患者进行了一项人工智能筛选糖尿病眼病的研究。IDx Technologies公司的创始人兼执行董事长迈克尔?阿布拉莫夫(Michael Abramoff)博士说,该公司与FDA合作了八年,才把产品做好。

该测试以IDx-DR的形式出售,对糖尿病视网膜病变患者进行筛查,这是导致失明的主要原因之一,并将高危患者介绍给眼科专家,由他们做出最终诊断。

IDx-DR是第一个“自主”的人工智能产品,它可以在没有医生的情况下做出筛查决定。该公司目前正在初级保健诊所和杂货店安装该系统,在那里,拥有高中文凭的员工可以操作该系统。艾布拉姆的公司采取了不同寻常的措施,购买了责任保险来覆盖任何病人的伤害。

然而,一些旨在改善医疗服务的人工智能创新却产生了相反的效果。

例如,一家加拿大公司开发了一款人工智能软件,根据一个人的语言来预测他患老年痴呆症的风险。对某些病人的预测比其他病人更准确。研究报告的撰写者之一、多伦多大学计算机科学副教授弗兰克•鲁兹兹说:“找不到合适的词可能是由于不熟悉英语,而非认知障碍。”

纽约西奈山医院的医生们希望人工智能能帮助他们使用胸透来预测哪些病人有患肺炎的高风险。尽管该系统从西奈山拍摄的x光照片中做出了准确的预测,但在其他医院进行的图像测试中,这项技术却失败了。最终,研究人员意识到,这台电脑只是学会了区分医院在病人床边拍摄的便携式胸透和在放射科拍摄的胸透。医生们倾向于对病情严重到无法离开房间的病人进行便携式胸部x光检查,所以这些病人有更大的肺部感染风险也就不足为奇了。

企业家的工作是大胆思考和承担风险,而医生的工作是保护病人。

非营利组织洛恩研究所(Lown Institute)的主席、心脏病学家维卡斯·塞尼(Vikas Saini)博士主张扩大医疗保健的覆盖面

谷歌旗下的DeepMind开发了一款基于人工智能的移动应用程序,可以提前48小时预测哪些住院患者会出现急性肾衰竭。DeepMind网站上的一篇博客文章将伦敦一家医院使用的这一系统描述为“游戏规则的改变者”。但是,根据《自然》杂志7月份的一项研究,人工智能系统也会对每一个正确的结果产生两次错误警报。宾夕法尼亚大学附属医院放射学副教授Saurabh Jha博士说,这或许可以解释为什么患者的肾功能没有改善。Jha说,早期发现严重肾脏问题的任何好处都可能被高比率的“过度诊断”所稀释,在这种情况下,人工智能系统会标记出不需要治疗的边缘肾脏问题。谷歌对Jha的结论不予置评。

Jha说,假阳性可能会促使医生下令进行不必要的检查或停止推荐的治疗,从而对患者造成伤害。例如,医生担心病人的肾脏可能会停止开布洛芬——一种对肾功能有小风险的安全止痛药——转而开阿片类药物,这种药物有严重的成瘾风险。

正如这些研究表明的那样,在计算机实验室中取得令人印象深刻结果的软件在实时测试时可能会失败,斯坦福大学的Cho说。这是因为疾病比许多计算机科学家预期的要复杂得多,而卫生保健系统的功能失调也要严重得多。

赵承熙说,许多人工智能开发人员会剔除电子健康记录,因为它们包含了大量的详细数据。但是这些开发人员通常没有意识到他们是在一个严重损坏的系统上构建的。电子健康记录是用来记账的,而不是用来照顾病人的,其中充满了错误或缺失的数据。

KHN今年3月发布的一项调查发现,患者的用药清单、实验室检查和过敏有时会出现危及生命的错误。

非营利组织洛恩研究所(Lown Institute)的主席、心脏病学家维卡斯塞尼(Vikas Saini)博士说,考虑到其中的风险,医生需要介入,保护病人的利益。洛恩研究所主张扩大医疗保健的覆盖面。

推荐内容