透视人体并诊断癌症的核心在于“模式识别”。放射科医生通过X射线和磁共振成像(MRI)技术发现肿瘤,而病理学家则使用显微镜观察来自肾脏、肝脏等部位的组织样本,寻找能够揭示癌症严重程度、特定治疗效果以及恶性肿瘤可能转移路径的模式。
理论上,AI在这一领域有着巨大的潜力。梅奥诊所数字病理学平台的病理学家兼医学主任Andrew Norgan表示:“我们的工作本质上就是模式识别。我们通过观察组织切片来提取那些已被证明具有重要意义的信息片段。”自从15年前首批图像识别模型问世以来,AI在视觉分析领域的能力已经取得了显著进步。尽管目前还没有任何模型能够做到完美,但未来某天,一个强大的算法或许能够发现人类病理学家可能忽略的细节,或者加速诊断过程。
事实上,我们已经看到多个尝试构建此类模型的研究,仅在过去一年就有至少七项相关研究。本月早些时候,人工智能健康公司Aignostics与梅奥诊所合作开发的新模型“Atlas”发表在arXiv上。虽然该论文尚未经过同行评审,但它揭示了将此类工具应用于实际临床环境所面临的一系列挑战。
“Atlas”模型在来自49万例病例的120万份组织样本上进行了训练。研究人员将其与其他六种领先的AI病理模型进行了对比测试,例如分类乳腺癌图像或对肿瘤进行分级,将模型的预测结果与人类病理学家的正确答案相对比。结果显示,Atlas在九项测试中有六项表现优于竞争对手,特别是在对结直肠癌组织的分类中,它达到了与人类病理学家诊断一致性的97.1%;然而,在另一项任务中,Atlas对前列腺癌活检中的肿瘤分类虽然得分超过了其他模型,但也仅为70.5%。整体来看,在九项基准测试中的平均表现,它与人类专家相同的答案占比为84.6%。
就目前而言,了解癌变组织细胞状况的最佳方法仍然是由病理学家检查组织样本,因此AI模型的性能是以此为标准衡量的。尽管在某些检测任务中,最好的AI模型已经接近人类的水平,但在许多任务中仍然不及人类。Providence Genomics的首席医疗官、GigaPath联合创始人Carlo Bifulco表示:“90%的准确率可能还不够,需要更高的水平。”然而,Bifulco也指出,“即使AI模型未达到理想的准确性,在短期内仍可能带来帮助,比如协助病理学家加速诊断过程。”
训练数据匮乏是当前的主要挑战之一。“美国只有不到10%的病理学样本实现了数字化。”Norgan表示。这意味着大多数组织样本通常被放在玻片上,通过显微镜分析后存储在庞大的档案中,从未被数字化记录。虽然欧洲的病理样本数字化程度更高,并且已经在努力创建共享的组织样本数据集来供AI模型训练,但仍然缺乏多样化的数据。
缺乏多样化的数据会导致AI模型难以识别那些人类病理学家已经掌握的各种异常情况,这尤其影响罕见疾病的识别。Aignostics的联合创始人兼首席技术官Maximilian Alber指出:“对于这些罕见疾病的组织样本,在公开数据库中可能十年内只能找到20个样本,显然这远远不足以用来训练AI模型。”
另一个重大问题是活检组织样本的图像处理。活检组织样本的直径通常只有几毫米,但在显微镜下放大后,数字图像的像素数量可达到超过140亿,这使得这些样本的图像大小比目前用于训练最佳AI图像识别模型的普通图像大约大了287,000倍。微软AI研究员Hoifung Poon表示:“这意味着巨大的存储成本等问题。”
为了应对这一挑战,梅奥诊所决定将所有病理样本进行数字化,并将其档案中数十年来积累的1200万张经过患者同意的样本切片进行数字化。为此,他们还专门聘请了一家公司研发了一台机器人对这些组织样本拍摄高分辨率照片(每月能够处理多达一百万个样本)。通过这些努力,团队最终收集到了用于训练“Mayo模型”的120万份高质量样本数据。
针对癌症检测的AI模型应该以哪些基准作为评价标准也是一个重要问题。Atlas的研究人员在复杂的分子相关基准上测试了他们的模型,其中包括尝试从样本组织图像中寻找线索,从而推测分子层面发生的情况。例如,身体的错配修复基因在癌症发生和发展过程中扮演重要角色,这些基因负责修复DNA复制过程中出现的错误,但如果这些错误未被修复就可能加速癌症恶化。
如果AI能够预测分子层面的变化,那将显著提升病理诊断效率和精准度。然而,事实证明,答案是否定的,至少目前如此。在分子测试中,Atlas的平均准确率仅为44.9%。尽管这是迄今为止AI在该领域的最佳表现,但这一结果也意味着这项技术距离成熟和实际应用还有很长的路要走。
Bifulco表示,尽管Atlas只代表了渐进式的进展,但这确实是在进步。“遗憾的是,我感觉大家都在同一个水平上停滞不前,如果要实现显著的进展,我们需要在模型上有不同的突破,并且需要更大的数据集来训练这些模型。”