原文
Acosta, J.N., Falcone, G.J., Rajpurkar, P. et al. Multimodal biomedical AI. Nat Med 28, 1773–1784 (2022). https://doi.org/10.1038/s41591-022-01981-2
摘要
目前,大部分人工智能在医学领域的应用方式是使用数据模型解决狭义定义的任务,如计算机断层扫描(CT)扫描或视网膜图片。相反,临床医生在诊断、评估预后和制定治疗计划时,需要处理来自多个数据来源和模型的信息。此外,目前的人工智能评估通常是一个单一的快照,基于评估执行的某个时间点,不能将健康状况看作一个连续的状态。然而,从理论上而言,人工智能模型应该可以使用临床医生通常可用的全部数据源,甚至是大多数临床医生不能使用的数据源,例如基因组医学。
结论
多模态医疗 AI 的发展开启了许多医疗保健领域的关键应用。但是,目前相对于收集存储数据,在数据分析方面有更大的挑战。
多模态AI的机会
精准健康的个性化“组学”
随着科学领域的发展,WGS 的效益成本比将变得越来越有利,这将促进临床和生物标志物数据与现有的遗传数据的结合,从而加速诊断曾经难以检测的疾病。最终,开发涵盖多维组学数据的多模式 AI 将使我们能够实现对个体进行深入表型分析的目标;换句话说,我们将能够真正了解每个人生物学特性以及其对健康的影响。
电子临床试验
可穿戴技术数据(包括心率监测、睡眠监测、身体活动监测、心电图、血氧饱和度监测和血糖监测)以及支持智能手机的自我报告问卷数据,可以用于监测临床试验患者,识别不良事件,或者确定试验结果。合并来自不同可穿戴传感器的数据与临床数据仍然是一项挑战和机遇。电子临床试验可以利用多个参与者数据来源实现自动表型分析和分组,这对于使用正在进行的结果实时修改试验设计非常有益。值得注意的是,谷歌最近在时间序列分析方面的工作表明,基于注意力的模型架构可以结合静态和时间相关的输入,以实现可解释的时间序列预测。
远程监控“在家就医”
最新的生物传感器技术、持续监测和分析进展,增强了在个人家庭中模拟医院环境的可能性。这有望降低成本,减少对医疗保健人员的需求,防止医院感染和医疗差错,并且可以在家庭中得到舒适、便捷和情感支持。
大流行监测和爆发检测
当前的 COVID-19 疫情凸明了在国家和州层面上进行有效传染病监控的重要性。一些国家已成功整合了来自移民地图、手机使用和医疗服务数据的多模态数据,以预测疫情蔓延和确定潜在来源。
数字孪生
目前,我们依赖临床试验证明干预措施的效果。干预措施对100人中的10人有效,但对其他90人没有证实效果。“数字孪生”是一种补充方法,通过利用大量数据来精确预测某种治疗干预对特定患者的益处或危害。正确有效的数字孪生技术的发展需要收集大量多样的多模态数据,从组学数据、生理传感器到临床和社会人口统计学数据。
虚拟健康助手
近期对以健康为中心的对话代理应用的评测发现,其中大部分依赖于基于规则的方法和预定义的程序控制的对话。通过多个数据源的成功整合,人工智能模型将促进广泛关注的个性化虚拟健康助手的发展。
这些虚拟健康助手可以利用基于基因组测序、其他组学层、血液生物标志物和代谢物的持续监测、生物传感器和其他生物医学相关数据的个性化配置文件,来促进行为改变、回答健康相关问题、分类症状,并在适当的时候与医疗保健提供者进行沟通。重要的是,这些支持人工智能的医疗教练需要通过随机试验证明对临床结果的有益影响,才能在医学领域获得广泛认可。因为这些应用大多数都关注于改善健康选择,因此他们需要提供对健康行为的影响的证据,这是转化大多数干预措施成功的最终途径。
多模态AI的挑战
建模挑战
多模式机器学习是机器学习的一个分支,旨在研发和训练能够使用多种数据类型的模型,并学习多模式之间的关系或将它们结合起来,以提高预测性能为目标。一种有前景的方法是学习不同模式相似的准确表示(例如,图片中的一个苹果应该与“苹果”这个词类似地表示)。2021年初,OpenAI发布了一种称为对比语言图像预训练(CLIP)的架构,该架构在训练数百万图像-文本对时。这种配对图像-文本共同学习的方法最近被用于从胸部X光片及其相关文本报告中学习,优于其他自我监督和完全监督的方法。其他架构集成了来自图像、音频和文本的多模式数据,例如Video-Audio-Text Transformer,它利用视频获得成对的多模式图像、文本和音频,并训练能够在多任务中得到良好泛化的准确多模式表示。
多模式学习框架的另一个理想特点是能从不同模式中学习,无需不同的模型架构。理想情况下,一个统一的多模式模型将包含不同类型的数据,如图像、生理传感器数据、结构化和非结构化文本数据等,以灵活稀疏的方式处理,即仅激活网络的一小部分,学习哪些部分应该处理每个任务。此外,它还能生成对齐的表示,比如图片和”狗”这个词应该产生类似的内部表示,以满足任务所需的任意类型的输出。
过去几年中,已经从具有单模态偏向的架构(例如用于图像的卷积神经网络或用于文本和生理信号的递归神经网络)转变为 Transformer,该架构已经证明在各种输入和输出模式和任务中表现良好。Transformers 背后的关键策略是允许神经网络在处理和做出决策时动态地关注输入的不同部分。
Transformer 架构使我们能够统一跨模态学习的框架,但仍需要专门针对模态的标记和编码。Meta AI 最近的研究中提出了一个统一的自我监督学习框架,它不受感兴趣的模态的影响,但仍需要对每个模态进行特殊的预处理和训练。自监督多模式学习的基准使我们能够衡量跨模式方法的进展,例如:最近提出的领域不可知基准(DABS)包括胸部 X 光、传感器数据、自然图像和文本数据。Alphabet 旗下的 DeepMind 最近推出了 Perceiver 和 Perceiver IO,它们提供了一个框架,使用相同的骨架结构实现跨模式学习。
Transformer 有着巨大的前景,因为它可以利用未标记的数据来学习有意义的表示,这对于生物医学 AI 来说非常重要,因为获得高质量标签的资源是有限且昂贵的。许多方法都需要来自不同模态的对齐数据,例如图像-文本对。DeepMind 的研究表明,管理高质量的图像-文本数据集比生成大型单模态数据集以及其他方面更重要。然而,在生物医学 AI 中,这些数据可能难以获得。一种可能的解决方案是利用来自一种模式的数据来帮助学习另一种模式,这种多模式学习任务被称为“共同学习”。例如,有研究表明,在未标记语言数据上预训练的转换器可以很好地泛化到其他范围广泛的任务。在医学领域,一种名为 CycleGANs 的模型架构已经在未配对的对比和非对比 CT 扫描上进行了训练,并被用于生成合成的非对比或对比 CT 扫描,这种方法显示出了改进,例如在 COVID-19 的诊断中。
在多模态学习中,组合不同模态的数据被越来越多地使用,这样不仅能提高预测性能,而且能够替代仅仅将几种模态分别输入模型的简单做法。这个过程称为“多模态融合”。融合可以在不同阶段进行,从最简单的连接输入模态或特征的“早期融合”到训练过程中组合不同模态表示的“联合融合”,再到为每个模态训练单独模型并结合预测概率的“后期融合”。
一个具体的例子是,来自DeepMind的研究团队使用了一个基于EHR的高维数据集,该数据集具有620,000个维度,并将其投影到一个800维的连续嵌入空间,以在6小时的时间范围内捕获所有患者的大量信息。通过使用循环神经网络,他们预测了随着时间的推移发生的急性肾损伤。许多研究已经使用了双模态融合来提高预测性能,比如影像和基于EHR的数据被融合以改进肺栓塞的诊断,光学相干断层扫描和红外反射视盘成像的融合更好地预测了
数据挑战
支持健康的多维数据带来了广泛的挑战,特别是在收集、链接和注释这些数据方面。医学数据集的描述可以沿多个轴展开,包括样本量、表型深度、随访时长和间隔、参与者之间的相互作用程度、参与者的异质性和多样性、数据的标准化和协调程度,以及数据关联量来源。尽管科学技术在数据收集和表型分析方面取得了重大进展,但是不可避免地需要权衡这些生物医学数据集的特征。实际上,实现种族/族裔、血统、收入水平、教育水平、医疗保健、年龄、残疾状况、地理位置、性别和性取向的多样性已经证明是困难的。生物医学数据中另一个普遍问题是缺失数据的比例通常很高。在研究健康数据收集过程中,识别和减轻产生多种偏差的风险非常重要,需要采用多种监测方法。
隐私挑战
多模态 AI 在健康领域的成功开发需要数据的广度和深度,这比单模态 AI 模型包含更高的隐私挑战。