【Cancer Cell】综述：人工智能 vs 肿瘤多模态数据整合

>>> 1. AI论文免费大纲 10分钟3万字! >>> 2. 免费AI论文写作润色! >>> 3. 学术导航推荐

撰稿 | 王蕴泽‍‍‍‍‍‍‍

责编 | 刘坚连晨

2022年10月10日，来自哈佛大学和麻省理工学院癌症研究所的Jana Lipkova等人在Cancer Cell上发表了题为 “Artificial Intelligence for multimodal data integration in oncology”的综述。这篇综述先介绍了肿瘤学中常用的人工智能方法，然后描述了目前人工智能技术驱动的多模态数据融合在肿瘤学中的应用，及其在临床实践中面临的挑战与新兴的解决方案。

研究背景

在肿瘤学中，患者状态的特征包括各种模态，如放射学、组织病理学、基因组学到电子健康记录，具体如图一所示。然而目前的人工智能模型主要在单一模态的领域内运作，忽视了更广泛的临床背景，这不可避免地降低了它们的潜力。不同数据模态的集成为提高诊断和预后模型的鲁棒性和准确性提供了机会，使人工智能更接近临床实践。人工智能模型还能够发现解释患者预后或治疗耐药性差异的模态内和跨模态的新模式。从这些模型中收集到的见解可以指导探索研究，并有助于发现新的生物标志物和治疗靶点。

图一：AI驱动

研究结果

一、肿瘤学中的常用的人工智能方法

人工智能方法可以分为有监督、弱监督和无监督学习三种范式，如图二所示。

1.监督学习方法

有监督的方法将输入数据映射到预定义的标签(癌症/非癌症)，使用带注释的数据点，如带有像素级注释的数字化幻灯片，或带有患者结果的放射学图像。完全监督方法的例子包括手工制作和表示学习方法。

A)手工制作的方法

这些方法使用预定义的特征集合作为输入，而不是直接使用原始数据进行训练。特征提取是通过对数据进行预处理来实现的，例如提取单元格的形状或大小等特征。模型通常采用标准的机器学习算法进行训练，如随机森林、支持向量机或多层感知器。由于特征提取与模型训练分离，因此模型通常具有简单的结构、较低的计算成本和高水平的可解释性。然而，特征提取是一项耗时的任务，可能会引入人类的偏见。此外，手动特征提取限制了模型对未知特征的利用，使其难以应对新的数据和任务。尽管深度学习方法流行，但在许多情况下，由于手工特征提取的简单性和对小型数据集的适应性，这些方法仍然是首选。

图二：AI方法概览

B)表示学习方法

在深度学习方法中，如卷积神经网络（CNNs），模型能够从原始数据中学习丰富的特征表示，而无需进行手动特征工程。CNNs通常用于图像分析，其架构包括交替的卷积、池化和非线性激活层，以及少量的完全连接层。卷积层用于特征提取，池化层用于压缩特征表示，非线性激活函数允许模型探索复杂的特征之间的关系。CNN的优势包括能够从原始数据中提取丰富的特征表示，减少预处理成本，提高灵活性，并通常优于手工制作的模型。然而，CNN的局限性包括对像素级注释的依赖，可能受到评估者之间的变异性和人类偏见的影响，以及对一些临床结果的预测区域可能是未知的。CNN也常常因缺乏可解释性而受到批评，但尽管有这些限制，它们在许多临床相关应用中表现出令人印象深刻的性能，得到广泛应用。

2.弱监督学习方法

弱监督学习是监督学习的一个子类别，它对大型数据簇进行批处理注释，本质上代表了监督信号比数据集中的噪声量较弱的情况。弱监督的一个常见例子是，在活检或切除的大像素整张玻片或病例的图像中，在玻片或病例中检测到小肿瘤区域。弱监督方法允许使用弱患者级标签（如诊断或生存）训练模型，避免需要手动数据注释。最常见的弱监督方法包括图形卷积网络（GCNs）、多实例学习（MIL）和Vision Transformer（VITs）

A)图卷积网络

图形可用于捕获数据结构并编码对象之间的关系，是分析组织生物医学图像的理想选择。图由连接的节点和边组成，节点可以代表细胞、图像补丁或组织区域。边编码节点之间的空间关系和交互作用。这些图可以与患者水平的标签结合，由图卷积网络（GCN）处理，类似于在非结构化图上操作的CNN的泛化。在GCN中，节点的特征表示通过聚合相邻节点的信息来更新，并作为最终分类器的输入。与传统的数字病理深度模型相比，GCNs可以包含更大的背景和空间组织结构，将图像补丁分解为相互交错的小区域，适用于超出单个补丁范围的空间上下文任务（例如，Gleason分数）。然而，GCN中节点之间的相互依赖性增加了训练成本和内存需求，因为这些节点不能独立处理。

B)多实例学习（MIL）

MIL是一种弱监督学习，输入的多个实例没有单独标记，监督信号仅适用于一组通常作为袋提供的实例袋的标签，假设为阳性，如果袋中至少有一个阳性实例。模型的目标是预测包的标签。MIL模型包括三个主要模块：特征学习或提取、聚合和预测。第一个模块用于将图像或其他高维数据嵌入到低维嵌入中，该模块可以进行动态训练或预先训练，来自监督或自监督学习的编码器可用于减少训练时间和数据效率。实例级嵌入被聚合以创建患者级表示，并作为最终分类模块的输入。一个常用的攻击策略是基于注意力的池化，其中使用两个完全连接的网络来学习每个实例的相对重要性。由相应的注意力评分加权的补丁水平的表示被总结，以建立患者水平的表示。注意力分数也可以用于理解模型的预测基础。在大规模的医疗数据集中，通常没有精细的注释，这使得MIL成为训练深度模型的理想方法，在癌症病理学和基因组学中已有几个最近的应用。

C)Vision Transformer（VITs）

VITs是一种注意力机制学习类型，与MIL相比，VITs考虑了补丁之间的相关性和上下文。其主要组成部分包括位置编码、自我注意和多头自我注意。通过将WSI转换为带有位置信息的补丁，并使用可学习的编码器映射到标记化的向量中，VIT体系结构实现了幻灯片级表示用于分类。变压器编码器由堆叠的相同块组成，包括多头自我注意和MLP，以及层归一化和残差连接。尽管VIT具有合并空间信息、增加上下文和鲁棒性的优点，但通常对数据需求较高。弱监督方法可以降低数据预处理成本、减轻偏差和评估者之间的可变性，并且适用于大型数据集、不同任务和未知预测区域。这些方法能够自动识别出预测特征，甚至超出了病理学家通常评估的区域，证明了在没有昂贵手工注释或特征工程的情况下实现了良好的性能。

3.无监督学习方法

无监督的方法探索数据中的结构、模式和子组，而不依赖于任何标签。这些策略包括自我监督的策略和完全无监督的策略。

A)自监督学习方法

自监督方法旨在通过将学习问题构建为基于数据中定义的基本任务来学习丰富的特征表示。这种编码器通常用于获取复杂高维数据集的高质量低维嵌入，从而提高下游任务的数据间隔和训练效率。在病理图像中，自监督方法利用未标记数据来学习高质量的图像特征，然后将这些知识转移到监督模型中。为实现这一目标，可以使用监督方法（如CNN）解决各种代理任务，并从数据中自动生成标签。例如，可以从图像中删除一个补丁，并训练深度网络来预测图像周围环境中缺失的部分。尽管贴片预测本身没有直接的临床相关性，但它有助于指导模型学习图像特征的通用表示，从而可能有利于其他实际任务。网络的早期层通常捕获一般的图像特征，而后续层则选择与特定任务相关的特征。后续层可以被排除在外，而早期层则作为监督模型的特征提取器。

B)无监督分析方法

这些方法允许跨数据点进行结构、相似性和共同特征的探索。例如，利用预先训练的编码器的嵌入，可以从不同患者的大数据集中提取特征，并对这些嵌入进行聚类，以找到整个患者队列的共同特征。最常见的无监督方法包括聚类和降维。聚类方法将数据划分为子组，以最大化子组内的相似性和子组之间的分离。尽管输出聚类不是针对特定任务的，但它们可以揭示不同的癌症亚型或患者亚组。降维的目的是获得捕获数据中主要特征和相关性的低维表示。

二、人工智能驱动的多模态数据融合方法

多模态数据融合旨在提取和整合不同模态之间的互补上下文信息，以促进更好的决策。在医学上，这一方法尤为重要，因为同一发现在一个模态中可能有不同的解释。例如，单独使用IDH1突变状态或组织学特征可能无法充分解释患者预后的差异，因此将它们结合起来已被用于重新定义WHO弥漫性胶质瘤的分类。人工智能提供了一种自动化和客观的方法，可以整合来自不同数据的互补信息和临床背景，从而改进预测。多模态数据驱动的人工智能模型还能够利用不同模态中的补充信息，以增强预测的鲁棒性和准确性，尤其是在单一模态数据存在噪声或不完整的情况下。如图三所示，人工智能驱动的数据融合策略通常分为早期、晚期和中期阶段。

1.早期融合

早期融合在输入级别整合了来自所有模态的信息，并将其输入到单一模型中。这些模态可以是原始数据、手工制作或深度特征。联合表示通过向量连接、元素和、元素乘法等操作或双线性池来建立。早期融合简化了设计过程，因为只需训练一个模型。然而，这种方法假设单一模型适合于所有模态。早期融合需要模态之间的一定程度的对齐或同步，尤其在临床设置中，例如，如果模态来自不同的时间点，早期融合可能不适合。早期融合的应用包括集成类似的模式，例如多模态超声图像用于乳腺癌检测或结合CT和/或MRI数据与PET扫描进行癌症检测、治疗计划或生存预测。其他例子包括影像数据与电子病历的融合，例如，整合皮肤镜图像和患者数据用于皮肤病变分类，或宫颈视图和电子病历的融合用于宫颈发育不良诊断。

2.晚期融合

晚期融合，又称决策级融合，通过为每个模态训练独立模型，再汇总预测结果，实现最终决策。聚合方式包括平均、多数投票、基于贝叶斯的规则或学习模型，如MLP。后期融合允许不同模态使用不同模型架构，适用于异构数据或来自不同时点的模态。即使数据不完整，后期融合也能保留预测能力，通过多数投票处理缺失模态。个体模型误差通常不相关，可降低偏差和方差。在信息密度不均的情况下，主要模态会影响预测，而后期融合可通过设置权重调整每个模态的贡献。例子包括MRI与PSA血液检测、组织学扫描与患者性别融合、基因组学与组织学特征融合等。

3.中期融合

中期融合是一种多模态模型策略，其核心思想是将损失传播回每个模态的特征提取层，以在多模态环境中迭代地改进特征表示。相较于早期和晚期融合，中期融合具有更高的灵活性和适用性。它能够在不同的抽象层次上结合不同模式，包括渐进融合和引导融合渐进融合允许将来自高度相关通道的数据在同一水平上结合，迫使模型考虑特定模式之间的相互关联，然后在后续层中与相关性较低的数据进行融合。而引导融合则利用一个模态的信息来指导另一个模态的特征提取，例如，在癌症生存预测中，利用基因组学信息指导组织学特征的选择已被证明是有效的。在多种癌症类型的生存预测中，各种融合类型均有所应用，包括基因组学数据与组织学或乳房X光片图像的结合，以改善生存预测。此外，不同放射学方式的引导融合也用于改善肝脏病变和乳腺组织异常的分割。电子病历还被用于指导从皮肤镜和乳房X光检查图像中提取特征，以提高病变的检测和分类准确性。虽然目前没有确凿的证据表明哪种融合类型在所有情况下都优于其他类型，但各种融合类型都是根据具体数据和任务的特点而设计的，因此在不同场景下都有其适用性和优势。

图三：3种多模态数据融合方法

三、多模态数据的可解释性

可解释性和模型内省是人工智能开发、部署和验证的一个关键组成部分。由于人工智能模型具有学习抽象特征表示的能力，人们担心这些模型可能会使用虚假的快捷方式预测，而不是学习与临床相关的方面。这种模型在呈现新数据时可能无法推广或歧视某些人群。另一方面，这些模型可以发现新的和临床相关的见解。在这里，我们简要概述了肿瘤学中用于模型自省的不同方法，具体如图四所示，更多的技术细节可以在最近的一篇综述中找到。值得指出的是，这些方法允许我们在进行预测决定时对模型认为重要的部分数据进行反思，但特征表示本身仍然是抽象的。

1.组织病理学数据可解释性

VITs和MIL方法通过对组织病理学图像的分析，确定了每个图像补丁对于模型预测的相对重要性。这种方法的优势在于不需要人工注释，而是让模型自动学习识别癌症亚型的形态学特征，并能区分正常和恶性组织。CAMs方法（如GradCAM或GradCAM++）结合了引导反向传播方法，能够准确地确定模型预测区域内像素级的重要性，从而在癌症亚型分类等任务中具有重要的应用价值。

2.影像学数据可解释性

在放射学中，类似的可解释性方法被用于分析3D扫描中的幻灯片，并预测胶质瘤患者的生存率。MIL模型将三维MRI扫描看作一个袋子，单独建模轴向滑动片，从而帮助模型准确区分肿瘤切片和健康组织，无需人工注释。

3.生物分子学数据可解释性

分子数据的可解释性分析利用了综合梯度法，通过计算归因值来说明特定输入对模型输出的影响。在生存分析等回归任务中，归因值能够反映出特征的重要性大小和方向，进而以条形图或归因图的形式进行可视化，帮助理解影响预测结果的关键基因组学特征。

4.多模态数据可解释性

对于多模态数据，归属图等方法可以确定每个模态对于模型预测的贡献程度。这些方法能够帮助了解不同数据模态的重要性，并探索在单模态和多模态环境下特征重要性的变化。尽管这些可解释性方法有一定的局限性，例如无法准确解释高注意力/归因区域的临床相关性，但它们仍然是深入理解模型行为和预测结果的有力工具。在实际应用中，需要结合临床专家的知识来正确解释这些结果。

图四：多模态的可解释性

四、多模态数据互作

多模式数据互连的目的是揭示跨模式的关联和共享信息。这些关联可以为癌症生物学提供新的见解，并指导新的生物标志物的发现。存在许多数据探索的方法，在这里我们说明了一些可能的方向，具体如图五所示。

1.形态学关联

人工智能通过分析图像数据，如病理切片或医学影像，识别肿瘤形态学特征与遗传突变之间的关联。这种关联可以帮助预测肿瘤的代谢活性和生物学行为，为肿瘤诊断和治疗提供新的生物标志物替代方案。例如，人工智能模型可以从组织学图像中推断出肺癌、肝癌、结直肠癌等肿瘤的突变状态，为临床医生提供更准确的诊断和治疗建议。

2.非侵入性替代

人工智能模型发现了医学影像特征与组织学亚型之间的关系，为癌症诊断提供了非侵入性替代方法。通过分析放射组学特征，例如肿瘤的纹理和形态，人工智能可以帮助医生更准确地识别不同类型的肿瘤和其分级，为患者制定个性化的治疗方案提供了新的途径。

3.结果关联

人工智能模型不仅能够预测肿瘤患者的临床结果，如生存率和治疗反应，还能够发现临床和分子特征之间的相关性。通过解释性方法，例如注意力热图和归因图，人工智能可以揭示肿瘤形态学特征与患者预后之间的关联，为个性化医疗提供新的见解和策略。

4.早期预测因子

人工智能不仅可以分析临床数据，如电子病历，还可以利用可穿戴设备监测患者的生理参数。通过整合多源数据，人工智能可以发现患者在诊断前的潜在预测因子，为早期诊断和干预提供支持。例如，人工智能可以分析患者的电子病历和可穿戴设备数据，识别出胰腺癌高危患者，并预测患者的治疗反应和住院时间，为临床决策提供了有力的参考。

图五：多模态数据互联

五、人工智能技术在肿瘤学中的挑战

人工智能进入临床实践的道路仍然充满了障碍，其中许多障碍在多模态数据存在的情况下被放大。虽然最近的一些工作讨论了挑战，如公平性和数据集转移，或监管指南，这里我们关注多模式学习特有的挑战。

1.缺少数据

医学AI需要大量的数据来训练和部署模型，但现实中常常面临数据缺失的问题。这种挑战不仅限制了模型的性能，还影响了医学决策的准确性和可信度。解决数据缺失主要有两种策略：

A)合成数据生成

通过合成缺失信息来增强数据集，从而弥补数据缺失的不足。合成数据生成技术包括使用已有数据中的信息来填补缺失的数据点，或者利用无监督学习方法如生成对抗网络（GANs）来生成合成数据。然而，合成数据的应用范围受到一定限制，尤其在结果预测和生物标志物探索方面存在挑战。

B)基于Dropout的方法

通过使模型对缺失信息具有鲁棒性来处理不完整的数据。胚胎网络模型是一个典型的例子，它可以在训练和部署过程中处理缺失数据，通过随机选择部分信息并将其组合成单一表示向量来提高模型的鲁棒性。

2.数据对齐

医学AI需要整合来自不同来源、不同模态和不同规模的数据，这就需要进行有效的数据对齐。本节将深入研究数据对齐的挑战和解决方案：

A)类似模态的对齐

涉及到同一系统的不同成像方式的对齐，通常通过图像配准等技术来实现。然而，面临着解剖结构、变形等挑战，特别是在涉及运动和变形的情况下。

B)不同模态的对齐

跨模态自动编码器等技术能够将来自不同数据源的数据集成和转换，为不同模态数据的对齐提供了一种有效方法。

3.透明度和前瞻性临床试验

医学AI技术的透明度和安全性至关重要。本节将讨论通过严格的前瞻性临床试验来验证模型的性能，以确保医学AI技术的有效性和安全性。这些试验能够评估模型在真实世界条件下的表现，促进医生对AI工具的信任和使用。

简评

这篇综述充分描述了人工智能驱动的多模态整合技术在肿瘤学中的强大潜力。具体地，人工智能算法通过充分挖掘各个模态数据内的特征以及各个模态数据间的特征，从而能够更加充分地对肿瘤学进行建模，最终推动精准医疗的发展。同时，该综述还描述了人工智能算法中可解释性和透明性的重要性以及临床实践的各种挑战，以及它们对于推动医学进步的必要性。

——王蕴泽

原文链接：

https://www.sciencedirect.com/science/article/pii/S153561082200441X

点击文末 “阅读原文” 即可查看

参考文献

Lipkova J, Chen R J, Chen B, et al. Artificial intelligence for multimodal data integration in oncology[J]. Cancer cell, 2022, 40(10): 1095-1110.

专栏 · 推荐

肺鳞癌 | 生信工具系列

肺鳞癌 | 组学研究系列
肺鳞癌 | 肿瘤微生物系列

肺鳞癌 | 临床诊断系列

肺鳞癌 | 免疫微环境系列

肺鳞癌 | 前沿技术系列

肺鳞癌 | 分子机制系列

转载须知

【原创文章】“肺鳞癌”原创文章，欢迎个人转发分享，未经允许禁止转载，所刊登的所有作品的著作权均为“肺鳞癌”所拥有。“肺鳞癌”保留所有法定权利，违者必究。转载及合作：[email protected]

关于我们

ABOUT US

本公众号由浙江大学国际校区ZJE-刘坚课题组创办，聚焦于肺鳞癌分子作用机制，关注并发布最新肺鳞癌领域前沿进展，包括诊断、靶向治疗，旨在打造一个良好的肺鳞癌科研共享平台。请关注我们的肺癌三维基因组多组学网站（http://www.lungcancer3d.net/)。

扫描二维码

立即关注

微信号 : LUSC_2021-

邮箱：[email protected]

【Cancer Cell】综述：人工智能 vs 肿瘤多模态数据整合

相关推荐

评论抢沙发

归档

分类目录

相关推荐

评论 抢沙发

归档

分类目录

评论抢沙发