人工智能,能为成人脊柱畸形做些什么?

2020-02-22 文章来源:中南大学湘雅二医院脊柱外科 点击量:995   我要说

骨科在线版权所有,如需转载请注明来自本网站.

中南大学湘雅二医院脊柱外科 徐洁涛 王 冰 邝 磊

编者按

目前国内正处于抗击新冠疫情的关键时期,尤其是在复工返工阶段,在如何追踪并观察接触者、进行数据预测和新的流行病学传播模型上,人工智能(artificial intelligence,AI)已经发挥出了其相应的辅助作用,引起了大家关注。

由此及彼,近年来,AI在脊柱外科多个专业领域中也得到了快速的发展与应用。2019年,美国加州大学旧金山分校Joshi RS等在Neurospine上发表了《Artificial Intelligence for Adult Spinal Deformity》一文,就AI在成人脊柱畸形领域中的应用进行了详细文献回顾与分析,指出该技术在ASD个体化诊疗中具有光明前景。然而,鉴于ASD疾病的复杂性,如何理性看待与AI相关的脊柱外科研究成果以及其推广普及,业内可谓是仁者见仁、智者见智。为便于同道们更好地了解该研究,现将全文及点评翻译整理,并附上编者观点,不当之处,敬请指正!

骨科在线脊柱外科专业副主编 王 冰

前言

成人脊柱畸形(adult spinal deformity,ASD)是一种常造成严重疼痛和功能障碍的复杂脊柱疾患。其病因多样,包括退变性、特发性、先天性和医源性(脊柱手术史)等。诸多研究表明,采用手术治疗,可以有效矫正异常脊柱参数,从而显著改善患者、尤其是严重功能障碍者的生活质量(health-related quality of life,HRQoL)。为获得满意的畸形矫正,几乎所有病例都需要软组织松解和截骨术。僵硬ASD患者需行高等级三柱截骨术,此类技术往往伴随更大的手术侵袭、更高的并发症风险(包括围手术期和远期)、神经相关风险和更高的直接成本。

为控制风险和改善成本/效益比,近十余年来脊柱外科医生主要是依靠已有文献、广泛培训和个人临床经验向患者提供关于手术治疗ASD风险和收益建议。研究多采用简单的统计方法,如线性回归或逻辑回归,并给出在整个流行病学中的平均水平,这种方式与特定患者的相关性可能最弱。随着医疗朝着数字化和智能化方向发展,医学领域已逐渐采用计算技术来处理大数据,通过创建复杂的数学模型来描述似不相干变量之间的关系,其中以机器学习的应用最为广泛。

人工智能的理念是,当获得新数据并将其应用于未来新情况时,创建一个能够模仿我们不断学习能力的系统。作为人工智能的子集,机器学习包括在大量数据上的“训练”算法,并识别数据中的关系(图1)。当某个算法对前期获取的数据已完成了训练,则可应用已建立的模型对新数据进行特定的预测或决策。与传统的统计方法相比,机器学习模型对单个患者预期数据的适用性具有巨大的优势。传统的统计方法描述的是对大量不同患者群体的估计,而前瞻性效用很弱。因此,机器学习模型可以有效地增强外科医生,尤其是从事脊柱畸形的医生为患者提供有效咨询的能力。

图1. 人工智能及其相应子集

早期预测分析

1. 方法和统计

建立在机器学习算法上的ASD预测分析近年来取得了明显进步,结果有助于医生和患者进行更全面的术前讨论、手术决策与沟通。ASD预测分析内容包括预测术中、围手术期、术后并发症和研究成果。

诸多相关研究在开发各自的预测模型时都采用了类似的原则和方法。本文提到的所有研究中,最常用的技术主要是基于决策树的机器学习,其中根据目标变量(输出)构建分类或回归树。决策树学习的理念是将决策的算法建立一个树状模型(类似于一个流程图)(图2)。该树将从表现为关于项目(患者)的“分支”的观察(临床变量)延伸到表现为“树叶”的项目目标(预期的输出结果变量)的结论。

图2. 描述决策树分类器的示意图,以及如何迭代形成树结构来预测期望输出。在该图中,属性表示临床变量,箭头所示的属性值对应于给定属性/临床变量的不同观察值。最终结果/目标是期望的变量或预测(即并发症是/否)

为创建预测模型,这些决策树首先通过学习一个训练集来创建,该训练集常是整个数据集70%-80%的分区。创建后,使用验证集(通常是数据20%-30%的分区)对模型的参数进行微调。最终预测模型预测准确性的测试度量通常是派生于一个“测试集”,该“测试集”实际输出已知,并报告使用%准确性和曲线下面积(AUC)等度量(图3)。决策树学习概念的变化使分析更加稳健和可概括地(减少过度拟合)对新数据做出预测。这些变化包括使用引导,训练阶段创造决策树的随机样本数据和随机森林算法——对实际决策树算法的一个小修改,该算法随机选择一个特征子集(变量),并构建具有不同结构的决策树,以找到预期输出的最强预测因子。集成方法,如随机森林或自举决策树,结合几种不同的学习算法(不同结构的树),创建一个更强大的分类器,将有更好的预测价值和更低的方差。

图3. 流程图展示了在机器学习模型开发过程中使用的培训、验证和测试的一般流程。该图显示了如何从原始数据生成训练数据,然后将训练数据(通常是80/20)分成训练集和验证集,通常使用一种称为交叉验证的技术。将训练数据随机分割80/20 k次,使模型从训练集中学习,然后利用验证集k次进行参数调优;最后对所学习的模型进行平均选择最优模型。然后得到的模型在一个不同的测试集上进行测试,以进行最终的性能评估,通常由%的准确性和曲线下的面积值表示。该模型可用于对新数据进行预测

2. 优势、限制和缺陷:统计模型vs机器学习

虽然统计模型与医疗结果分析高度相关,但它们在适用性方面确实存在一些限制,特别是与机器学习相比。统计建模和机器学习之间的主要区别在于它们的数据需求、对生成模型解释和理解的难易程度。统计建模的目的是解释或推断模型中变量之间的关系。另一方面,机器学习的强大之处在于它能够处理大量不同变量的大量数据,生成对特定结果的高精度预测。统计模型虽然预测结果的准确性较低,但通常更容易解释,而机器学习模型较为复杂。

在医学分析领域,机器学习方法和统计建模之间的一个关键区别在于它们对数据的不同需求。一般来说,统计可以应用于相对较少的数据,同时仍然允许对变量之间的关系做出合理的推断。而另一方面,为了有效地创建预测模型,机器学习需要大量的数据,然后通过随后添加新数据来改进预测模型。但在脊柱外科中缺乏大量的前瞻性收集的数据集,因此应该谨慎地看待后面描述的一些预测模型,在没有提供足够的数据来训练机器学习模型时,预测的准确性可能会有很大的差异。此外,考虑到目前存在的应用机器学习易于访问的应用程序,这些模型背后诸多细微之处常为普通用户所忽略。其中包括谨慎管理以不同形式存在的数据(合并症、实验室结果、二变量结果、自由文本等),以及忽略模型和参数培训。

在医学领域通常会遇到等级不平衡的问题,导致我们的预测严重偏倚。此外,没有经过足够样本容量训练的模型可能会受到过度拟合的阻碍,这意味着该模型可以有效地描述现有数据,但不能以同样的准确性推断新数据。数据科学家利用许多常见的技术来规避这些缺点,其中最常见的是需要对所需模型进行适当的培训、验证和测试。在机器学习模型的开发过程中,对参数校准和调优的不恰当缺失可能会导致错误的结论,因此医生和研究人员必须注意。

3. 围手术期分析和结果

预测分析主要应用于评估术后结果,Durand等研究了1029名ASD患者,建立了一个预测模型,用于预测术中术后输血。单一决策树和随机森林模型都是在824名患者的训练集上开发的,并在205名患者的验证集上进行了测试。最终的分类树模型和随机森林模型的AUC分别为0.79和0.85,两种模型之间没有显著差异。由此产生的模型可以为外科医生提供准确的工具来预测ASD患者的输血率,从而为合理手术计划提供依据。研究还建立了评估住院时间(LOS)和主要早期并发症的模型。在Scheer等的研究中,使用来自557例ASD患者的人口学基线资料、影像学和手术因素的45个变量,建立了早期并发症(术中和术后6周内)的预测模型。使用5个不同的引导模型训练了一组决策树,并使用70:30的数据分割完成了内部验证。模型拟合良好,总体精度为87.6%,AUC为0.89。Safaee等曾经利用653例来训练一个广义线性模型(改进线性回归用于非正态的任意分布的样本)预测ASD手术后住院时间,并在另一组240名患者的测试集中进行验证。75.4%预测为实际住院时间2天内。

我们亦建立了预测模型来评估ASD患者的手术结果,包括:近端交界性失败(PJF)或近端交界性后凸(PJK)、假关节以及术后2年的主要并发症。Scheer等在510例ASD患者中首次建立PJF或PJK预测模型。决策树使用5个引导模型进行训练,并通过70:30的数据分割进行内部验证,以进行模型训练和测试。总体模型准确率为86%,AUC为0.89,说明预测模型在ASD中具备可行性和实用性。Yagi等同样使用10个不同的引导决策树的一个整体,但也包括骨密度作为变量生成预测模型,该预测模型在测试集中100%准确。除了PJK和PJF,预测分析也被应用于ASD手术的假关节预测。Scheer等将同样的集合决策树学习方法从引导模型中应用于336例ASD患者。在最初评估的82个变量中,有21个变量被用于模型生成,经测试,在2年随访中,预测假关节的准确率为91%,AUC为0.94。Yagi等进行了一项类似的研究,以预测195名接受手术治疗的ASD患者在2年随访时的任何主要并发症。使用类似的集成方法,通过70:30分割训练和测试决策树,测试精度达92%,AUC为0.96。

预测分析也被用来预测胸腰椎ASD术后生活质量测量和颈椎序列。Passias等对225例ASD胸腰椎畸形手术建立了一个预测相互变化的模型,特别是预测颈椎序列。建立的多变量逻辑逐步回归模型,生成AUC为89%的预测胸腰椎矫正手术后颈椎畸形的模型。结果显示,患者术前C2-T3 cobb角基线升高(odds ratio[OR],1.048;p=0.005)以及术中使用的SPO截骨术的数量(OR,1.336;p=0.017)均与术后颈椎序列不良显著相关。关于ASD患者的生活质量结果,Oh等是最早应用预测分析来确定患者术后如何使用患者导出指标的人群之一。与之前的研究相似,研究者使用决策树对234名ASD患者进行2年的随访,共有46个变量用于模型开发。使用70:30的数据分割进行训练和内部验证,他们的模型在预测哪些患者术后2年Oswestry功能障碍指数(ODI)达到最小临床重要差异(MCID)方面显示出85.5%的准确性,AUC为0.96。虽然Oh等对术前ODI>15的患者进行了分析,但Scheer等对术前ODI>30的198名患者使用了相同的方法,其预测准确率为86%,AUC为0.94。有趣的是,尽管有相似的训练变量,这两项研究中最重要的预测变量却有很大的不同,这突出了监督机器学习方法的优势之一。预测患者生活质量影响的研究对脊柱外科的未来至关重要,因为它们有助于术前的患者选择和手术计划,使患者利益最大化并降低患者和医院支出。

高精度模型是与患者进行知情讨论和为每个患者构建最佳手术计划的关键。如前所述,预测分析有能力在ASD手术中产生一系列精确模型。然而,以上的研究都受到样本大小和相对简单算法的限制。考虑到决策树有过度拟合已开发模型的倾向,还应该开始探索其它更高质量的方法,此点很重要。预测分析在ASD患者中的应用,为外科医生开辟了一条利用现代计算方法来创建改进预测模型的道路。为了实现更好、更稳健的模型构建,该领域转向通过更复杂的机器学习算法来整合人工智能,以生成预测模型。

人工智能用于成人脊柱畸形的分类及预后预测

国际脊柱研究小组(ISSG)和欧洲脊柱研究小组(ESSG)在早期试验ASD预测分析的基本机器学习算法可行性上,做出了里程碑式的研究。Ames等发展了包括570个潜在ASD患者的预测模型,评估,术后1-2年随访ODI、SRS-22和SF-36实现MCID的概率。在4个时间段(术前、术后即刻、1年随访和2年随访),对每个患者共训练了8种不同的机器学习算法,涉及75个变量。每个患者在时间范围内的最终模型选择最终取决于平均误差(MAE)的最小值。外部验证采用80%的训练和20%的测试集分割进行,拟合优度测量如R2范围为20%-45%,MAE范围为选定模型的8%-15%,表明模型拟合成功。

ISSG和ESSG还尝试在更大范围内建立既往的术后结果研究工作,以验证预后工具在预测ASD患者手术治疗主要并发症、再入院和计划外再手术中的效用。考虑到手术干预的复杂性和ASD畸形矫正手术相对较高的并发症发生率。目前,外科医生只能根据前瞻性数据向患者告知重大并发症的风险,包含对整个人群的广义估计。为拟实行侵入性手术患者创造更可靠的预后预测工具,我们开发了2个随机森林模型。共有105个变量被用于在1612名前瞻性收集的ASD患者队列中训练预测模型。模型包括人口统计学特征、合并症、影像学参数、手术特点和术中数据,不同之处在于其中一个模型包括术后即刻结果。模型训练集的分区使用一个标准的80%分区,20%分区用于独立测试,展示出充分的预测准确性,AUC范围为0.67-0.92。这些准确的预后模型是患者的极佳选择,通过减少并发症和再入院的风险,最大化手术成功的机会。

Ames等发表了另一项类似的研究,以期推动ASD手术向个体方向发展。使用机器学习模型,为SRS-22中列出的所有个人问题创建预测模型。通过使用561名患者的2个前瞻性队列和150个患者变量的6种不同的机器学习算法,成功地建立了一个模型,可预测患者对每个单独的SRS-22问题的结果,AUC范围0.57-0.87。这些新技术有助于提供更可靠和个性化的信息,以满足患者的具体护理目标。Ames等最近的一项研究首次证明,可以通过分层聚类和使用无监督学习来创建一个新的ASD分类系统。无监督学习方法(无特定的输出对应的输入数据集)可以迭代地学习数据的固有结构,并调查所有可用的数据,形成代表性的模型。这些模型比上面强调的监督决策树方法更为复杂,因为它们完全可以对数据的自然结构进行数学建模,而无需知道输入或输出。

目前ASD的分类主要依赖于已被证明与患者预后相关的放射学参数,但临床相关性仍不明确。两项前瞻性队列中分析570例患者基线数据、1年和2年随访数据。根据患者特征和手术特征(包括客观测量和PRO数据)进行聚类,确定队列中不同患者类型的人群。根据患者的特征(每一例都表现出独特的并发症和结果)。在这些患者中,年龄较大的翻修患者术前功能障碍程度最高(可能需要更多的侵入性矫正手术),并发症也较多;但在随访中,这些患者的临床症状改善最明显。根据手术特点得出4种不同的患者类型(3柱截骨融合度高,Smith-Peterson截骨融合度高,无截骨/无椎间融合,椎间融合使用率最高)。此外,建立了效率网格来评估各种手术方法的理论安全性,因为它们直接关系到ASD患者的改善(风险-收益分析)。有了这些可用的信息,可以帮助外科医生通过检查不同患者亚群的风险-收益比来建立假设,并显著增强外科医生确定单个患者最佳治疗方案的能力。

表1 研究及其相关信息总结

结论

总体而言,所有上述研究都代表了来自世界各地的脊柱外科医生和数学家为合理治疗ASD所做出的共同努力。利用先进计算方法的能力,将为外科医生和患者提供实用的大数据,以便更好地进行医疗决策。未来应继续推进人工智能技术发展,从而使得ASD手术真正进入到个性化医疗新时代。

专家点评(Lawrence G. Lenke, U.S.A.)

本文强调了人工智能的预测建模、分析和机器学习等功能,将在ASD的评估和治疗中发挥关键作用。ASD是最复杂的医学问题之一,不仅涉及从上颈椎到骶骨的整个脊柱评估,还需要评价由头至脚的整个骨骼情况。ASD在临床表现上具有显著异质性,当前的非手术和手术治疗中均具有临床结果不确定、并发症发生率和成本高等问题。目前对于最常见的病理类型,业内尚无公认的ASD分类方案、手术算法、并发症严重性和影响性评估标准,亦无确切的方法来准确预测患者是否需要进行大手术。因此,使用人工智能进行计算数据分析对ASD患者的个性化治疗很有益处。

目前为止,所有使用预测分析和早期人工智能对ASD的工作,均由少数密切参与ASD手术治疗的个人和研究小组完成。采用聚类人工智能算法将异质性ASD患者分组到具有相似属性的特定类别,具有一定的逻辑性和实用性。此外,研究组已经完成了根据术前患者、手术和治疗团队的情况,利用不同患者人口统计数据创建风险分层能力的工作,并且会随着时间的推移而完善。然而,由于该数据仅仅来自少数几个特定中心和外科医生,未知的问题是:来自号称卓越的ASD护理中心的合并数据能否可以推广到全世界所有中心?仅由外科医生和内科医生评估和治疗ASD患者?群体数据是否足够?是否需要来自更多中心和外科医生的数据来满足患者个性化医疗需求?本人在北美和世界上许多国家的脊柱中心访问过,对ASD患者的非手术和手术护理的多样性有直观经验。实际上讲,人工智能的好处是显而易见的,但在现实世界中,由于全球医疗中心各自独特的医疗服务模式,实现最佳医疗模式可能会困难许多。

值得注意的是,每个ASD患者,每个提供治疗的脊柱外科医生和脊柱中心都是独一无二的,评估和治疗ASD患者的最佳路径是否需要患者和外科医生/中心提供者共同参与?众所周知,那些在世界各地接受培训的脊柱外科医生,即使是在相同的培训项目中,也会获得不同的培训技能。早期数据表明,ASD手术的并发症和患者预后可能完全与手术侵袭性相关, 同手术的外科医生或实施手术的中心无关。然而,目前的观点是,几乎所有高水平外科学科、外科医生和中心在进行相同的手术时,均有较低的并发症发生率和更好的结果。为何ASD手术结果存有差别?有一点可以明确,ASD作为复杂性手术,手术医生和术后措施在降低早期并发症发生率和获得满意结果上具有重要的影响。

毫无疑问,医学正在走向个性化诊疗新时代,人工智能及其计算优势将为治疗患者提供真正革命性变革。个人认为,人工智能编程是在微观而不是在宏观尺度上进行的,因此还需要ASD患和为患者提供护理的外科医生和医疗中心参与。随着人工智能技术的发展,决定谁来操作、手术的最佳时间(例如,遵照医嘱优化患者的营养、治疗、心理和其他需求),最标准化的执行程序(例如,使用机器人和导航技术等),术后个性化方案以确保患者安全和及时恢复均将成为可能,因此,人工智能在ASD中的应用有着光明的前景。

原文:Joshi RS, Haddad AF, Lau D, Ames CP. Artificial intelligence for adult spinal deformity. Neurospine, 2019,16(4):686-694.doi:10.14245/ns.1938414.207.

编者观点(邝 磊,王 冰)

如何看待与AI相关的脊柱外科医学研究

成人脊柱畸形(ASD)是一种严重影响患者生活的复杂疾病。手术可有效改善患者的脊柱骨盆参数以及生活质量(QoL),但手术相关并发症风险较高。以往,人们使用诸如线性和逻辑回归模型的统计模型来寻找相关因素,但只代表人群中的总体情况,对个体患者几无适用性。近年来,外科医生开始利用通过机器学习的人工智能(AI)对相关数据进行全面处理。其应用范围包括预测QoL、重大并发症、再入院和再次手术的风险。该技术使外科医生能利用更准确和个性化的预测工具,更好地向个体患者提供有关ASD手术的预测结果。此外,AI已被用作创建一个新的ASD分类系统,将有助于识别不同风险获益群体的患者。总之,这些AI工具将以满足患者个人需求为目的,通过辅助外科医生调整治疗方案,来为脊柱外科的个性化精准医疗创造条件。

随着基础科研的发展,人工智能(AI)已逐渐渗透到医学的各个领域。近年来,国内外很多医疗机构已开始与科技公司合作,对疾病的诊断、治疗和管理进行研究,开发了很多关于影像识别、生物技术、辅助诊断、药物研发等领域的产品。在脊柱外科领域,有关AI应用的杂志投稿和论文发表也越来越多。不同于传统的计算机算法,只要给予一定量的资料,AI就能够根据经验进行自我学习,从而对数据作出处理和决定。该方法尤为适合需要大量重复性工作,如影像资料分类、测量和大量主客观数据录入和分析的临床研究。AI可以帮助医生进行疾病分型、预后和并发症的估计,因此不但可以成为强大的临床决策工具,而且更能作为科研热点和强大帮手。但是,正如统计学原则所述,“显著性水平要求越高,样本量就要越大”。AI结果的准确性,不但跟给予训练的样本量是否充足有关,还跟样本的抽样方法有关。正如评论该文的著名脊柱畸形专家Lenke所言,目前供AI训练的数据仅来源于少数顶尖医院或医生,未能代表人群的真实情况,因此AI推测的预后可能与真实情况有所区别。同时,退行性脊柱畸形这种疾病,患者接受的保守治疗、手术治疗和术后康复方法千差万别,AI得出的治疗建议能否应用到其他地区、医院或医生尚存疑问。

腾讯公司曾表示:AI之所以能轻易地击败人类顶尖棋手,并在人脸识别、自动驾驶等应用场景发展迅猛,最大的因素是其学习样本很多。而医疗AI比其他场景有更大的复杂性,其学习样本量非常有限,且样本的标准也存在很多问题。因此对于医学AI而言,数据的要求更复杂,其发展速度必然更慢。而且,AI就像一个“黑箱”, 人们往往不知道数据是如何运算而得出最终结论的。这一点也许在商业领域问题不大,但是涉及生命的医疗领域就存在伦理学争议。

可以预见,未来AI一定会越来越多地参与到临床医疗决策和医学科学研究当中,也必定有更多的研究成果和创新产品面世。我们在面对相关结果和产品时,仍应秉承对待其他研究一样的科学严谨态度,着重对其研究方法进行理性分析,审慎地判断其结论,唯有如此,才有助于我们在真实世界中作出正确的临床决策。

作者简介


徐洁涛

硕士研究生

师从中南大学湘雅二医院脊柱外科王冰教授。在国家级和国际核心刊物上以第一作者发表论文4篇,SCI论文1篇。

教授、主任医师,博士生导师

现任中南大学湘雅二医院脊柱外科主任和脊柱外科研究室主任。担任中国康复医学会脊柱脊髓专业委员会青年委员会副主任委员;中国医促会骨科疾病防治委员会脊柱内镜学组副主任委员;中国医师协会骨科医师分会微创专委会微创融合学组副组长;中华中医药学会脊柱微创专委会常委暨经皮内镜技术研究组副主任委员;中国研究型医院学会脊柱外科专业委员会脊柱畸形学组副组长,中华医学会骨科学分会基础学组委员;中国骨科菁英会脊柱创始会员和执委;中国SICOT骨科分会基础学组常务委员;国际侧方入路手术学会中国部副主任委员;AOSpine中国部讲师;中国脊柱脊髓杂志常务编委;国际TheSpineJournal和Spine杂志中文版编委;湖南省康复医学会脊柱脊髓专委员主任委员;湖南省医学会骨科分会常委;湖南省遗传学会常务理事;白求恩公益基金会骨科基层教育委员会常委和手术指导专家等职。

擅长内镜微创脊柱外科和各类复杂脊柱畸形的矫治。在国家级和国际核心刊物上以第一作者和通讯作者发表论文100余篇,SCI论文40余篇,主编和参编专著10余部,主持国家自然科学基金4项。


邝磊

医学博士,副主任医师,硕士生导师

现任中南大学湘雅二医院脊柱外科副主任。美国丹佛骨科脊柱中心、香港大学玛丽医院访问学者。现任北美脊柱外科学会微创技术委员会委员,中华医学会骨科学分会青委微创和智能骨科学组委员,中华医学会医学工程学分会数字骨科学组委员,国际矫形与创伤外科学会中国部数字骨科学会委员及湖南省分会委员,中国康复医学会脊柱脊髓专委会脊柱神经电生理学组、数字脊柱外科学组委员,湖南省健康服务业协会脊柱健康分会委员及秘书。

担任AME出版社学术编辑、期刊BMCMusculoskeletalDisorders副编辑,以及TheSpineJournal、Spine等期刊审稿人。主持参与多个国家自然科学基金、吴阶平医学基金、AOSpine研究基金、湖南省自然科学基金等项目。以第一或通讯作者发表SCI论文12篇。

分享到: