标题:医疗 AI 隐私不担忧!英伟达首推新影像分析模型训练方法,无需共享患者数据
文 | 李水青
导语:该系统有望在保护患者数据隐私的条件下,促进医疗机构的协作。
智东西 10 月 14 日消息,近日,英伟达携手伦敦国王学院推出了首个医学影像分析的联邦学习系统 ( federated learning system),该系统可能在保护数据隐私的条件下改善患者脑肿瘤识别结果。
由于涉及到数据隐私,医疗保健神经网络模型可利用的数据集十分有限。具有 15 年经验的医学专业人员一年可大约经手 15,000 例病例,涉及的医学图像达到 225,000 例。但是目前,这些图像却大多数无法被充分利用,进而大大阻碍了医学图像分析技术对医学进步的推动。
英伟达的发布的新的联邦学习系统有望助医疗 AI 克服这一障碍。该系统能够将医院等各分散节点训练的本地模型利用起来,创建一个全局模型(consensus model),再反向分享给所有节点,以提高各节点的诊疗影响识别模型的准确性。但在这个过程中,患者的隐私数据无需被共享。
英伟达高级研究科学家 Nicola Rieke 说:" 我们希望这是大规模实现精密医学的一大步。"
一、利用联邦学习技术,本地模型与全局模型联动
"联邦学习在不共享患者数据的情况下,就能实现多点协作的神经网络训练。具体来说,医院、疾控中心等各节点负责训练其自身的本地模型,并定期提交给参数服务器。该服务器不断累积并聚合各节点的贡献,进而创建一个全局模型(consensus model),全局模型再反向分享给所有节点。" 研究人员在论文中阐述道。
▲本地模型与全局模型进行联动
联邦学习(Federated Learning)又名联合学习、联盟学习,是一种专门针对数据孤岛和数据隐私两难问题的机器学习框架。该技术在 2016 年由谷歌最先提出,原本用于解决安卓手机终端用户在本地更新模型的问题,以在多参与方或多计算结点之间开展高效率的机器学习。
联邦学习技术可以助决策者将分散的训练数据利用起来,进而对中心深度神经网络进行训练。该方法能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模。
二、仅共享模型的 10% 时,仍能保证系统性能
据研究人员解释,虽然联邦学习可以保证极高的隐私安全性,但通过模型反演,模型性能并不会打折扣。
在试验中,研究人员采取的第一步是仅将模型更新的一部分从节点回传到中央服务器。据发现,在仅共享模型 10%的情况下,仍可以汇总性能水平与使用集中式学习系统所达到的性能水平相当的共识模型。
相比于数据集中式系统,联邦学习所提供的方法可以在不共享机构数据的情况下,更大程度地利用数据信息。通过使用稀疏向量表示方法,联邦学习系统可以实现严格隐私保护,同时对模型性能仅产生合理的轻微影响。
然后,研究团队又进一步通过差分隐私技术向模型注入了随机噪声,以干扰数据。据发现,在共享 40%的模型并注入噪声的情况下,模型仍然可以达到相同的性能水平。差分隐私框架是一种向数据集添加噪音以度量隐私损失的方法,该方法可以用来保护患者与机构数据隐私。
据了解,试验基于 BraTS 2018 数据集的脑肿瘤分割数,涉及 285 位脑肿瘤患者的 MRI 扫描结果。
结语:突破隐私障碍,AI 医疗影像识别迎来新机会
英伟达与伦敦国王学院联合推出的联邦学习系统,能够在不侵犯患者和机构的数据隐私的情况下,将医院等各节点的模型利用起来,以支持一个能够反向优化节点模型的 " 全局模型 "。相比于数据集中式系统,这种联邦学习系统的模型质量并未下降。
英伟达新推出的联合学习系统还有一个好处是,机构可以自由加入或退出模型训练过程,却不会造成影响。英伟达高级研究科学家 Nicola RiekeRieke 解释说,如果一个组织退出," 可用的数据将更少 ",但其他组织可以继续在这一全球模型上共同努力。
责任编辑: