专利示意图
一、技术领域
人工智能学习领域
二、专利介绍
1.专利信息
专利类型:发明
专利权人:清华大学深圳国际研究生院
申请号:202310330198.9
发明人:王晓禅、王智
2.专利说明书摘要
本发明公开了一种模型优化方法、电子设备以及计算机可读存储介质,该方法应用于第一电子设备,第一电子设备处于包括多个第二电子设备的集群网络,多个第二电子设备上至少分布两种具有不同数据结构的第一数据,第一电子设备根据每个第二电子设备上分布的第一数据的数据结构,为每个第二电子设备确定第一神经网络模型,第一神经网络模型包括第一模型参数和第一结构参数;第一电子设备根据每个第二电子设备对应的第一数据,确定多个第二电子设备之间的相关系数,以及第一电子设备根据相关系数调整每个第二电子设备对应的第一模型参数和第一结构参数,得到第二神经网络模型,第二神经网络结构为针对集群网络进行模型优化得到的神经网络模型。
3.创新点
现有的联邦学习(Federated Learning, FL)技术中,客户端通常训练相同的模型,并由服务器聚合客户端所上传的更新模型参数,从而达到共同训练的目的。但是该方式无视了联邦学习系统中客户端节点之间的异构性,包括数据分布、计算能力以及通信能力之间的差距,因而部分弱节点很难从联邦学习训练中受益。特别是客户端节点的本地数据之间通常是非独立同分布(Non-Identical and Independently Distributed, Non-IID)的,这导致联邦学习共同训练得到的共享模型不能满足每一个客户端节点的需求。
由于上述问题,一些研究人员开始关注个性化联邦学习(Personalized Federated Learning, PFL)。现有的个性化联邦学习研究成果中,通常会利用多任务学习、元学习等技术,将每个客户端的学习任务视作不同任务,并学习得到单独的模型进而实现个性化(例如MOCHA)。但是,现有研究提出的通常只是改动客户端模型参数来拟合局部数据特征、提升单个节点的模型性能,没有意识到允许节点各自训练不同结构的模型所带来的增益。也有研究提出,可以将知识蒸馏(Knowledge Distillation, KD)方法中只交换软标签、不交换模型数据的思想运用到联邦学习训练中(例如FedMD、FedDF等)。这种基于KD的联邦学习方法使联邦学习客户端节点之间维护不同结构的模型成为可能。然而,为了通过交换软标签的形式实现知识共享,基于KD的方法需要设计一个满足全局数据分布的公共数据集,这就意味着可能的数据隐私泄露的问题;同时,交换公共数据集上的推理软标签也意味着更大的通信负担,同样不利于联邦学习的共同训练。
为了应对上述挑战,新的研究成果中没有采用利用KD的方式实现模型异构,而是利用了神经网络架构搜索(Neural Architecture Search, NAS)的技术,并由客户端的推理结果重新设置服务器聚合权重,从而为能力和特征不同的客户端提供结构与参数均不相同的模型,最大程度上提升所有客户端节点在共同训练中的受益情况。同时,新的研究成果不需要在联邦学习系统内设计公共数据集,更大程度上保护了客户端节点本地的数据隐私,也减小了客户端与服务器之间的通信成本。
4.痛点问题
(1)由于模型结构不相同导致服务器聚合时参数无法对齐的问题。在联邦学习中,为了实现通过参数共享的共同训练,会要求客户端节点均部署并训练相同的模型。这样在模型的聚合过程可以直接利用向量加权平均的方式进行。然而,不同模型结构下,参数可以被视作是不同尺寸的向量,而不同尺寸的向量之间不能直接加和,而考虑模型内各个运算算子的含义来做不同尺寸之间向量的升降维变换的方法普适性很差,计算复杂度也非常高;
(2)在模型聚合过程中,为每个客户端聚合生成不同的个性化模型。在联邦学习的聚合过程中,一般地,个性化联邦学习研究中通常是由服务器聚合得到一个全局模型,客户端在全局模型的基础上根据自己的本地数据特征再本地微调。然而,对于模型异构设置下的个性化联邦学习而言,即使是本地微调也会带来非常巨大的计算负担。因此,能否跳过客户端本地微调的部分,要求服务器生成更贴近每个客户端特征的模型,进而减轻客户端的计算负担,是是支持模型异构的个性化联邦学习框架需要解决的另一个技术挑战。
5.技术优势
(1)现市场暂无类似于本方案的成熟方案;
(2)在现有的终端计算设备不断升级的现状下,联邦学习具有很大的发展前景;通过调整客户端节点模型结构,可以极大程度地提高客户端收益,提高联邦学习共同训练的积极性,对知识共享有重大意义。
三、产业化信息
1.应用场景
在医疗场景下,通常需要为每个医疗机构(客户端节点)生成个性化的模型。例如肿瘤诊断中,由于地区不同带来的发病率不同与病灶位置分布不同等问题,可以为不同地理位置的医疗机构训练得到不同的肿瘤诊断模型。这时可以利用本发明的方法,为医疗机构搜索得到不同复杂程度的图像分类模型,从而实现个性化模型生成。
2.商业价值
此项技术拥有商业前景:可用于金融、医疗等领域。特别是联邦学习硬件的平价化,将为联邦学习的应用带来无限可能的机会。
3.发展规划
该技术未来可应用至金融、医疗等领域,促进局部知识共享,类似于扩增数据规模,训练得到高精度、高性能的模型。特别是医疗领域下,为不同地区的医疗机构建立不同的个性化模型用于辅助确诊。
4.合作方式
面议
注:所有成果未经授权,请勿转载
联系方式:ttc@sz.tsinghua.edu.cn