返回
一种结合域对抗训练的强化实例迁移学习方法

发布时间:2022-12-13

专利示意图

一、技术领域

计算机应用技术领域


二、专利介绍

1.专利信息

专利类型:发明

专利权人:清华大学深圳国际研究生院

申请号:202210425704.8

发明人:郑海涛、冯玲云、江勇、夏树涛、肖喜

2.专利说明书摘要

本发明公开了一种结合域对抗训练的强化实例迁移学习方法,采用包括领域判别模块、迁移学习模块和数据选择模块的强化迁移学习模型进行强化实例迁移学习,包括:训练领域判别模块和迁移学习模块分别最大化和最小化两个领域数据的特征距离;通过对抗训练的方式使得迁移学习模块学习领域不变特征;数据选择模块根据迁移学习模块的输出对源领域数据进行数据选择,并输出给迁移学习模块;迁移学习模块、领域判别模块和据选择模块进行协同训练,使得强化迁移学习模型能够从源领域数据中挑选出有用的数据以用于帮助强化迁移学习模型在目标领域数据的学习。本发明能够解决传统迁移学习过程中由于目标领域和源领域数据分布不同导致的负迁移问题。

3.创新点

(1)本发明涉及自然语言处理领域,针对迁移学习过程中的负迁移问题提出一种结合对抗训练的强化实例迁移学习的方法,在三个真实世界任务上效果均超过了现有的基线模型;

(2)域判别器和迁移学习模块进行对抗训练学习领域不变特征,也为基于强化学习的数据选择器提供良好的状态表示;

(3)迁移学习模块为数据选择器提供奖励信号;

(4)利用基于强化学习的数据选择器对源领域数据进行选择。

4.痛点问题

(1)迁移学习模块作为数据选择模块的子模块,根据迁移学习模块的最终表现来更新数据选择策略,迁移学习模块需要被重复训练多次来为数据选择模块提供充分的更新,导致模型的训练效率降低;

(2)现有工作中采用的迁移学习模块是一个简单的全连接网络,不能充分学习到领域不变特征(即可迁移特征)和域特有特征,导致迁移效果不佳,且迁移学习模块不能进一步为强化学习模块提供良好的状态表示。

5.技术优势

(1)域判别器和迁移学习模块进行对抗训练学习领域不变特征,也为基于强化学习的数据选择器提供良好的状态表示;

(2)迁移学习模块为数据选择器提供奖励信号;

(3)利用基于强化学习的数据选择器对源领域数据进行选择。

(4)模型训练稳定且效率高,效果在三个真实世界任务上均胜过现有技术,成本低,能够有效解决目标领域资源稀缺问题。


三、产业化信息

1.应用场景及商业价值

此项技术拥有丰富的应用场景和巨大的商业前景:

(1)医疗领域:基于有经验的医疗诊断数据,解决医疗资源不均的问题;生物基因检测, 利用一种或多种生物性状的 DNA 序列预测其他相似生物性状的 DNA序列等;异常检测、疾病预测、图像识别等,对行业价值、市场规模有巨大的促进作用;

(2)互联网领域:舆情分析,如用户评价方面以电子产品和视频游戏留言为例,可以从电子产品评价中找到特征、建立模型,然后利用模型把其迁移到少标签信息或无标签信息的视频游戏中;在线推荐系统中,利用迁移学习,可以在某个领域做好一个推荐系统(如:影像资料),然后应用在稀疏的、新的垂直领域(如:书籍资料),对行业价值、市场规模有巨大的促进作用。文本匹配、分类、阅读理解和序列标注等自然语言处理任务上利用资源丰富的源领域数据帮助资源稀缺的目标领域的学习;

(3)制造领域:机器人仿真,在仿真环境中训练一个机械臂移动,然后训练好之后,可以把知识迁移到真实的机械臂上,使真实的机械臂训练也可以做到和仿真一样的效果,对行业价值、市场规模有巨大的促进作用;

(4)客服领域:对话机器人,训练一个通用型的对话系统,该系统可能是闲聊型,也可能是一个任务型的,可以根据在特定领域的小数据修正它,使得这个对话系统适应不同任务;打造个性化对话系统,节省大量人力人本,帮助用户快速完成任务。促进对话AI 的发展,对行业价值、市场规模有巨大的促进作用,可带动上亿元相关产业经济规模;

(5)金融领域:预测股市走势。首先,运用数据之间的连接,产生不同的状态,让各个状态之间能够互相迁移。用强化学习器模拟状态之间的各种变化。

3.发展规划

该技术未来可应用至自然语言处理、计算机视觉等多个领域,实现高效率、低成本和规模化的AI创新与赋能。

4.合作方式

横向、合作兴办企业。



注:所有成果未经授权,请勿转载

联系方式:ttc@sz.tsinghua.edu.cn


版权所有@清华大学深圳国际研究生院 京ICP备15006448号 京公网安备 110402430053 号