专利示意图
一、技术领域
自然语言处理、信息抽取技术领域
二、专利介绍
1.专利信息
专利类型:发明
专利权人:清华大学深圳国际研究生院
申请号:202310401691.5
发明人:高婕、杨余久、肖京
2.专利说明书摘要
一种基于prompt的对抗性数据增强的持续学习关系抽取方法,包括:构建prompt模板;根据外部知识图谱构建数据集,通过对比学习对语言模型进行预训练;按照规则对训练样本进行对抗性数据增强得到负类;将文本和prompt模板相结合,得到标准样本输入形式;将样本输入至语言模型进行编码,得到样本特征;利用损失函数对语言模型更新,选择原始训练样本中有代表性的样本存储下来,存储类别原型;利用典型样本让语言模型回忆知识,通过对比性记忆重放、知识蒸馏和相似惩罚更新语言模型;根据文本的特征和类别原型间的距离判断文本中实体之间的关系;继续训练新任务和新数据,本发明能够有效缓解面临新的数据后训练语言模型的遗忘问题。
3.创新点
(1)本发明涉及关系抽取领域,针对现实场景下模型需要处理的数据是持续增加的情况,提出了一种基于prompt的对抗性数据增强的持续学习关系抽取方法;
(2)该方法通过将句子跟prompt模板相结合的方式获取句子特征,能够更加平衡地关注头尾实体信息和与关系相关的全局信息;
(3)该方法通过远程监督的方式构造预训练数据集,对模型通过对比学习的方式进行预训练,其中构造正样本对的方法是将一个句子与不同的prompt模板相结合从而得到一个句子的不同表征方式,作为正样本对;
(4)该方法在新任务的初始化训练阶段,针对原始训练数据构造困难的负类,并将构造的困难负类与原始数据一起对模型进行训练,从而让模型学习更鲁棒的样本表征和更细粒度的关系知识,从而提升模型在困难情况下的判别能力;
(5)该方法在记忆重放阶段,先通过对比学习让模型学习历史任务相关的知识,并通过知识蒸馏保持嵌入空间的稳定性,从而更好的保存历史任务相关的知识,此外还增加了相似惩罚,防止模型因为新任务中存在与历史任务的相似关系产生模型性能的显著性下降问题;
(6)本方法精确度高于已有同类方法,是一种很有潜力的持续关系抽取方法。
4.痛点问题
(1)预训练语言模型对样本编码得到的样本表征存在嵌入偏差;
(2)神经网络模型的捷径学习问题,倾向于通过简单特征进行判断,学习的样本表征鲁棒性不强;
(3)嵌入空间随着学习任务的增加跟之前的分布不一致;
(4)相似关系的出现造成的模型性能显著下降;
(5)灾难性遗忘问题。
5.技术优势
(1)可学习到更加平衡地关注头尾实体信息和与关系相关的全局信息的样本表征;
(2)通过数据增强和相似惩罚,能够学习更细粒度的关系知识,学习更鲁棒的样本表征,提升模型困难情况下的判别能力;
(3)通过知识蒸馏和对比性记忆重放,模型能够最大限度地回忆并保存历史任务相关的知识;
(4)可有效的缓解持续学习关系抽取任务的灾难性遗忘问题。
三、产业化信息
1.应用场景
持续关系抽取技术在许多应用场景中具有重要价值,特别是在涉及知识库不断更新和扩展的领域。下面是一些具体的应用场景:
(1)知识图谱的构建和更新:知识图谱需要从大量文本数据中自动抽取实体之间的关系。随着时间的推移,可能会出现新的关系类别和实体。持续关系抽取技术可以适应这些变化,持续更新和扩展知识图谱;
(2)新闻事件监测:新闻文章不断产生,涵盖各种事件、人物和组织。持续关系抽取技术可以用来实时分析新闻数据,发现潜在的关系和趋势;
(3)生物医学研究:在生物医学领域,关系抽取可以被用来识别基因、蛋白质和药物之间的相互作用。由于这个领域的知识是不断更新的,持续关系抽取可以帮助研究人员跟上最新的发现并将其纳入他们的分析;
(4)商业情报和市场研究:持续关系抽取可以协助分析市场趋势,跟踪竞争对手,并确定公司、产品和服务之间的关系。这可以为企业提供决策和战略发展的宝贵见解。
(5)法律和法规的遵守:法律和法规随着时间的推移不断发展,组织需要适应这些变化。持续关系抽取可以帮助识别法律实体、法规和合规要求之间的关系,使组织能够保持最新的法律发展;
(6)客户关系管理(CRM):持续关系抽取可以帮助组织更好地了解客户之间的关系,他们的喜好,以及他们与产品或服务的互动。这可以导致更加个性化的营销活动,改善客户支持,并提高客户忠诚度;
(7)科学文献分析:科学文献的数量在不断增加,每天都有新的论文和概念与发现之间的关系出现。持续关系抽取可以帮助研究人员和专业人士保持他们领域的最新发展,促进文献回顾和元分析;
(8)网络安全和威胁情报:持续关系抽取可以帮助识别威胁者、恶意软件、漏洞和攻击模式之间的关系。这可以帮助企业了解新出现的威胁并改善他们的安全状况;
(9)智能城市和基础设施规划:随着城市及其基础设施的发展,城市元素之间可能出现新的关系,如交通网络、能源系统和公共服务。持续关系抽取可以帮助城市规划者和政策制定者更好地理解这些关系,从而使城市规划和决策更加有效。
2.商业价值
(1)行业:信息技术和知识图谱开发
价值:有效地从文本数据中提取和更新实体之间的关系,维护最新的知识库。
盈利预测:对人工智能驱动的解决方案和数据分析的需求持续增长,将推动该行业的盈利能力。
(2)行业:媒体和新闻分析应用:新闻事件监测
价值:对新闻数据进行实时分析,以发现潜在的关系、趋势和洞察力
利润预测:在媒体分析中越来越多地采用人工智能和机器学习,将促进该行业的盈利能力。
(3)行业:生物医学研究和制药应用:识别基因、蛋白质和药物之间的相互作用
价值:紧跟最新发现,将新知识纳入正在进行的研究和药物开发
利润预测:对个性化医疗和靶向治疗的需求不断增长,将推动行业增长和利润率。
3.发展规划
(1)该技术未来可应用至搜索领域,实现搜索结果的快速性和准确性提高,快速提高我国的搜索引擎性能。该技术通过与大规模搜索引擎技术相结合的方式,能够快速提升用户的使用感与粘性,快速占据市场;
(2)该技术未来可应用至生物医药领域,实现特效药物开发国产化,快速提高我国在生物医药领域的水平。该技术与药学领域的专业人员所储备的知识相结合,能够使药物的发现和开发过程更高效,快速占据市场
4.合作方式
面议
注:所有成果未经授权,请勿转载
联系方式:ttc@sz.tsinghua.edu.cn