专利示意图
一、技术领域
计算机技术领域
二、专利介绍
1.专利信息
专利类型:发明
专利权人:清华大学深圳国际研究生院
申请号:202410428447.2
2.专利说明书摘要
本发明提供一种基于置信度估计的策略确定方法及装置,涉及计算机技术邻域,该方法包括:确定置信度函数;所述置信度函数表示任意在线决策与历史决策之间的相似程度;所述置信度函数是基于随机网络蒸馏模型确定的,所述随机网络蒸馏模型是基于第一数据集中的至少一个训练决策训练得到的;基于目标任务和所述置信度函数,确定扰动函数;所述扰动函数表示置信度对决策的扰动程度;基于所述扰动函数,确定可靠策略分布;基于所述可靠策略分布,确定所述目标决策;所述目标决策为高置信度决策,实现高置信度决策的确定,进而实现可靠的决策采样过程,提高了离线强化学习方法的可靠性。
3.创新点
本发明通过利用随机网络蒸馏对离线强化学习算法进行置信度估计,并利用置信度函数在目标导向任务和奖励最大化任务上实现可靠的决策算法,主要创新点如下:
(1)利用随机网络蒸馏学习一个置信度函数,以衡量离线强化学习算法决策的可靠性。随机网络蒸馏最初是作为一个启发式的方法用来鼓励智能体去探索环境的,本发明利用它去保存历史决策的统计信息,从而通过一次前向传播来衡量在线决策与历史决策的相似程度;
(2)在置信度估计的基础上,针对目标导向任务提出了自适应步长决策。所述方法通过对不同步长的决策进行置信度估计,实现了自适应选择步长的功能;
(3)在置信度估计的基础上,针对奖励最大化任务提出了价值嵌入式决策。所述方法通过将价值函数嵌入置信度函数,实现了高回报、低风险的策略分布采样偏好。
4.痛点问题
本发明解决了离线强化学习算法在线决策可靠性的问题,同时利用随机网络蒸馏来建模置信度函数,并以此构建出高效的可靠决策算法。
5.技术优势
本发明解决了当前离线强化学习算法并未关注的决策可靠性的问题,由于在线决策是从最优策略分布中采样得到的,其非确定性制约了算法在一些关键场景中的部署(如机器人操纵、医疗手术等)。同时,当前的置信度估计方法并不适合与离线强化学习算法进行结合,本发明利用了随机网络蒸馏方法来进行置信度估计,以此构建出高效的可靠决策算法。
三、产业化信息
1.应用场景
本技术可以应用于机器人路径规划,机械臂智能控制,无人医疗手术等应用场景。
2.商业价值
(1)在机器人领域,可用于机器人路径规划,机械臂智能控制等;
(2)在医疗领域,可用于无人医疗手术等;
(3)在自动驾驶领域,可用于关键决策制定等。
3.发展规划
(1)在研究层面,该技术可以与多种离线强化学习方法相结合,此外,该技术中的置信度估计可被视为一种知识蒸馏方法,未来有望利用更先进的置信度估计技术来构建可靠决策算法;
(2)在应用层面,该技术作为一个可靠决策算法,可以为智能决策提供置信度的估计,尤其在一些关键场景中,该技术能够保证在线决策的可靠性。
4.合作方式
面议
注:所有成果未经授权,请勿转载
联系方式:ttc@sz.tsinghua.edu.cn