专利示意图
一、技术领域
人工智能技术领域
二、专利介绍
1.专利信息
专利类型:发明
专利权人:清华大学深圳国际研究生院
申请号:202210942840.4
发明人:唐辰、王智、陈玉鹏
2.专利说明书摘要
本发明公开了一种用于神经网络量化的运行时动态推理方法,包括以下步骤:S0、接收输入,为不同输入进行部署后量化位宽的动态调整;所述调整包括如下步骤:S1、构建超级网络,所述超级网络包含所有可行量化方案的组合,所述量化方案可以在运行时不经量化微调而直接使用;S2、进行强化学习代理的训练:将针对不同输入的最优量化位宽决策问题建模为马尔科夫过程,并通过训练强化学习代理来实现输入感知的量化方案选择。本发明利用了深度网络中逐层顺序处理特征的特性,将模型的输入与每层逐层位宽选择问题建模成一个马尔科夫过程,从而可以使得不同输入产生不同的位宽决策,以达到动态推理的目的。
3.创新点
(1)构建一个包含所有可行的量化方案的超级网络,这个超级网络不需要经过量化微调就可以进行量化方案的切换;
(2)将不同输入的最优位宽决策问题建模为马尔科夫过程,并通过训练一个强化学习代理来实现输入感知的量化方案选择。
4.痛点问题
(1)现有量化技术在部署时无法改变量化位宽,造成部署时灵活性缺失的问题;
(2)现有量化技术无法感知输入之间的差异性,造成部署后潜在资源浪费的问题。
5.技术优势
(1)本发明提出了一种全新的量化范式,可以使得一次量化训练得到的深度模型以层为最小单位进行位宽调整,而现有技术往往需要进行繁重的微调才可以做到位宽的调整;
(2)本发明利用了深度网络中逐层顺序处理特征的特性,将模型的输入与每层逐层位宽选择问题建模成一个马尔科夫过程,从而可以使得不同输入产生不同的位宽决策,以达到动态推理的目的。比如,根据观测,清晰的样本会被分配较低的位宽,以降低其推理过程中的计算资源开销,模糊的样本会被分配较高的位宽,以提高其识别的准确率。
三、产业化信息
1.应用场景
(1)图像分类。在图像分类任务中使用的模型可以使用本专利提供的方法进行量化,以使得在资源受限的设备上尽可能地降低计算开销的同时仍能保证足够的推理准确率。比如,为难以识别的样本自动采用较高位宽以保证识别成功,为易于识别的样本采取较低位宽以降低其计算资源的占用。
(2)视频分析。视频分析中目标检测器的骨干网络可以使用本专利提供的方法进行量化,以使得在部署时骨干网络的位宽分配可以随着视频的动态特征而进行调整。
2.商业价值
(1)构建一个高性能的超级网络的方法。该超级网络中包含了所有可行量化方案的组合,量化方案可以在运行时不经量化微调而直接使用。我们分析了这个超级网络训练过程中造成性能损失的短板,并提出了一种新的蒸馏方式来提高网络的整体性能。利用该方法训练至收敛后的超级网络可以在只存储单一模型的情况下,在运行时不引入任何量化微调的情况下进行量化位宽的调整。该方法具有以层为最小单位调整位宽的特性,这样细粒度的调整方式为后续结合深度网络执行特点的输入感知动态推理提供了基础。
(2)进行输入感知的动态推理的方法。我们结合了深度模型顺序执行的特点(即模型每层的输入是前一层的输出),将在不同输入下每层的最优位宽选择问题建模为一个马尔科夫过程。基于此,我们训练了一个强化学习代理以从高性能超级网络中为输入选取合适的量化方案。
3.发展规划
(1)将已有的单比特量化算子扩展到支持多比特,以使得同一个输入张量可以被同时量化到多个目标比特。
(2)分析发现网络中存在多比特分支时,性能下界在于所有层比特都为最小比特的分支,并称之为关键分支。
(3)训练时对关键分支进行数据蒸馏得到超级网络。将多个分支的输出进行聚合,作为关键分支的软标签。
4.合作方式
面议
注:所有成果未经授权,请勿转载
联系方式:ttc@sz.tsinghua.edu.cn