1.一种神经网络模型的量化方法,包括:
获取神经网络模型的参数的初始位宽以及神经网络模型的目标量化位宽;
将所述初始位宽和作为初始的起点位宽、所述神经网络模型作为初始的待量化模型,构建包含所述初始位宽和所述目标量化位宽的量化位宽序列,通过执行多次拟量化操作更新所述量化位宽序列;
按照更新后的所述量化位宽序列对所述神经网络模型进行逐级量化;
基于逐级量化后的神经网络模型对媒体数据进行处理,所述媒体数据包括以下至少一种:图像、视频、文本、音频;
其中,所述拟量化操作包括:
获取起点位宽对应的第一量化后模型、以及采用中间位宽对待量化模型进行量化得到的第二量化后模型,其中,所述中间位宽位于所述起始点位宽和目标量化位宽之间;
响应于确定所述第一量化后模型的参数分布与所述第二量化后模型的参数分布之间的差异在预设的分布差异区间内,将所述中间位宽插入所述量化位宽序列中,并将所述中间位宽更新为新的起点位宽,以及将所述第二量化后模型更新为新的待量化模型,执行下一次拟量化操作。
2.根据权利要求1所述的方法,其中,所述拟量化操作还包括:响应于确定所述第一量化后模型的参数分布与所述第二量化后模型的参数分布之间的差异不在预设的分布差异区间内,将位于所述起点位宽与所述中间位宽之间的候选位宽更新为新的中间位宽,执行下一次拟量化操作。
3.根据权利要求2所述的方法,其中,所述候选位宽是对应拟量化操作中的所述起点位宽与所述中间位宽的中位数。
4.根据权利要求1所述的方法,其中,所述拟量化操作还包括:响应于确定所述起点位宽与所述目标量化位宽之间的差异不大于1,停止执行所述拟量化操作。
5.根据权利要求1所述的方法,其中,所述拟量化操作还包括:响应于确定所述第一量化后模型的参数分布与所述第二量化后模型的参数分布之间的差异在预设的分布差异区间内,基于所述目标量化位宽对所述第二量化后模型进行量化,得到第三量化后模型;
判断所述第二量化后模型的参数分布与所述第三量化后模型的参数分布之间的差异是否在所述预设的分布差异区间内,若是,停止执行所述拟量化操作。
6.根据权利要求1所述的方法,其中,所述中间位宽是对应的拟量化操作中的所述起始点位宽和所述目标量化位宽的中位数。
7.一种神经网络模型的量化装置,包括:
获取单元,被配置为获取神经网络模型的参数的初始位宽以及神经网络模型的目标量化位宽;
更新单元,被配置为将所述初始位宽和作为初始的起点位宽、所述神经网络模型作为初始的待量化模型,构建包含所述初始位宽和所述目标量化位宽的量化位宽序列,通过执行多次拟量化操作更新所述量化位宽序列;
量化单元,被配置为按照更新后的所述量化位宽序列对所述神经网络模型进行逐级量化;
处理单元,被配置为基于逐级量化后的神经网络模型对媒体数据进行处理,所述媒体数据包括以下至少一种:图像、视频、文本、音频;
其中,所述更新单元按照如下方式执行拟量化操作:
获取起点位宽对应的第一量化后模型、以及采用中间位宽对待量化模型进行量化得到的第二量化后模型,其中,所述中间位宽位于所述起始点位宽和目标量化位宽之间;
响应于确定所述第一量化后模型的参数分布与所述第二量化后模型的参数分布之间的差异在预设的分布差异区间内,将所述中间位宽插入所述量化位宽序列中,并将所述中间位宽更新为新的起点位宽,以及将所述第二量化后模型更新为新的待量化模型,执行下一次拟量化操作。
8.根据权利要求7所述的装置,其中,所述更新单元执行的拟量化操作还包括:响应于确定所述第一量化后模型的参数分布与所述第二量化后模型的参数分布之间的差异不在预设的分布差异区间内,将位于所述起点位宽与所述中间位宽之间的候选位宽更新为新的中间位宽,执行下一次拟量化操作。
9.根据权利要求8所述的装置,其中,所述候选位宽是对应拟量化操作中的所述起点位宽与所述中间位宽的中位数。
10.根据权利要求7所述的装置,其中,所述更新单元执行的拟量化操作还包括:响应于确定所述起点位宽与所述目标量化位宽之间的差异不大于1,停止执行所述拟量化操作。
11.根据权利要求7所述的装置,其中,所述更新单元执行的拟量化操作还包括:响应于确定所述第一量化后模型的参数分布与所述第二量化后模型的参数分布之间的差异在预设的分布差异区间内,基于所述目标量化位宽对所述第二量化后模型进行量化,得到第三量化后模型;
判断所述第二量化后模型的参数分布与所述第三量化后模型的参数分布之间的差异是否在所述预设的分布差异区间内,若是,停止执行所述拟量化操作。
12.根据权利要求7所述的装置,其中,所述中间位宽是对应的拟量化操作中的所述起始点位宽和所述目标量化位宽的中位数。
13.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。