欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019111764632
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种可识别小字符内容的工尺谱数字化方法,其特征在于包括以下步骤:步骤S1:图像预处理

通过对经光电扫描数字化后的工尺谱图像作色彩空间转换,二值化处理;

步骤S2:工尺谱图像分割

对步骤S1得到的二值化位图作图像分割处理;依据工尺谱书写规律,在水平方向区分词谱,在垂直方向区分不同谱字,并通过检测间隔长度判断乐逗;具体地,包括以下步骤:步骤S21:词谱分割;利用水平投影分割词谱;具体地,包括以下步骤:步骤S211:水平投影计算;通过对大小为M×N的二值化位图统计每一列的像素值总和,得到水平投影Px(i);水平投影的计算公式如下:其中f(k,i)表示第k行第i列像素的像素值;

步骤S212:定位文字区域;

对二值化位图每一行从右往左扫描,若Px(i1)≤ω1且Px(i1+1)>ω1,则将第i1+1列像素标为起点,继续向左扫描直至找到一列像素满足Px(i2)>ω1且Px(i2+1)≤ω1,将第i2列像素标为终点,起点至终点间的像素为文字区域;其中ω1为阈值;

步骤S213:区分歌词与谱字;

获取上述步骤S212中每个文字区域的宽度Wi,i表示第i个文字区域;将第1个区域归入集合D1中,若其余每个区域的宽度Wi判断是否满足0.8W1

步骤S22:单字分割;利用垂直投影分割单字;具体地,包括以下步骤:步骤S221:垂直投影计算;

通过统计上述步骤S21得到的歌词集合中每一个文字区域的像素值总和,得到每个歌词文字区域垂直投影Py(j);垂直投影的计算公式如下:其中f(j,k)表示第j行第k列像素的像素值;

步骤S222:划分歌词集合中每个文字区域的单个字;

对每个歌词文字区域自上往下扫描,若Py(j1)≤ω2且Py(j1+1)>ω2,则将第j1+1行像素标为起点,继续向下扫描直至找到一行像素满足Py(j2)>ω2且Py(j2+1)≤ω2,将第j2行像素标为终点,起点至终点间的像素为单字区域;其中ω2为给定误差;

步骤S223:获取谱字对应的歌词区域

获取每个歌词单字区域的宽度WLi;第i个歌词文字区域中第j2行像素点作为起点的第k个单字,该单字的起点至终点间的像素距离Hi,k满足0.8WLi≤Hi,k≤1.2WLi,则再次确认为歌词单字区域,反之则取消终点标记并重置ω2=0.5ω2,以j1+2行像素标为起点,返回步骤S222,重新获取歌词单字区域;

位于该歌词单字右侧的谱字落入在该歌词单字起点至终点标记间区域为该歌词单字初步分割的对应谱字区域;

步骤S224:单谱字分割;

对初步分割的谱字区域自上往下扫描,若Py(j′1)≤ω3且Py(j′1+1)>ω3,则将第j′1+1行像素标为起点,继续向下扫描直至找到一行像素满足Py(j′2)>ω3且Py(j′2+1)≤ω3,将第j′2行像素标为终点,起点至终点间的区域为排除空白后谱字区域;其中ω3为给定误差;

步骤S225:获取第i个谱字区域中第k个排除空白后谱字区域中起点至终点间的像素距离H′i,k;若H′i,k<0.8WRi,则取消终点标记并从第j′2+2行开始检测终点,重复本步骤;若满足

0.8WRi1.2WRi则取消终点标记并重置ω3=0.5ω3,自j′1+2行像素开始重新检测终点,重复本步骤;对所有的谱字区域重复本步骤,得到图像中所有谱字的单谱字区域;

步骤S3:构建第一个卷积神经网络,以识别谱字

步骤S2中得到的单谱字区域图像作为输入,25个谱字作为输出;

25个谱字包括音高谱字“合、四、一、上、尺、工、凡、六、五、乙”、豁音符号“∨”、落音符号“の”、颤音符号“\”、赠板符号“×”、赠板符号“|×”、实眼符号“〇”、腰眼符号“△”、腰板符号“﹂”、高八度谱字“上、尺、工、凡、六、五、乙”以及“仩、伬、仜、 伍、亿”;

步骤S4:构建第二个卷积神经网络,以识别细节信息

将上述步骤S3中分类结果为音高谱字“合、四、一、上、尺、工、凡、六、五、乙、仩、伬、仜、伍、亿”的单谱字区域图像作为输入,20个音高谱字的升降调分类及共计37个音高谱字与4个乐谱符号的185个组合识别结果作为输出;

20个音高谱字的升降调包括“合、四、一、上、尺、工、凡、六、五、乙”的升调谱字和降调谱字;

185个组合识别分类包括37个音高谱字与4个乐谱符号组合,以及37个音高谱字不带乐谱符号;

37个音高谱字包括上述20个音高谱字的升降调、“合、四、一、上、尺、工、凡、六、五、乙”

10个音高谱字与“仩、伬、仜、 伍、亿”7个异体的音高谱字;

4个乐谱符号包括掇音符号“、”、实板符号“、”、叠音符号“、、”、腰板符号“—”。

2.如权利要求1所述的一种可识别小字符内容的工尺谱数字化方法,其特征在于步骤S1具体包括如下步骤:步骤S11:图像色彩空间转化;由扫描仪录入的图像数据为RGB色彩空间的TIFF格式图像,将色彩空间转化为带有单独亮度通道的LAB格式图像;

采用基于多项式回归的色彩空间转化法,其转化公式如下:LAB=CM*RGB

LAB=(L,a,b)T

RGB=(R,G,B,RG,GB,BR)T

其中LAB表示所需的LAB色彩空间矩阵,CM表示色彩转换矩阵,RGB表示RGB色彩空间矩阵,符号T表示矩阵转置,L,a,b表示LAB色彩空间的三个通道,R,G,B表示RGB色彩空间的三个通道,RG,GB,BR表示对应RGB色彩通道的乘积;

步骤S12:二值化阈值计算;具体地,包括以下步骤:步骤S121:二值化阈值估计;

给定二值化初始阈值ω0,其计算公式如下:

其中M表示LAB格式图像共有M行像素,N表示LAB格式图像共有N列像素,PL(m,n)坐标为点(m,n)的L色彩通道的值;

步骤S122:像素点分类;

初始化集合BC、FC;遍历LAB格式图像每个像素,将其中PL(m,n)<ω0的像素点归入集合BC中,其余像素点归为集合FC中;

步骤S123:计算新阈值;

新阈值ω′0的计算公式如下:

其中SBC表示集合BC中元素的数目,SFC表示集合FC中元素的数目,∑BCPL(m1,n1)表示集合BC中全体像素点亮度通道值的和,∑FCPL(m2,n2)表示集合FC中全体像素点亮度通道值的和;

步骤S124:判断ω′0是否等于ω0,若是则跳转至步骤S13,若否则更新ω0=ω′0,返回至步骤S122;

步骤S13:图像二值化;

通过二值化处理将L色彩通道图像转化为二值化位图,将集合BC中元素的像素值统一赋值为0,将集合FC中元素的像素值统一赋值为1,输出二值化后的位图。

3.如权利要求1所述的一种可识别小字符内容的工尺谱数字化方法,其特征在于步骤S3具体地,包括以下步骤:步骤S31:图像填充;

使用边界补零填充方法将步骤S2中得到的单谱字区域扩充为38*38像素大小的图像;

步骤S32:针对谱字识别的卷积神经网络构建;

卷积神经网络结构如下:输入层INPUT——卷积层C1——池化层S2——卷积层C3——池化层S4——卷积层C5——全连接层F6——输出层OUTPUT;具体地,每层参数如下:输入层INPUT参数:输入大小为38*38的位图训练样本;

卷积层C1参数:卷积窗大小5*5,卷积窗种类8,步长1,输出特征图大小34*34,输出特征图数量8;

池化层S2参数:卷积窗大小2*2,卷积窗种类8,输出下采样图大小17*17,输出下采样图数量8;

卷积层C3参数:卷积窗大小4*4,卷积窗种类32,步长1,输出特征图大小14*14,输出特征图数量32;

池化层S4参数:卷积窗大小2*2,卷积窗种类32,输出下采样图大小7*7,输出下采样图数量32;

卷积层C5参数:卷积窗大小7*7,卷积窗种类128,步长1,输出特征图大小1*1,输出特征图数量128;

全连接层F6参数:卷积窗大小1*1,卷积窗种类64,输出下采样图大小1*64,输出下采样图数量1;

输出层OUTPUT参数:输出特征图数量1*25;

其中池化层S2、S4均采用最大池化方法计算;神经网络的损失函数使用softmax函数,其计算公式如下:其中φ为输入向量的其中一个分量,softmaxφ表示输出的softmax值,且满足softmaxφ∈[0,1],∑ksoftmaxφ=1;

神经网络的初始学习速率设为0.001,减缓机制使用分数减缓,公式如下:其中Lt表示经过t轮训练后的学习速率,L0表示初始学习速率,t表示训练轮数。

4.如权利要求1所述的一种可识别小字符内容的工尺谱数字化方法,其特征在于步骤S4具体地,包括以下步骤:步骤S41:图像补零填充;

使用边界补零填充方法将分类结果为音高谱字“合、四、一、上、尺、工、凡、六、五、乙、仩、伬、仜、 伍、亿”的单谱字区域图像扩充为40*40像素大小的图像;

步骤S42:第二个卷积神经网络结构如下:输入层——卷积层1——池化层2——卷积层

3——池化层4——卷积层5——池化层6——Dropout层——全连接层——输出层;具体地,每层参数如下:输入层参数:输入大小为40*40的位图;

卷积层1参数:卷积窗大小5*5,卷积窗种类64,步长1,采用SAME方法作零填充,输出特征图大小40*40,输出特征图数量64;

池化层2参数:卷积窗大小2*2,卷积窗种类64,输出下采样图大小20*20,输出下采样图数量64;

卷积层3参数:卷积窗大小5*5,卷积窗种类128,步长1,采用SAME方法作零填充,输出特征图大小20*20,输出特征图数量128;

池化层4参数:卷积窗大小2*2,卷积窗种类128,输出下采样图大小10*10,输出下采样图数量128;

卷积层5参数:卷积窗大小3*3,卷积窗种类256,步长1,采用SAME方法作零填充,输出特征图大小10*10,输出特征图数量256;

池化层6参数:卷积窗大小2*2,卷积窗种类256,输出下采样图大小5*5,输出下采样图数量256;

卷积层7参数:卷积窗大小5*5,卷积窗种类512,输出特征图大小1*1,输出特征图数量

512;

Dropout层参数:dropout比率为0.8;(注意,本层仅在模型训练中使用)全连接层参数:卷积窗大小1*1,卷积窗种类1024,输出下采图大小1*1024,输出下采样图数量1;

输出层参数:输出特征图大小1*185;

其中池化层均采用最大池化方法计算;神经网络的损失函数使用softmax函数,神经网络的初始学习速率设为0.001,减缓机制使用分数减缓。