1.一种引入大数据分析的自然语言模糊边界确定方法,其特征在于:包括以下步骤:步骤S1:进行自然语言解码识别分析:从原始波形语言数据中提取的声学特征经过训练得到声学模型,与发声词典、语言模型组成网络,对新来的语言提取特征,经声学模型表示,通过维特比解码得到识别结果;
步骤S2:进行基于深度学习的自然语言特征识别;
步骤S3:在步骤S2的基础上,采用大数据分析法对自然语言模糊边界进行确定;采用支持向量机法,根据自然语言特征的显著性进行划分,再根据其约束条件,结合大数据分析法,确定自然语言模糊边界;
其中,所述根据自然语言特征的显著性进行划分具体为:将自然语言划分为两类:上升型自然语言属性及下降型自然语言属性;其中上升型自然语言属性值在进行检测时比没有检测的自然语言属性值要大,下降型自然语言属性值在检测时比没有检测时的自然语言属性值要小。
2.根据权利要求1所述的一种引入大数据分析的自然语言模糊边界确定方法,其特征在于:所述步骤S1具体包括以下步骤;步骤S11:从原始波形语言数据中提取的声学特征,并对其做归一化处理;
步骤S12:建立自然语言声学模型;
步骤S13:以步骤S12建立的自然语言声学模型为基础,进一步建立自然语言统计模型,通过概率来表示词序列在自然语言环境中出现的可能性;
步骤S14:在步骤S13建立自然语言统计模型的基础上,采用维特比解码算法对自然语言进行解码分析,为自然语言特征识别提供依据;得到解码后的自然语言用下式进行表示:;
其中, 为自然语言的输出,表示第 个特征图, 表示第 个解码特征图, 是下采样因子, 是解码大小, 表示自然语言输出层的第 张特征图的第个激活值。
3.根据权利要求1所述的一种引入大数据分析的自然语言模糊边界确定方法,其特征在于:所述步骤S2具体包括以下步骤:步骤S21:对自然语言进行预训练,计算出隐含层的概率,并对其进行权重参数更新;
步骤S22:当采用无监督逐层预训练算法初始化深度神经网络参数后,按照误差方向传播对整个网络参数进行调整;
步骤S23:对自然语言特征进行提取识别。