1.一种基于大数据的金融领域人机对话意图识别方法,其特征在于,包括以下步骤:
101、对金融领域app上人机对话所产生的历史文本数据进行预处理操作;
102、对于步骤101处理后的数据集进行划分,分为训练集和验证集;
103、根据人机对话历史文本数据进行文本数据特征的构建,包括特征提取和文本表示;
所述特征提取,文本中的某一个单词就能以某种程度来表征某句话,这个程度具体衡量的标准就是概率;概率越大,说明这个单词越能表征这句话;反之则越不能表征这句话,当概率小到一个阀值的时候,这个单词就可以舍弃了;
所述文本表示,将文本向量化,分为词语的向量表达,短文本的向量表达,长文本的向量表达,采用词袋模型作为文本向量化的工具,对于一个对话,忽略它的单词顺序和语法、句法,将其仅仅看作是若干个词汇的集合,文本中每个单词的出现都是独立的,不依赖于其它单词是否出现,词袋模型所涉及关键参数为对话语料库,以及对话语料库中每个单词出现的频率,每一个词作为维度key,有单词对应的位置为1,其他为0,向量长度和词典大小相同;其中,对话语料库中的新词的词频-逆文档频通过以下方法估计:令新词的出现与不出现服从伯努利分布;新词为非常用词,即在语料库不常出现的词;
在语料库中随机抽样,其中不常用词出现的训练观测序列为{x1,x2,…xi…,xn},xi∈{0,1},其中n表示词的数量,得到极大似然函数为使得对数化的极大似然函数对不常用词出现的概率p的导数等于0,求得不常用词出现的概率便选出最终可以表达该句话的词语;
104、针对构建完成后的特征,进行降维、稀疏的处理;
105、根据人机对话历史文本数据进行模型的设计及其优化,建立机器学习模型,来对未知的人机对话进行意图识别。
2.根据权利要求1所述一种基于大数据的金融领域人机对话意图识别方法,其特征在于:步骤101所述预处理操作包括:(1)对文档进行切分,进行文本分词;所述文本分词包括词典的构造和分词算法的操作两个主要步骤;
(2)去停用词,利用人工规则对停用词进行处理,即利用人工建立的停用词词典对特殊符号,标点,数字进行替换。
3.根据权利要求2所述一种基于大数据的金融领域人机对话意图识别方法,其特征在于:所述词典的构造,利用双数组Trie数来构造字典树;采用最短路径方法进行分词操作。
4.根据权利要求1所述一种基于大数据的金融领域人机对话意图识别方法,其特征在于:步骤102所述划分训练集和验证集,采用留出法划分为训练集和验证集,在用留出法对数据进行划分时,采用的是分层抽样的方法。
5.根据权利要求4所述一种基于大数据的金融领域人机对话意图识别方法,其特征在于:所述分层抽样为,原始数据集为D,对D分层抽样分为训练集S和验证集T,使得S和T数据集中正负样本比例和D中保持一致。
6.根据权利要求1所述一种基于大数据的金融领域人机对话意图识别方法,其特征在于:步骤104所述特征降维、稀疏处理,具体包括:(1)利用奇异值对构建后的特征进行降维,奇异值利用对称矩阵来对特征进行降维处理,首先将特征表征为一个大的矩阵M,然后将特征矩阵利用正交基进行映射,映射完成之后,所得到的特征即为降维后的特征;
(2)降维之后的特征进行矩阵稀疏表达,采用三角矩阵的稀疏存储方式,可以在保证特征信息丢失较少的情况下,加快模型的训练过程。
7.根据权利要求1所述一种基于大数据的金融领域人机对话意图识别方法,其特征在于:步骤105所述模型采用DeepFFM模型,用构建完成的训练集去训练DeepFFM模型,对于训练好的模型,用验证集进行测试。