1.一种动机词汇的自动分类过滤生成创意点计算方法,其特征在于:包括如下步骤,S1、采用爬虫法对动机词汇语料信息进行采集,为动机词汇语料信息聚类处理提供基础依据;
S2、根据步骤S1获取的动机词汇语料信息,采用SVD进行动机词汇信息聚类处理;
S3、在对动机词汇进行聚类处理的基础上,利用贝叶斯网络计算动机词汇之间的相关性,并以本体理论为基础,按短语或者句子结构生成创意点,对动机词汇进行分类过滤生成。
2.根据权利要求1所述的动机词汇的自动分类过滤生成创意点计算方法,其特征在于:所述步骤S1具体实现如下,
S11、可获取信息权值的计算:
假设关键词汇集合W=(W1,W2,...,Wn),第i个关键词汇Wi有x(x≥1)个概念意义,记作从关键词汇集合转化到概念集合TW,每个关键词汇的概念可表示为:tjwi=(wi,tji),j=1,2,...,xi;则第i个动机词汇的第j个意义可表示为:则关键动机词汇tk在动机词汇语料库di里的动机词汇权值为:
其中,N为语料库di中动机词汇的总数,nk为包含关键动机词汇tk的动机词汇的总数,tfik为tk在语料库di中出现的频数;则语料库di的向量可表示为:di=(wi1,wi2,...,win);
S12、基于权值的动机词汇相关语料相关度计算:
先通过权值计算动机词汇属于每个类别的概率,用向量(w1,w2,...,wn)表示;计算获取的动机词汇语料库di中动机词汇属于每一类别的概率,可用下式进行表示:其中:|D|为动机词汇语料库di中类Bj的训练样本数,N(wm,di)为动机词汇wm在动机词汇语料库di中的词频,|V|为总动机词汇数, 为类Bj中所有动机词汇的词频和;则其动机词汇相关语料相关度可用下式进行计算:
式中: 训练样本数/总训练样本数, 为相似含义,|C|为类的总数,N(wm,di)为wm在动机词汇语料库di中的词频,n为关键动机词汇的总数,通过相关度计算,确定所要获取的动机词汇信息;
S13、基于相关度的动机词汇相关语料信息获取:
结合相关度的计算结果,通过爬虫去采集动机词汇相关语料信息,为动机词汇语料信息聚类处理提供基础依据。
3.根据权利要求1所述的动机词汇的自动分类过滤生成创意点计算方法,其特征在于:所述步骤S2具体实现如下,
S21、根据信息论,计算动机词汇出现的概率;定义基于带单个词汇在语料库中出现的平均信息量为:式中:Pi(w)为单个动机词汇w在语料库中出现的概率,n为常数;W(w)的值越大,说明单个动机词汇w所表示的平均信息量越大,单个动机词汇就越普通,可以当作是噪声词省略掉;
考虑到当一个动机词汇在句子中出现的平均信息量和包含该动机词汇的句子在语料库中的平均信息量都较大时,表示该词较为普通;定义两者之和为联合嫡W'(w):W'(w)=H(w)+H(s|w) (9)
单个动机词汇在句子中出现的平均信息量H(w):
包含此单个动机词汇w的句子在语料库中的平均信息量H(s|w):单个动机词汇w在语料库中出现的概率Pj(w):
包含单个动机词汇w的句子在语料库中出现的概率Pl(s|w):式中:fj(w)为单个动机词汇w在语料库中出现的频率,n为语料库中的动机词汇数,fl(s|w)为包含单个动机词汇的句子s在语料库l中出现的频率;
S22、通过计算阈值,对动机词汇特征进行选择;假设,TF是词频,表示特征tk在此语料库中出现的频率,IDF是反语料库频率,IDF=log(N/n),N表示语料库中所有的动机词汇数,n为包含特征tk的动机词汇数;IDF的的基本思想是如果包含某个特征tk的语料信息越少,IDF就越大,说明特征tk有很好的类别区分能力,则TF-IDF方法的计算公式如下所示:为了使TF值对权重的影响进一步降低,对上式进行改进,表达式如下所示:通过计算每个特征tk的期望交又嫡,选取预定数目的最佳特征作为结果的特征子集;计算公式如下:式中:P(tk)为特征tk出现的概率,P(Ci|tk)为类别Ci在特征tk出现情况下的概率,P(Ci)为Ci的出现概率;
S23、在根据信息增益法计算动机词汇的信息增益,当动机词汇特征tk信息增益大于给定值时作为特征项,计算公式如下:其中,n为特征集中的维数,pi为当前词汇特征出现的概率;当tk互信息量大于给定值时作为特征项;特征tk和类别Ci的互信息体现了特征与类别的相关程度;特征tk的互信息量为:S24、应用SVD进行动机词汇聚类处理,k为动机词汇向量中最关键的词汇元素,动机词汇向量是由n个特征组成的n维向量,由于每个动机词汇的特征数不同,可以认为每个动机词汇向量都处于一个空间中,若想要对不同的动机词汇进行聚类处理,就需要将不同维数的动机词汇向量映射到同一个空间中进行比较,降维节后的新矩阵也将大大减少文本处理中不良信息的干扰,则矩阵A进行奇异分解降维写成矩阵Ak:式中:ui和vi表示动机词汇特征向量和动机词汇向量的语义空间,同样的,在进行文本相似度计算的时候,需要将代表文本特征的向量映射到与Ak行向量具有相同的维数;则得到k维映射后的向量t'为:通过k维映射后,就可以得到初始向量的相似向量,接下来就可以采用SVD进行动机词汇聚类处理,假设有一组动机词汇序列(X,s)或者(X,d),其中X表示一组样本,s和d分别表示度量样本间相似度或相异度的标准;若C={C1,C2,...,Ck}其中Ci=(i=1,2,...,k)是X的子集,如下所示:X=C1∪C2...∪Ck (21)
对任意的i≠j,有Ci∩Cj=φ,C中的动机词汇C1,C2,...,Ck叫作簇;对于动机词汇特征相似度作为动机词汇相似度的聚类来说,让同一个聚类簇中的单个动机词汇间相似度更高,则得到聚类结果表达式如下所示:综上所述,在获取动机词汇语料信息的基础上,可采用SVD进行动机词汇信息聚类处理,为动机词汇自动分类过滤生成创意点的计算提供基础依据。