欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019105980047
申请人: 淮阴工学院
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于潜在语义分析和随机投影的文本相似度计算方法,其特征在于,包括如下步骤:(1)将tag向量化得到词条标签向量集V1,并对其使用TF-IDF算法得到标签权重向量集V2;

(2)对V2使用LSA算法得到LSA模型M1和索引库I1;

(3)对V2使用随机投影算法得到RP模型M2和索引库I2;

(4)对待处理语料使用TF-IDF处理,并进行LSA和RP处理,得到最终的推荐集。

2.根据权利要求1所述的一种基于潜在语义分析和随机投影的文本相似度计算方法,其特征在于,所述步骤(1)中得到标签权重向量集V2的具体步骤如下:(1.1)定义D1为百科词条数据集,D1={id1,title1,paragraph1,image1,url1,tag1},其中id1,title1,paragraph1,image1,url1,tag1分别表示编号、标题、段落、图片链接、网页链接和词条标签;

(1.2)通过对tag1使用split方法得到T1={wi1,wi2,…,win},wiA是百科词条数据集第A个词条标签集,其中,变量A∈[1,n];

(1.3)通过对T1使用Dictionary方法得到词典Dict1;

(1.4)将词典Dict1保存至本地;

(1.5)通过对T1使用Doc2Bow方法得到词条标签向量集V1={vi1,vi2,…,vin},viA是词条标签向量集V1的第A个词条标签向量,其中,变量A∈[1,n];

(1.6)通过对V1进行TF-IDF方法得到词条标签权重向量集V2={vj1,vj2,…,vjn},vjA是词条标签权重向量集V2的第A个词条标签权重向量,其中,变量A∈[1,n];

(1.7)将标签权重向量集V2保存至本地。

3.根据权利要求1所述的一种基于潜在语义分析和随机投影的文本相似度计算方法,其特征在于,所述步骤(2)中对V2使用LSA算法得到LSA模型M1和索引库I1的具体步骤如下:(2.1)从本地载入标签权重向量集V3,V3={vk1,vk2,…,vkn},vkB是词条标签权重向量集V3的第B个权重向量,其中,B∈[1,n];

(2.2)从本地载入词典Dict2;

(2.3)定义id2word=Dict2,主题数num_topics=300;

(2.4)通过对V3使用LSA方法训练,传入参数id2word和num_topics得到模型M1;

(2.5)通过模型M1对V3进行处理得到包装语料C1;

(2.6)对C1建立索引库得到索引库I1;

(2.7)保存模型M1和索引库I1。

4.根据权利要求1所述的一种基于潜在语义分析和随机投影的文本相似度计算方法,其特征在于,所述步骤(3)中对V2使用随机投影算法得到RP模型M2和索引库I2的具体步骤如下:(3.1)从本地载入标签权重向量集V4,V4={vl1,vl2,…,vln},vlC是词条标签权重向量集V4的第C个权重向量,其中,C∈[1,n];

(3.2)定义主题数num_topics=500;

(3.3)通过对V4使用RP方法训练,传入参数num_topics得到模型M2;

(3.4)通过模型M2对V4进行处理得到包装语料C2;

(3.5)对C2建立索引库得到索引库I2;

(3.6)保存模型M2和索引库I2。

5.根据权利要求1所述的一种基于潜在语义分析和随机投影的文本相似度计算方法,其特征在于,所述步骤(4)中得到最终的推荐集的具体步骤如下:(4.1)定义D2为百科词条测试集,D2={id2,title2,paragraph2,image2,url2,tag2},其中id2,title2,paragraph2,image2,url2,tag2分别表示编号、标题、段落、图片链接、网页链接和词条标签;

(4.2)将title2作为输入,通过对tag2使用split方法得到T2={wj1,wj2,…,wjn},wjD是百科词条数据集第D个词条标签集,其中,变量D∈[1,n];

(4.3)通过对T2使用Doc2Bow方法得到词条标签向量集V5={vm1,vm2,…,vmn},vmE是词条标签向量集V5的第E个词条标签向量,其中,变量E∈[1,n];

(4.4)通过对V5进行TF-IDF方法得到词条标签权重向量集V6={vo1,vo2,…,von},voF是词条标签权重向量集V6的第F个词条标签权重向量,其中,变量F∈[1,n];

(4.5)定义变量k=1为循环变量,用来遍历V6;

(4.6)定义集合R1、R2和R3,R1={simi1,simi2,…,simin},R2={simj1,simj2,…,simjn},R3为空集,simiG和simjG分别表示R1和R2中第G个相似度集,simiG和simjG初始值为空,其中,G∈[1,n];

(4.7)导入LSA模型M3和随机投影模型M4,导入LSA索引库I3和随机投影索引库I4;

(4.8)如果k<=n则转到步骤(4.9),否则转到步骤(4.14);

(4.9)通过对vok使用LSA方法包装得到vec1k,通过对vok使用随机投影方法包装得到vec2k;

(4.10)通过对vec1k检索索引库I3,使用余弦相似度计算得到与I3中元素与vec1k的相似度集并存入simik,通过对vec2k检索索引库I4,使用余弦相似度计算得到与I4中元素与vec2k的相似度集并存入simjk;

(4.11)将simik和simjk对应元素相加后取平均值得到simlk;

(4.12)将simlk插入R3中;

(4.13)k=k+1,转到步骤(4.8);

(4.14)取R3每个集合中相似度最高的8个元素组成集合存入结果集R4,R4中各元素即为推荐集。