知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种基于词频-逆文档与CRF的文本匹配方法

￥28000

专利号： 2018100620163

申请人：重庆邮电大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2025-05-09

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于词频-逆文档与CRF的文本匹配方法，包括步骤：1：从网上搜集文本匹配语料集，包含产品描述与搜索词的句子对，关联匹配则其标签为1，否则为0，将语料集随机分为训练集语料和测试集语料，步骤2：采用中文分词算法对步骤1中处理好的语料进行分词，收集去停用词表，根据词表去除语料中的停用词；其特征在于，还包括以下步骤：步骤3：通过条件随机场CRF将步骤2中得到的语料中的训练集进行身份词、行为词及无关词的标记，对标记样本尾部加入词性作为外部特征，制作基于Bigram feature的属性特征模版，采用CRF++工具进行CRF建模，对标记好的文本进行学习，训练出属性模型，并获取文本中所有词的属性，依据相关性或相似性匹配对身份词或行为词做该词的权重增强；

步骤4：采用词频-逆文档TF-IDF对步骤2中得到的语料进行训练，并获取每个词的TF-IDF值作为该词TF-IDF权重；

步骤5：采用Word2vec对步骤2中处理好的的语料进行训练，得到词向量模型；

步骤6：将步骤3和步骤4得到的两种权重策略进行融合得到每个词的权重，再将每个词的权重与步骤5得到的对应词向量进行相乘，得到新的文本特征向量；

步骤7：将步骤6中得到的训练集语料的文本语义特征向量输入Softmax训练出文本匹配模型；

步骤8：将步骤6中得到的测试集语料的文本特征向量输入Softmax，根据步骤7中已经训练好的模型进行文本匹配并计算出匹配结果的准确率。

2.根据权利要求1所述的一种基于词频-逆文档与CRF的文本匹配方法，其特征在于，采用基于N-最短路径的中文分词算法对语料进行分词。

3.根据权利要求2所述的一种基于词频-逆文档与CRF的文本匹配方法，其特征在于，所述基于N-最短路径的中文分词算法对语料进行分词具体包括步骤：首先通过邻接表表示出每个词组之间的耦合关系，然后通过计算词组之间的耦合关系来确定初次的分词路径；最后当所有路径计算完毕后，找到最优的路径作为分词结果。

4.根据权利要求1-3之一所述的一种基于词频-逆文档与CRF的文本匹配方法，其特征在于，所述步骤3具体为：通过CRF将步骤2中得到的语料中的训练集进行标记，用户行为词、身份词和无意义词分别标注为act、ide、non，以提取用户的偏好信息及需求信息，对标记样本尾部加入词性作为外部特征，制作基于Bigram feature的属性特征模版，使得特征提取时考虑当前词与其前后各一个词的组合关系，采用CRF++工具进行CRF建模，对标记好的文本进行学习，训练出属性模型。

5.根据权利要求1-3之一所述的一种基于词频-逆文档与CRF的文本匹配方法，其特征在于，所述采用TF-IDF对步骤2中得到的语料进行训练，并获取每个词的TF-IDF值，TF-IDF算法以词语作为文本的特征项，每个特征项的权重由TF权值和IDF权值两个部分构成，具体包括：具体计算公式如下：

wji＝TFji·IDFi (2)

TFji＝fji/T (3)

IDFi＝log(N/ni+0.01) (4)

Wj＝{wj1,wj2,...,wji} (5)

TF,为特征项在文本中出现的频率，表示该词在当前文本中的重要程度，其中，T表示为第j个文本的全部词数，fji为第j个文本中第i个词在该文本中出现的次数，IDF为特征项的逆文档数，通过统观全局判断该词的重要性，其中N表示总共有N个文本，词i在ni个文本中出现，Wj表示第j个文本特征向量的权重集合，wji则为第j个文本中第i个词的权重。

6.根据权利要求1-3之一所述的一种基于词频-逆文档与CRF的文本匹配方法，其特征在于，所述步骤5采用Word2vec中分层Softmax算法的词袋模型DBOW，将步骤2中处理好的的语料输入模型中，获取得每个单词在向量空间上的表示。

7.根据权利要求6所述的一种基于词频-逆文档与CRF的文本匹配方法，其特征在于，所述步骤6将步骤3和步骤4得到的两种权重进行融合得到每个词的权重，再将每个词的权重与步骤5得到的对应词向量进行相乘，得到新的文本特征向量，具体为：将步骤4中得到的每个词的TF-IDF值与其对应的词向量进行相乘，并根据在步骤3中获取的用户属性词进行按倍数的权重增强，得到语义增强后的特征向量。

8.根据权利要求6所述的一种基于词频-逆文档与CRF的文本匹配方法，其特征在于，所述步骤8将得到的测试集语料的文本特征向量输入Softmax，根据已经训练好的模型进行文本匹配并计算出匹配结果的准确率，具体包括：将步骤6中得到的测试集语料的文本特征向量输入Softmax，根据步骤7中已经训练好的模型进行文本匹配，如果实际输出文本的标签等于1，判定该句子对内容是匹配的，如果实际输出文本的标签不等于1即标签等于0，判定该句子对内容是不匹配的，统计实际输出文本的标签与期望输出文本的标签之间不同的个数，计算句子对匹配的准确率。

9.根据权利要求6所述的一种基于词频-逆文档与CRF的文本匹配方法，其特征在于，所述CRF是基于判别式的无向图模型，采用是线性链条件随机场，x＝(x1，x2，…xn)代表的标记序列表示被观察的输入数据序列，y＝(y1，y2，…yn)表示一个状态序列，在给定一个输入序列的情况下，线性链的CRFs模型定义状态序列的联合条件概率为：其中，tj(yi-1,yi,x,i)是观察序列在i与i-1时刻的转移特征函数，sk(yi,x,i)是观察序列在i时刻的状态特征函数，参数λj和μk可以从训练数据中估计，获得非负值越大则优先选择相应的特征事件；若获得的负值越大，则说明相应的特征事件越不可能发生。