1.一种基于TF‑IDF的主题词提取方法,其特征在于,所述方法包括:获取多个商品描述文本,所述多个商品描述文本中包括一个目标文本;
将所述多个商品描述文本进行分词处理,所述目标文本包括目标分词;
针对于同一目标分词,根据所述目标分词在所述目标文本中出现的频率以及所述目标分词的逆向文本频率得到所述目标分词的第一权值;
根据所述目标分词的词性,得到所述目标分词的第二权值;
根据所述目标分词在所述目标文本中的位置,得到所述目标分词的第三权值;
根据所述目标分词在所述多个商品描述文本出现的次数,得到所述目标分词的第四权值;
根据所述第一权值、所述第二权值、所述第三权值以及所述第四权值确定所述目标分词的目标权值,并根据所述目标文本中所有目标分词的目标权值得到所述目标文本的主题词提取结果;
所述根据所述目标分词在所述目标文本中出现的频率以及所述目标分词的逆向文本频率得到所述目标分词的第一权值,包括:根据第一公式确定所述目标分词在所述目标文本中出现的频率,所述第一公式包括:其中,TF表示所述目标分词在所述目标文本中出现的频率,ni,j表示所述目标分词在所述目标文本中出现的次数,∑nk,j表示所述目标文本中的分词总数;
根据第二公式确定所述目标分词的逆向文本频率,所述第二公式包括:其中,IDF表示所述目标分词的逆向文本频率,D表示所述多个商品描述文本的文本总数,|{j:ti∈dj}|表示包含所述目标分词的商品描述文本数目;
根据所述目标分词在所述目标文本中出现的频率以及所述目标分词的逆向文本频率得到所述目标分词的第一权值,包括:根据第三公式确定所述目标分词第一权值,所述第三公式包括:Ti=TFi×IDFi
其中,Ti表示第i个目标分词的第一权值,TFi表示第i个目标分词在所述目标文本中出现的频率,IDFi表示第i个目标分词的逆向文本频率;
所述根据所述目标分词的词性,得到所述目标分词的第二权值,包括:确定不同的词性权重,根据所述不同的词性权重得到所述目标分词的第二权值;
所述根据所述目标分词在所述目标文本中的位置,得到所述目标分词的第三权值,包括:根据第四公式确定所述目标分词的第三权值,所述第四公式包括:其中,Posi表示目标分词在句子中的位置,Address_leni表示目标分词所在句子的长度,Weight_Posi表示所述目标分词第三权值;
所述根据所述目标分词在所述多个商品描述文本出现的次数,得到所述目标分词的第四权值,包括:根据第五公式确定所述目标分词的第四权值,所述第五公式包括:其中,Num_Wi表示所述目标分词Wordi出现在所述多个商品描述文本出现的总次数,Num_Di表示所述目标分词在所述多个商品描述文本出现的文本数,Freq(Wordi)表示所述目标分词的第四权值;
所述根据所述第一权值、所述第二权值、所述第三权值以及所述第四权值确定所述目标分词的目标权值,包括:根据第六公式确定所述目标分词的目标权值,所述第六公式包括:其中,Ni表示目标分词i的目标权值,Ti表示第一权值,Pi表示第二权值,Wi表示所述第三权值,Fi表示所述第四权值。
2.一种基于TF‑IDF的主题词提取装置,其特征在于,所述装置包括:获取模块,用于获取多个商品描述文本,所述多个商品描述文本中包括一个目标文本;
分词模块,用于将所述多个商品描述文本进行分词处理,所述目标文本中包括目标分词;
第一计算模块,用于根据所述目标分词在所述目标文本中出现的频率以及所述目标分词的逆向文本频率得到所述目标分词的第一权值;
第二计算模块,用于根据所述目标分词的词性,得到所述目标分词的第二权值;
第三计算模块,用于根据所述目标分词在所述目标文本中的位置,得到所述目标分词的第三权值;
第四计算模块,用于根据所述目标分词在所述多个商品描述文本出现的次数,得到所述目标分词的第四权值;
确定模块,用于根据所述第一权值、所述第二权值、所述第三权值以及所述第四权值确定所述目标分词的目标权值,并根据所述目标文本中所有目标分词的目标权值得到所述目标文本的主题词提取结果;
所述根据所述目标分词在所述目标文本中出现的频率以及所述目标分词的逆向文本频率得到所述目标分词的第一权值,包括:根据第一公式确定所述目标分词在所述目标文本中出现的频率,所述第一公式包括:其中,TF表示所述目标分词在所述目标文本中出现的频率,ni,j表示所述目标分词在所述目标文本中出现的次数,∑nk,j表示所述目标文本中的分词总数;
根据第二公式确定所述目标分词的逆向文本频率,所述第二公式包括:其中,IDF表示所述目标分词的逆向文本频率,D表示所述多个商品描述文本的文本总数,|{j:ti∈dj}|表示包含所述目标分词的商品描述文本数目;
根据所述目标分词在所述目标文本中出现的频率以及所述目标分词的逆向文本频率得到所述目标分词的第一权值,包括:根据第三公式确定所述目标分词第一权值,所述第三公式包括:Ti=TFi×IDFi
其中,Ti表示第i个目标分词的第一权值,TFi表示第i个目标分词在所述目标文本中出现的频率,IDFi表示第i个目标分词的逆向文本频率;
所述根据所述目标分词的词性,得到所述目标分词的第二权值,包括:确定不同的词性权重,根据所述不同的词性权重得到所述目标分词的第二权值;
所述根据所述目标分词在所述目标文本中的位置,得到所述目标分词的第三权值,包括:根据第四公式确定所述目标分词的第三权值,所述第四公式包括:其中,Posi表示目标分词在句子中的位置,Address_leni表示目标分词所在句子的长度,Weight_Posi表示所述目标分词第三权值;
所述根据所述目标分词在所述多个商品描述文本出现的次数,得到所述目标分词的第四权值,包括:根据第五公式确定所述目标分词的第四权值,所述第五公式包括:其中,Num_Wi表示所述目标分词Wordi出现在所述多个商品描述文本出现的总次数,Num_Di表示所述目标分词在所述多个商品描述文本出现的文本数,Freq(Wordi)表示所述目标分词的第四权值;
所述根据所述第一权值、所述第二权值、所述第三权值以及所述第四权值确定所述目标分词的目标权值,包括:根据第六公式确定所述目标分词的目标权值,所述第六公式包括:其中,Ni表示目标分词i的目标权值,Ti表示第一权值,Pi表示第二权值,Wi表示所述第三权值,Fi表示所述第四权值。
3.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1所述的基于TF‑IDF的主题词提取方法。
4.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1所述的基于TF‑IDF的主题词提取方法。