1.一种基于商品评论的新词提取方法,方法包括下述步骤:步骤1、利用网络爬虫工具,采集的商品的评论信息,保存到本地数据库。
步骤2、然后对保存的语料信息进行降噪处理和分词预处理。
步骤3、对预处理后的语料信息进行词拓展处理,提取出潜在词集。
步骤4、通过对潜在词集的频数、自由度计算进行初步候选词集筛选。
步骤5、对初步候选词集进行支持度计算筛选出最终候选词集。
步骤6、与已有词典进行比对,筛选出新词集合。
2.根据权利要求1所述的一种基于商品评论的新词提取方法,所述步骤4中的频数计算方法如下:输入潜在词集,计算词在其所在商品评论中出现的频率如果大于设定阈值将其输入初步候选词集,否则进行第二次筛选随机抽取根据商品相关性随机抽取10件同类商品下的
300条评论集合计算该潜在词的词频,如果大于设定阈值也输入初步候选词集合。
3.根据权利要求1所述的一种基于商品评论的新词提取方法,所诉步骤5中支持度的计算方法,具体如下:根据同类商品评论相关性大,且新词重复率高的特点设定一种支持度(SUP)计算方法, 其中P(c1)表示候选词C在该商品下评论中出现的频率,Pn(c)表示与c长度相同的候选词在词典中出现的频率,P(c2)表示候选词c在同类商品100条下评论中出现的频率,Pn(c)表示与c长度相同的候选词在词典中出现的频率。