1.一种基于商品评论的新词提取方法,其特征在于,所述方法包括下述步骤:步骤1、将利用网络爬虫工具采集的商品的评论信息保存到本地数据库;
步骤2、然后对保存的语料信息进行降噪处理和分词预处理;
步骤3、对预处理后的语料信息进行词拓展处理,提取出潜在词集,具体包括:对预处理后的词分别计算词与左右邻接字的共现频率,通过设定阈值进行初步过滤,将词和其左右字共现频率达到阈值的词再通过互信息计算其合并概率,如果互信息达到阈值将其合并成一个词在继续向左或向右拓展,否则输入到潜在词集合;
步骤4、通过对潜在词集的频数、自由度计算进行初步候选词集筛选,具体包括:第一次筛选,输入潜在词集,计算词在其所在商品评论中出现的频率如果大于设定阈值将其输入初步候选词集,否则进行第二次筛选随机抽取根据商品相关性随机抽取10件同类商品下的
300条评论集合计算该潜在词的词频,如果大于设定阈值也输入初步候选词集合;否则进行第三次筛选计算潜在词的自由度如果达到设定阈值将其加入初步候选词集,否则删除;
步骤5、对初步候选词集进行支持度计算筛选出最终候选词集,具体包括:
根据同类商品评论相关性大,且新词重复率高的特点设定一种支持度SUP计算方法,其中, 表示候选词C在该商品下评论中出现的频率, 表示与c长度相同的候选词在词典中出现的频率, 表示候选词c在同类商品100条下评论中出现的频率;
步骤6、与已有词典进行比对,筛选出新词集合。