欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020100873376
申请人: 安徽理工大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-08-19
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于商品评论的新词提取方法,其特征在于,所述方法包括下述步骤:步骤1、将利用网络爬虫工具采集的商品的评论信息保存到本地数据库;

步骤2、然后对保存的语料信息进行降噪处理和分词预处理;

步骤3、对预处理后的语料信息进行词拓展处理,提取出潜在词集,具体包括:对预处理后的词分别计算词与左右邻接字的共现频率,通过设定阈值进行初步过滤,将词和其左右字共现频率达到阈值的词再通过互信息计算其合并概率,如果互信息达到阈值将其合并成一个词在继续向左或向右拓展,否则输入到潜在词集合;

步骤4、通过对潜在词集的频数、自由度计算进行初步候选词集筛选,具体包括:第一次筛选,输入潜在词集,计算词在其所在商品评论中出现的频率如果大于设定阈值将其输入初步候选词集,否则进行第二次筛选随机抽取根据商品相关性随机抽取10件同类商品下的

300条评论集合计算该潜在词的词频,如果大于设定阈值也输入初步候选词集合;否则进行第三次筛选计算潜在词的自由度如果达到设定阈值将其加入初步候选词集,否则删除;

步骤5、对初步候选词集进行支持度计算筛选出最终候选词集,具体包括:

根据同类商品评论相关性大,且新词重复率高的特点设定一种支持度SUP计算方法,其中, 表示候选词C在该商品下评论中出现的频率, 表示与c长度相同的候选词在词典中出现的频率, 表示候选词c在同类商品100条下评论中出现的频率;

步骤6、与已有词典进行比对,筛选出新词集合。