1.一种基于KL距离相似性度量的研究热点演变行为检测方法,其特征在于:包括如下步骤:步骤1:获取刊物文献,并基于刊物文献的发表时间构建具有时间属性的主题词语料库;
其中,以刊物文献的发表时间划分时间片,所述主题词语料库由各个时间片上的数据集构成,每个时间片上的数据集由相匹配时间发表的刊物文献的文献特征向量构成;
式中,Ct为时间片t上的数据集,(wi,ji)为刊物文献i的文献特征向量,wi为刊物文献i的特征词集合,ji为刊物文献i所属的刊物,ci为特征词集合中的第i个特征词,n1为时间片t上刊物文献的数量,n2为刊物文献i上特征词的数量;
其中,刊物文献的特征词是刊物文献的内容进行分词处理后得到的;
步骤2:基于刊物主题性与时序性构建时序刊物主题模型;
其中,所述时序刊物主题模型中每个时间片对应一个刊物主题模型,两个相邻时间片中下一时间片的刊物主题模型中刊物-主题分布θ的狄利克雷先验参数α、主题-词分布φ的狄利克雷先验参数β与上一时间片的两个狄利克雷先验参数α、β相关联;
步骤3:基于时序刊物主题模型中各个时间片上的刊物主题模型依次对相匹配时间片上的数据集进行主题提取得到每个时间片上的刊物-主题分布以及主题-词分布;
步骤4:获取待测刊物在各个时间片上主题以及主题-词分布,并基于主题-词分布计算同一待测刊物在相邻时间片上每任意两个主题之间的KL距离,再基于主题快照刊物研究热点演变模型得出待测刊物中各个主题的演变行为;
其中,所述主题快照刊物研究热点演变模型包括主题延续、新生、消亡、分裂和融合五类演变行为检测规律,每类演变行为检测规律均基于相邻时间片上主题的相似性以及演变行为特性鉴别,所述演变行为特性与相似性相关,两个主题的相似性采用KL距离度量。
2.根据权利要求1所述的方法,其特征在于:所述主题快照刊物研究热点演变模型包括如下检测规律:a:时间片t上的主题i仅与相邻下一时间片t+1上一个主题的KL距离小于相似性阈值,且与相邻下一时间片t+1上剩余主题的KL距离均大于或等于相似性阈值时,主题i在下一时间片t+1中保持延续:b:时间片t上的主题i与相邻上一时间片t-1上每个主题的KL距离均大于相似值阈值时,时间片t上的主题i为新生主题:c:时间片t上的主题i与相邻下一时间片t+1上每个主题的KL距离均大于相似值阈值时,时间片t上的主题i在下一时间片t+1中没有延续,主题i消亡:d:时间片t上的主题i与相邻下一时间片t+1上至少两个主题的KL距离均小于相似值阈值时,时间片t上的主题i在下一时间片t+1中分裂为多主题:e:时间片t上的主题i与相邻上一时间片t-1上至少两个主题的KL距离均小于相似值阈值时,时间片t上的主题i由上一时间片t-1中多主题融合而来。
3.根据权利要求2所述的方法,其特征在于:所述主题快照刊物研究热点演变模型中各个检测规律的检测公式如下:a规律中延续演变行为的检测公式为:
式中, 分别为t时间片上主题i与t+1时间片上主题j、t时间片上主题i与t+1时间片上主题k之间的KL距离, 分别为t时间片上主题i、t+1时间片上主题j、t+1时间片上主题k的主题-词分布,Tt+1为t+1时间片上主题集合,threshold_A为相似性阈值;
b规律中新生主题演变行为的检测公式为:
式中, 为t-1时间片上主题j与t时间片上主题i之间的KL距离,Tt-1为t-1时间片上主题集合;
c规律中消亡演变行为的检测公式为:
d规律中分裂演变行为的检测公式为:
e规律中融合演变行为的检测公式为:
4.根据权利要求1所述的方法,其特征在于:两个主题的KL距离计算公式如下:式中, 为t-1时间片上主题j与t时间片上主题i的KL距离, 分别表示t-1时间片上主题j、t时间片上主题i的主题-词分布, 分别为 主题-词分布下主题词x的词概率,X表示主题 中的主题词集合,x表示X中的任意一个主题词。
5.根据权利要求1所述的方法,其特征在于:所述相似性阈值为0.4。
6.根据权利要求1所述的方法,其特征在于:步骤2中相邻时间片上的刊物主题模型中刊物-主题分布θ的狄利克雷先验参数α、主题-词分布φ的狄利克雷先验参数β相互关联如下:βt|βt-1~N(βt-1,σ2I)
αt|αt-1~N(αt-1,δ2I)
式中,βt、βt-1分别为时间片t、时间片t-1上的刊物主题模型中主题-词分布的狄利克雷先验参数,αt、αt-1分别为时间片t、时间片t-1上的刊物主题模型中刊物-主题分布的狄利克雷先验参数,N(βt-1,σ2I)和N(αt-1,δ2I)均为正态分布,σ2I与δ2I表示对应随机变量的方差;
βt|βt-1~N(βt-1,σ2I)表示时间片t下的主题-词分布的先验参数βt受上一时间片t-1下的主题-词分布的先验参数βt-1的影响并满足N(βt-1,σ2I)分布,αt|αt-1~N(αt-1,δ2I)表示时间片t下的刊物-主题分布的先验参数αt受上一时间片t-1下的刊物-主题分布的先验参数αt-1的影响并满足N(αt-1,δ2I)分布。
7.根据权利要求6所述的方法,其特征在于:步骤2中所述时序刊物主题模型的主题数目以及第一个时间片上的刊物主题模型中刊物-主题分布θ的狄利克雷先验参数α、主题-词分布φ的狄利克雷先验参数β为预设值。
8.根据权利要求7所述的方法,其特征在于:所述时序刊物主题模型的主题数目为50。
9.根据权利要求7所述的方法,其特征在于:第一个时间片上的刊物主题模型中刊物-主题分布θ的狄利克雷先验参数α为1、主题-词分布φ的狄利克雷先验参数β为0.01。