1.一种基于文档评分模型和相关度的学术论文搜索排序方法,其特征在于,该方法包含如下步骤:步骤1:对论文库进行预处理
a)搜索前,先对论文库进行预处理和标准化工作,得到每篇论文的发表年份dt、发表期刊的等级dr、论文被引用次数dc以及论文搜索后的被点击查看次数dv;
b)将这些数据连同论文内容本身都加入到搜索引擎的索引库中,使之可以在搜索评分的时候被使用;
步骤2:基于文档评分模型和相关度的学术论文搜索排序步骤2.1:对论文文档建立评分模型
a)在搜索过程中,得到搜索词Q的搜索结果论文文档集合D;
b)对于集合D中每一篇论文文档d建立论文文档评分模型P(d):P(d)=T(d)M(d)F(d)
T(d)代表论文文档的时间因子,P(d)代表论文文档的质量因子,F(d)代表论文文档的反馈因子;
c)先计算论文文档的时间因子T(d);
d)再计算论文文档的质量因子M(d);
e)接着计算论文文档的反馈因子F(d);
f)根据上面的计算结果,得到论文文档评分模型分值P(d);
步骤2.2:计算综合评分
a)每篇论文文档的综合评分由两部分组成,即搜索词与论文文档的相关度R(Q,d),以及论文文档评分模型P(d);对于某一搜索词Q,如果它可以分成多个更小的词,那么搜索引擎的分词工具就会将其分为多个语素qi;所以分别计算每个语素与论文文档的评分,最后进行求和得到R(Q,d);所以有:Score(Q,d)=R(Q,d)P(d)w(qi)代表语素qi的权重,R(qi,d)代表语素qi与论文文档d之间的相关度评分;
b)先计算语素qi的权重w(qi);
c)再计算语素qi与论文文档d之间的相关度评分R(qi,d);
d)计算出每个语素qi与论文文档d之间的相关度评分之后进行求和,得到搜索词Q与论文文档d的相关度评分R(Q,d);
e)最后结合论文文档评分模型分值P(d),计算得到搜索词Q与当前文档d的综合评分Score(Q,d);
步骤2.3:搜索结果排序并返回
a)依次计算相关论文文档集合D中每篇文档的综合评分;
b)根据该评分对集合D中的论文文档进行排序;
b)返回排序后的结果给搜索者。
2.根据权利要求1所述的一种基于文档评分模型和相关度的学术论文搜索排序方法,其特征在于:步骤2.1中论文文档的时间因子T(d)按如下公式计算:其中dt为论文的发表年份;θ为一个常数年份值,取当前年份和论文库中论文的最早发表年份的中间值,即current_year表示当前年份,oldest_year表示论文库中最早的论文的发表年份;α、β、γ分别为调节因子,调节时间因素对于评分的影响。
3.根据权利要求1所述的一种基于文档评分模型和相关度的学术论文搜索排序方法,其特征在于:步骤2.1中论文文档质量因子M(d)按如下公式计算:M(d)=[log(dc+1)]·g(dr)其中dc为论文被引用次数,dr为论文发表期刊的等级,g(dr)为每种论文期刊等级对应的常数影响值。
4.根据权利要求1所述的一种基于文档评分模型和相关度的学术论文搜索排序方法,其特征在于:步骤2.1中论文文档反馈因子F(d)按如下公式计算:其中dv为论文被搜索之后点击查看的次数,δ为一个常数值,代表论文被点击查看次数的阈值。
5.根据权利要求1所述的一种基于文档评分模型和相关度的学术论文搜索排序方法,其特征在于:步骤2.2中语素qi的权重w(qi)按如下公式计算:其中,N表示论文库中所有文档的数量,n(qi)表示包含语素qi的文档的数量。
6.根据权利要求1所述的一种基于文档评分模型和相关度的学术论文搜索排序方法,其特征在于:步骤2.2中语素qi与论文文档d之间的相关度评分R(qi,d)按如下公式计算:其中,fi表示语素qi在论文文档d中出现的次数,dl为d的长度,avgdl则为所有论文文档的平均长度;k1和b为调节因子,调节词频和论文文档长度对于相关度的影响。