欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021116152292
申请人: 中科大数据研究院
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2023-08-14
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种中英文文献作者姓名融合消歧方法,其特征在于:包括以下步骤:步骤一、中文文献作者姓名消歧,包括以下步骤:S1、作者名称清洗:去除作者名称中的符号,根据百家姓对作者名称进行转化统一转化成姓+名的格式;

S2、作者所属机构清洗:将作者机构统一规整为所属机构主体名称;

S3、将中文文献作者两两进行对比,判断作者姓名是否相同,Ⅰ、若不同,将结果聚合,得到中文消歧结果;

Ⅱ、若相同,分别计算机构相似度、合作网络相似度、引用网络相似度和文献内容相似度,并根据机构相似度、合作网络相似度、引用网络相似度和文献内容相似度的结果判断是否为同一作者;判断标准为:

若机构相似度大于等于0.9,则作者合作网络相似度、作者引用网络相似度、文献内容相似度这三个相似度中有一个大于0.8,则认为是同一个人;

若机构相似度小于0.9,则作者合作网络相似度、作者引用网络相似度、文献内容相似度这三个相似度中有两个及以上大于0.8,则认为是同一个人;

(1)若是同一作者,打上相同作者ID,并对两两计算后的结果进行聚合,得到中文消歧结果;

(2)若不是同一作者,将结果聚合,得到中文消歧结果;

步骤二、英文文献作者姓名消歧,包括以下步骤:S1、作者名称清洗:去除作者名称中的符号,将作者姓名拼音统一转换成名+姓格式;

S2、作者所属机构清洗:去除机构名称中的符号,并将机构简写补全;

S3、将英文文献作者两两进行对比,判断作者姓名是否相同,Ⅰ、若不同,将结果集合得到英文消歧结果;

Ⅱ、若相同,分别计算机构相似度、合作网络相似度、引用网络相似度和文献内容相似度,并根据机构相似度、合作网络相似度、引用网络相似度和文献内容相似度判断是否为同一作者;判断标准为:

若机构相似度大于等于0.9,则作者合作网络相似度、作者引用网络相似度、文献内容相似度这三个相似度中有一个大于0.8,则认为是同一个人;

若机构相似度小于0.9,则作者合作网络相似度、作者引用网络相似度、文献内容相似度这三个相似度中有两个及以上大于0.8,则认为是同一个人;

(1)若是同一作者,打上相同作者ID,并对两两计算后的结果进行聚合,得到英文消歧结果;

(2)若不是同一作者,将结果聚合,得到英文文消歧结果;

步骤三、中、英文作者姓名融合消歧,包括以下步骤:S1、将中文消歧结果得出的中文文献作者、引用文献中的中文作者全部按照名+姓的格式转换成拼音格式,同时将中文作者所属机构翻译为英文;并根据作者ID进行分组;

S2、将英文消歧结果得到的作者ID进行分组;

S3、将中、英文文献作者姓名进行两两对比,判断姓名是否相同,Ⅰ、若不同,将结果聚合,完成中英文文献作者姓名消歧;

Ⅱ、若相同,分别计算中、英文文献的机构相似度、合作网络相似度、引用网络相似度、文献内容相似度和科研时长相似度,并根据机构相似度、合作网络相似度、引用网络相似度、文献内容相似度和科研时长相似度结果判断是否为同一作者;判断标准为:若机构相似度大于等于0.9,则作者合作网络相似度、作者引用网络相似度、文献内容相似度、科研时长相似度这四个相似度中有一个大于0.8,则认为是同一个人;

若机构相似度小于0.9,则作者合作网络相似度、作者引用网络相似度、文献内容相似度、科研时长相似度这三个相似度中有两个及以上大于0.8,则认为是同一个人;

(1)若中文文献和英文文献是同一作者,打上英文文献作者ID,完成中英文作者姓名消歧;

(2)若中文文献和英文文献不是同一作者,将结果聚合,完成中英文文献作者姓名消歧。

2.根据权利要求1所述的中英文文献作者姓名融合消歧方法,其特征在于:在步骤一中计算中文文献作者文献内容相似度包括以下步骤:(1)将标题、摘要、关键词拼接为一个字符串E;

(2)使用jieba分词对字符串E进行基于TF‑IDF算法的关键词抽取,并取Top 10的词及其权重,生成“{词+权重}数组F;

(3)将数组F中权重转换为1‑5的整数权重,得到转换后的{词+权重}数组G;转换标准为:

权重小于0.2:转为1

权重大于等于0.2,小于0.4:转为2权重大于等于0.4,小于0.6:转为3权重大于等于0.6,小于0.8:转为4权重大于等于0.8:转为5

(4)使用SimHash计算数组G的哈希值得到文本的语义指纹H;

(5)按照步骤(1)‑(4)分别计算得到同名作者两篇中文文献的语义指纹H1、H2;

(6)根据汉明距离计算两篇文献的内容相似度,相似度计算标准为:汉明距离=0,相似度=1

汉明距离=1,相似度=0.9

汉明距离=2,相似度=0.8

汉明距离>=3,相似度=0;

若汉明距离大于等于3,则两篇文献不相似;

若汉明距离小于3,则两篇文献相似。

3.根据权利要求1或2所述的中英文文献作者姓名融合消歧方法,其特征在于:在步骤二中计算英文文献作者文献内容相似度包括以下步骤:(1)将标题、摘要、关键词拼接为一个字符串E′;

(2)使用NLTK对字符串E′进行基于TF‑IDF算法的关键词抽取,并取Top 10的词及其权重,生成“{词+权重}数组F′;

(3)将数组F′中权重转换为1‑5的整数权重,得到转换后的{词+权重}数组G′;转换标准为:

权重小于0.2:转为1

权重大于等于0.2,小于0.4:转为2权重大于等于0.4,小于0.6:转为3权重大于等于0.6,小于0.8:转为4权重大于等于0.8:转为5

(4)使用SimHash计算数组G′的哈希值得到文本的语义指纹H′;

(5)按照步骤(1)‑(4)分别计算得到同名作者两篇中文文献的语义指纹H1′、H2′;

(6)根据汉明距离计算两篇文献的内容相似度,若汉明距离大于等于3,则两篇文献不相似;

若汉明距离小于3,则两篇文献相似。

4.根据权利要求1所述的中英文文献作者姓名融合消歧方法,其特征在于:步骤三中作者发表文献内容相似度计算方法为:S1、计算中文文献的语义指纹,包括以下步骤:(1)将中文作者消歧后的所有中文数据根据作者ID进行分组,一个作者可能会对应多篇文献,根据ID分组结果对同一个作者的所有文献分别进行摘要+标题+关键词合并,记为A1、A2、A3...;

(2)使用中文研究主题集Topic_zh分别对A1、A2、A3...进行匹配,分别获取其包含的中文研究主题和出现次数,生成“{中文研究主题+出现次数}数组”B1、B2、B3...;

(3)利用zh_To_en将B1、B2、B3...中的中文研究主题转为英文,生成“{英文研究主题+出现次数}数组”C1_zh_to_en、C2_zh_to_en、C3_zh_to_en...;

(4)对C1_zh_to_en、C2_zh_to_en、C3_zh_to_en...进行合并,相同的研究主题出现次数相加,取出现次数最多的10个研究主题,得到最终的“{英文研究主题+出现次数}数组”C_zh_to_en;

(5)使用SimHash计算C_zh_to_en的哈希值,得到中文文献的的语义指纹D_zh;

S2、计算英文文献的语义指纹,包括以下步骤:(1)对于英文作者消歧后的所有英文数据,根据作者ID进行分组,一个作者可能会对应多篇文献;根据作者ID分组结果,对同一个作者的所有文献分别进行摘要摘要+标题+关键词合并,记为A1′、A2′、A3′...;

(2)使用英文研究主题集Topic_en分别对A1′、A2′、A3′...进行匹配,分别获取到其包含的英文研究主题及其出现次数,生成“{英文研究主题+出现次数}数组”B1′、B2′、B3′...;

(3)对B1′、B2′、B3′...进行合并,相同的研究主题出现次数相加,取出现次数最多的10个研究主题,得到最终的“{英文研究主题+出现次数}数组”C_en;

(4)使用SimHash计算C_en的哈希值,得到英文文献的的语义指纹D_en;

S3、通过D_zh、D_en的汉明距离计算文献内容相似度,若D_zh、D_en汉明距离小于3则两篇文献内容相似;

若D_zh、D_en汉明距离大于等于3则两篇文献内容不相似。

5.根据权利要求1所述的中英文文献作者姓名融合消歧方法,其特征在于:步骤三中针对中文文献作者拼音与英文文献作者名称相同的文献计算科研时长相似度,计算方法为:(1)将中文作者消歧后的所有中文数据,将作者ID进行分组,根据分组结果找到作者所有中文文献中发表时间最早的一篇文献,计算最早文献发表年份距当前年份的时间差作为中文文献作者的科研时长R_zh;

(2)将英文作者消歧后的所有英文数据,将作者ID进行分组,根据分组结果找到作者所有英文文献中发表时间最早的一篇文献,计算最早文献发表年份距当前年份的时间差作为英文文献作者的科研时长R_en;

(3)若中文文献作者的拼音与英文文献中作者名称相同,计算R_zh与R_en的差值R_diff,

(4)计算科研时长相似度,计算标准为:R_diff=0,则相似度=1

1=

3=4,则相似度=0。

6.根据权利要求1所述的中英文文献作者姓名融合消歧方法,其特征在于:在步骤一、步骤二和步骤三中,均采用杰卡德相似系数分别计算合作网络相似度和引用网络相似度。