欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020116138549
申请人: 中科院计算技术研究所大数据研究院
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2023-08-14
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种中英文论文数据分类与查询方法,其特征在于:包括以下步骤:步骤一、根据中文论文发表时自带的中英文关键词,对中文论文的原始数据进行遍历,提取所有中文论文中的中英文关键词,对提取的数据进行清洗与过滤处理,排除异常数据后对中文翻译结果进行聚合,将大于阈值agg的翻译列表作为中文对应的中英文对照库,按照中英文对照库抽取中文关键词生成中文词库;

步骤二、通过现有的模型或构建的LDA领域模型获取英文学术领域标签库,所述英文学术领域标签库为二层树形结构,包括大领域标签和小领域标签,所述小领域标签归属于大领域标签;

步骤三、结合英文学术领域标签库和中英文对照库进行关联,若英文标签库中的标签在中英文对照库中可以找到,则将对应中文关联在英文标签库中的英文标签上;若英文标签库中的标签在中英文对照库中无法找到,则通过现有机器翻译进行转换,通过机器翻译模型,将tag_1进行机器翻译;最终将英文标签库生成中英领域标签库并将其与英文标签库对应;

步骤四、将步骤一生成的中文词库结合中文分词器生成带有自定义词库的分词器,分别对中文论文原始数据和英文论文原始数据的关键词、摘要和标题通过分词器进行分词,生成对应的中文分词列表和英文分词列表;

步骤五、使用KNN算法计算论文的领域;

步骤六、结合词库对信息进行查询。

2.根据权利要求1所述的中英文论文数据分类与查询方法,其特征在于:步骤一中对数据处理方法为:首先对中文论文的原始数据进行遍历,抽取中英文关键词,然后排除异常数据,对中文翻译的结果进行聚合处理,然后将大于某一阈值的翻译列表作为中文对应的翻译结果。

3.根据权利要求1所述的中英文论文数据分类与查询方法,其特征在于:步骤一中阈值agg制定策略为:记关键词最多翻译数量为max_trans、最小翻译数量为min_trans,若max_trans‑min_trans<3,阈值取agg=1;若max_trans‑min_trans≥3,阈值取max_trans‑3。

4.根据权利要求1所述的中英文论文数据分类与查询方法,其特征在于:步骤五包括以下内容:

(1)便利每一篇论文生成的分词列表;

(2)采用K近邻算法计算分词列表的相关度,公式为:式中:qx为中英文标签库中的标签,若xj等于中英文标签库中的某一个标签qk,则数值记为1,否则为0;count表示第i篇论文中所有分词对于标签库中标签qk的计算值;

若Count大于设定阈值,则记这篇论文属于这个标签指定的领域;

若count不大于设定阈值,则通过比较英文标签库中所有大领域标签下的小领域标签匹配数量,记这篇论文属于小领域标签匹配数量多的领域。