1.基于主题词和语句主旨的自动匹配方法,其特征在于,包括以下步骤:获取第一文本,从所述第一文本中提取得到第二文本;切分所述第二文本,并将切分后得到文字进行编码,得到编码后的序列信息;所述第一文本包括待筛选文本和目标文本;
所述第二文本包括长文本和短文本;
根据所述编码后的序列信息对所述第一文本进行bert编码,对完成bert编码后的第一文本进行信息提取,得到主题词以及主旨要义向量;
根据所述主题词以及所述主旨要义向量得到匹配相关性;根据所述主题词、所述主旨要义向量以及所述匹配相关性训练第一预测模型,并得到所述待筛选文本和所述目标文本的匹配分数;
获取所述第一预测模型输出的历史匹配分数,根据所述历史匹配分数对所述第一预测模型提取的所述第一文本的特征进行存储,得到记忆特征;
根据所述记忆特征通过第二预测模型生成预测结果,根据所述匹配分数以及所述预测结果对所述第一文本的内容进行匹配;
所述第一预测模型通过注意力公式计算得到所述匹配分数,所述注意力公式如下:其中,表示相关性,z表示参数矩阵,tanh为激活函数,Wj代表候选简历特征j的权重矩阵,Wp代表当前招聘要求特征p的权重矩阵,b为偏置矩阵。
2.根据权利要求1所述的基于主题词和语句主旨的自动匹配方法,其特征在于,所述从所述第一文本中提取得到第二文本这一步骤,其具体为:对所述第一文本进行数据清洗,删除空行符号、连续空格以及敏感词汇,输出得到第二文本。
3.根据权利要求1所述的基于主题词和语句主旨的自动匹配方法,其特征在于,所述切分所述第二文本,并将切分后得到文字进行编码,得到编码后的序列信息这一步骤,其具体包括:创建字表,根据所述字表对所述第二文本进行切分,并对切分得到的文字进行编码,得到编码后的序列信息;
当所述第二文本中存在所述字表中未收录的文字;将所述文字设置为默认编码,并使得编码得到的所述编码后的序列信息与所述第二文本的长度一致。
4.根据权利要求1所述的基于主题词和语句主旨的自动匹配方法,其特征在于,所述根据所述主题词以及所述主旨要义向量得到匹配相关性这一步骤,其具体包括:生成所述主旨要义向量的均值,根据所述均值对所述主题词进行加权运算,根据所述加权运算的结果,得到所述主旨要义向量和所述主题词的匹配相关性。
5.根据权利要求1所述的基于主题词和语句主旨的自动匹配方法,其特征在于,所述根据所述记忆特征通过第二预测模型生成预测结果这一步骤,其具体包括:读取所述记忆特征,并获取当前待预测第一文本的特征;
根据所述记忆特征以及所述当前待预测第一文本的特征,通过第二预测模型生成预测结果。
6.根据权利要求1‑5任一项所述的基于主题词和语句主旨的自动匹配方法,其特征在于,所述切分所述第二文本,并将切分后得到文字进行编码,得到编码后的序列信息这一步骤,其还包括以下步骤:将若干所述短文本进行整合得到长文本,并对所述长文本进行编码,得到编码后的序列信息。
7.基于主题词和语句主旨的自动匹配系统,其特征在于,包括文本获取单元、文本编码单元以及深度学习单元;其中:所述文本获取单元,用于获取第一文本,从所述第一文本中提取得到第二文本;切分所述第二文本,并将切分后得到文字进行编码,得到编码后的序列信息;所述第一文本包括待筛选文本和目标文本;所述第二文本包括长文本和短文本;
所述文本编码单元,用于根据所述编码后的序列信息对所述第一文本进行bert编码,对bert编码后的第一文本进行信息提取,得到主题词以及主旨要义向量;
所述深度学习单元,用于根据所述主题词以及所述主旨要义向量得到匹配相关性;根据所述主题词、所述主旨要义向量以及所述匹配相关性训练第一预测模型,并得到所述待筛选文本和所述目标文本的匹配分数;并还用于获取所述第一预测模型输出的历史匹配分数,根据所述历史匹配分数对所述第一预测模型提取的所述第一文本的特征进行存储,得到记忆特征;
根据所述记忆特征通过第二预测模型生成预测结果,根据所述匹配分数以及所述预测结果对所述第一文本的内容进行匹配;
所述第一预测模型通过注意力公式计算得到所述匹配分数,所述注意力公式如下:其中,表示相关性,z表示参数矩阵,tanh为激活函数,Wj代表候选简历特征j的权重矩阵,Wp代表当前招聘要求特征p的权重矩阵,b为偏置矩阵。
8.基于主题词和语句主旨的自动匹配系统,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1‑6任一项所述的基于主题词和语句主旨的自动匹配方法。
9.一种存储介质,其中存储有处理器可执行的程序,其特征在于:所述处理器可执行的程序在由处理器执行时用于实现如权利要求1‑6中任一项所述的基于主题词和语句主旨的自动匹配方法。