1.基于自然语言处理的林业生态环境人机交互方法,其特征在于:该方法包括以下步骤:
S1:将输入的林业生态环境中的自然语言文本划分为词或短语;
S2:利用word2vec将词表征为向量,得到矩阵作为输入;
S3:词向量融合,将获取的量化描述融合成新的词向量;
S4:构建面向林业生态环境中的自然语言深度学习模型;
S5:基于半监督学习的林业生态环境的自然语言学习模型优化;
S6:表征学习下的三维张量知识图构建;
S7:表征学习下的林业生态系统中的自然语言知识图深度学习推理;
所述步骤S4具体为:通过选择合适的梯度表示,对学习模型进行交叉验证,检查学习模型是否存在缺陷;
所述步骤S5具体为:依据选择的基本表示结构,将稀疏表征下林业生态系统中的自然语言训练数据全集,提交给构建的深度学习模型进行无监督学习预训练,获得预训练权值;
完成预训练后,对训练数据中的不超过整体20%的部分数据集进行人工知识标注,将这些数据按照同样的表示结构提交给带有预训练权值的深度学习模型进行有监督训练;
所述步骤S6具体为:通过定义三元组(h,r,t)生成三维张量来构建语义知识图,其中,h代表头语义实体,r代表语义关系,t代表尾语义实体;通过张量分解,得到一个核心张量和一个因子矩阵,核心张量中每个二维矩阵切片代表一种语义关系,因子矩阵中每一行代表一个语义实体;由核心张量和因子矩阵还原的结果看作对应三元组成立的概率;
所述步骤S7具体为:利用人工设定的模板对已有的三元组进行扩展,生成自然语言问句;引入词嵌入概念将获取的知识图训练样本转换为低维空间向量,使知识推理转化为通过构建深度神经网络处理自然语言问句的问题,从而找到“问句实体——知识图实体”的对应关系,以及“问句自然语言描述——知识图语义关系”的对应关系;通过该神经网络模型的哈希、卷积、最大池化和语义映射运算之后得到答案类型、答案路径、答案周围实体三种特征向量;将这三种特征向量分别与问句向量做相似度计算,最终的推理得分由三种相似度求和而得;即S(q,a)=f1(q)Tg1(a)+f2(q)Tg2(a)+f3(q)Tg3(a),其中,f1(q)Tg1(a)表示答案类型的相似度,f2(q)Tg2(a)表示答案路径的相似度,f3(q)Tg3(a)表示答案周围实体的相似度。
2.根据权利要求1所述的基于自然语言处理的林业生态环境人机交互方法,其特征在于:所述步骤S1具体为:通过HanLP与Stanfordparser中的CRF句法分析器与最大熵依存句法分析器将文本划分为词或短语,并获取词性、词序、关键词和依存关系量化描述。
3.根据权利要求1所述的基于自然语言处理的林业生态环境人机交互方法,其特征在于:所述步骤S2具体为:利用Word2vec(Word To Vector)神经网络语言模型对词向量进行训练,将词汇转换成向量形式,从而把对文本的处理转化为向量空间中的向量运算,方便地完成各种NLP任务。
4.根据权利要求1所述的基于自然语言处理的林业生态环境人机交互方法,其特征在于:所述步骤S3具体为:根据不同自然语言处理任务的需要,词向量融合方式采取拼接、加权或者哈希计算;词向量融合效果由随后进行的无监督学习下稀疏表示过程的参数进行综合评判。