1.一种基于知识图谱技术的全栈式电价咨询与管理系统,其特征在于,该系统包括:
政策文档采集模块:采集当前政策文档数据,获取原始矩阵及当前词性矩阵;获取若干历史政策文档数据,得到每个历史政策文档数据的历史词矩阵及历史词性矩阵;
数据降维重构模块:对原始矩阵进行奇异值分解,获取若干奇异值及对应子矩阵,分别将每个奇异值对应子矩阵从原始矩阵中去除后进行矩阵重构得到每个奇异值的第一重构矩阵,根据第一重构矩阵中每个矩阵元素在原始矩阵中相同矩阵元素所对应分词的词性,获取第一重构矩阵的第一词性矩阵;根据当前词性矩阵及第一词性矩阵获取每一行的当前词性曲线及第一词性曲线,根据历史词性矩阵获取每一行的词性分布曲线,根据第一词性曲线及当前词性曲线与词性分布曲线的差异获取每个奇异值及对应子矩阵的干扰信息程度;
构造若干奇异值组合,奇异值组合内的奇异值数量为a个,获取包含当前奇异值的若干奇异值组合,根据所述包含当前奇异值的若干奇异值组合分别重构得到当前奇异值的若干第二重构矩阵,根据第二重构矩阵中每个矩阵元素在原始矩阵中相同矩阵元素所对应分词的词性,获取第二重构矩阵的第二词性矩阵,获取第二词性矩阵中每一行的第二词性曲线,获取第二重构矩阵中每一行的句向量,根据两个第二重构矩阵中相同行之间的第二词性曲线及句向量之间的关系获取两个第二重构矩阵之间的语义相似程度,将任意一个奇异值的所有任意两个第二重构矩阵之间的语义相似程度的均值作为该奇异值及对应子矩阵的语义信息量;
根据干扰信息程度及语义信息量获取每个奇异值及对应子矩阵的选择程度,将所有选择程度降序排列,选取最大的前a个选择程度,根据选取的选择程度对应的奇异值及对应子矩阵获取第三重构矩阵;
知识图谱生成模块,对每个历史政策文档数据降维得到历史重构矩阵,根据第三重构矩阵及历史重构矩阵进行聚类,根据聚类结果生成知识图谱;
所述获取原始矩阵及当前词性矩阵,包括的具体方法为:
通过分词处理获取当前政策文档数据的若干分词,以当前政策文档数据中的每个句子为一行,将每个句子中的分词利用数字进行排序,每个矩阵元素代表一个分词,得到的矩阵记为原始矩阵;
获取当前政策文档数据中每个分词的词性,以当前政策文档数据中的每个句子为一行,将每个句子中的分词的词性利用数字进行排序,每个矩阵元素代表一个分词的词性,得到的矩阵记为当前词性矩阵;
所述分别将每个奇异值对应子矩阵从原始矩阵中去除后进行矩阵重构得到每个奇异值的第一重构矩阵的具体过程为:将原始矩阵记为A,根据奇异值分解的原始矩阵A展开式为:
其中,表示奇异值的数量, 表示第 个奇异值, 及 表示第 个奇异值的对应子矩阵, 表示矩阵 的转置矩阵;
从原始矩阵A展开式的所有奇异值中去除第 个奇异值进行矩阵重构,得到的矩阵中每个元素向上取整,将原始矩阵中为0的矩阵元素,在取整后的矩阵中相同位置的矩阵元素也替换为0,记为第 个奇异值的第一重构矩阵。
2.根据权利要求1所述的一种基于知识图谱技术的全栈式电价咨询与管理系统,其特征在于,所述根据当前词性矩阵及第一词性矩阵获取每一行的当前词性曲线及第一词性曲线,包括的具体方法为:根据当前词性矩阵及第一词性矩阵,以横坐标为列数,纵坐标为词性数值,分别获取第一词性矩阵中每一行的第一词性曲线,及当前词性矩阵中每一行的当前词性曲线。
3.根据权利要求1所述的一种基于知识图谱技术的全栈式电价咨询与管理系统,其特征在于,所述根据历史词性矩阵获取每一行的词性分布曲线,包括的具体方法为:获取历史词性矩阵中每一行的历史词性曲线,对所有历史词性矩阵中的相同行的历史词性曲线,通过最小二乘法进行拟合,得到的曲线记为该行的词性分布曲线。
4.根据权利要求1所述的一种基于知识图谱技术的全栈式电价咨询与管理系统,其特征在于,所述获取每个奇异值及对应子矩阵的干扰信息程度,包括的具体方法为:其中, 表示第 个奇异值及对应子矩阵的干扰信息程度,表示词性矩阵中的行数,表示第 行的词性分布曲线,表示第 行的当前词性曲线, 表示第 个奇异值第 行的第一词性曲线, 表示两条曲线之间的DTW距离。
5.根据权利要求1所述的一种基于知识图谱技术的全栈式电价咨询与管理系统,其特征在于,所述获取两个第二重构矩阵之间的语义相似程度,包括的具体方法为:其中, 表示第 个奇异值的第 个第二重构矩阵和第 个第二重构矩阵之间的语义相似程度 ,表示语义信息常量,表示词性矩阵中的行数, 表示第 个奇异值的第 个第二重构矩阵中第 行的句向量, 表示第 个奇异值的第 个第二重构矩阵中第 行的句向量, 表示第 个奇异值的第 个第二词性矩阵中第 行的第二词性曲线,表示第 个奇异值的第 个第二词性矩阵中第 行的第二词性曲线, 表示两个向量之间的余弦相似度, 表示两条曲线的之间DTW距离。
6.根据权利要求1所述的一种基于知识图谱技术的全栈式电价咨询与管理系统,其特征在于,所述对每个历史政策文档数据降维得到历史重构矩阵,包括的具体方法为:以任意一个历史政策文档数据为例,获取该历史政策文档数据的历史词矩阵及历史词性矩阵,对历史词矩阵进行奇异值分解,按照干扰信息程度及语义信息量的获取方法得到该历史词矩阵中每个奇异值的干扰信息程度及语义信息量,进而得到每个奇异值的选择程度,重构得到该历史词矩阵对应的历史政策文档数据的历史重构矩阵。