欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2023101665459
申请人: 山东乾舜广告传媒有限公司
专利类型:发明专利
专利状态:授权未缴费
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种网页多重信息属性的标记方法,其特征在于:包括以下步骤:

确定信息属性:获取网页中的HTML标志并进行识别提取,其中,所述HTML标志不少于一个且成对设置,包括开始标志和结束标志;

基于所述HTML标志的提取结果确定所述开始标志内的属性代码,并进行目标代码的数值化处理,确定所述目标代码的属性阈值,确定所述HTML标志的信息属性;

信息标记整合:获取所述HTML标志的信息属性,按照所述信息属性对所述HTML标志引用的内容数据进行划分,得到内容数据分布图;

对所述内容数据分布图进行关键词提取,将提取的关键词转换为词向量,基于所述词向量进行坐标标记,得到数据信息标记分布图,并将数据进行整合生成数据集;

关联信息匹配:基于关键词确定与所述数据集相关联的一个或更多个排序因子,来确定所述内容数据标记分布图与信息属性的关联关系,基于所述排序因子根据所述关联关系得到对应的内容数据及标记排序。

2.如权利要求1所述的一种网页多重信息属性的标记方法,其特征在于:所述HTML标志,用于引用文字、图片的文档部件;

所述信息属性,用于标志的选项并放在开始标志内,在所述标志中进行颜色、对齐方式、高度和宽度的修饰。

3.如权利要求2所述的一种网页多重信息属性的标记方法,其特征在于:进行目标代码的数值化处理,确定所述目标代码的属性阈值,具体为:对所述属性代码进行解析,确定目标代码数据,对所述目标代码数据根据代码类别划分成多个代码分块;

获取每个代码分块的修饰类型并进行数值化处理,得到每个代码分块的类型值,根据所述类型值确定对应的对象数据的提取方式;

基于所述提取方式获取每一代码分块对应的对象数据的属性特征,同时基于所述属性特征在所述HTML标志中的修饰类型,生成所述HTML标志的信息属性。

4.如权利要求3所述的一种网页多重信息属性的标记方法,其特征在于:获取每一代码分块对应的对象数据的属性特征,具体为:将所述对象数据的属性特征储存在云网络中的存储节点上,并基于存储节点在存储数据时的使用频率,从高到低进行排列,建立排队队列;

根据所述排队队列得到若干个匹配组,确定每个代码分块的使用强度,根据所述每个代码分块的使用强度将若干个匹配组来进行对象数据的属性特征的匹配。

5.如权利要求4所述的一种网页多重信息属性的标记方法,其特征在于:将所述对象数据的属性特征储存在云网络中的存储节点上,并基于存储节点在存储数据时的使用频率,从高到低进行排列,建立排队队列,包括提取所述对象数据的属性特征,并将所述对象数据的属性特征上传至云网络中存储节点上;

提取所述存储节点的在存储数据时的使用频率,判断所述使用频率是否存在相同的频率数值;

当所述使用频率不存在相同的频率数值时,则按照使用频率从高到低进行排列,建立排队队列;

当所述使用频率存在相同的频率数值时,则提取所述频率数值相同的存储节点个数;

当所述存储节点个数没有超过预设的个数阈值时,则将所述存储节点整合为一个存储节点集合,将所述存储节点集合作为一个存储节点,按照使用频率从高到低进行排列,建立排队队列;

当所述存储节点个数超过预设的个数阈值时,则对所述存储节点进行分组集合,获得多个存储节点集合,将所述多个存储节点集合作为并列存储节点,按照使用频率从高到低进行排列,建立排队队列;

其中,所述个数阈值通过如下公式获取:

其中,M表示个数阈值,M为向上取整;N表示存储节点的总个数;C表示单位时间内存储节点的存储触发总次数;k表示单位时间的个数;Ci表示第i个单位时间对应的存储节点的存储触发总次数;Ni表示第i个单位时间内的被触发的存储节点的个数;M0表示基准个数数值,M0的取值范围为[0.15N,0.24N]。

6.如权利要求5所述的一种网页多重信息属性的标记方法,其特征在于:当所述存储节点个数超过预设的个数阈值时,则对所述存储节点进行分组集合,获得多个存储节点集合,包括:当所述存储节点个数超过预设的个数阈值,但未超过个数条件上限时,则按照两个N/

2,或,1+N/2和N/2的方式形成两个存储节点集合,将所述两个存储节点集合作为并列存储节点,按照使用频率从高到低进行排列,建立排队队列;

当所述所述存储节点个数超过预设的个数阈值,且,超过个数条件上限时,按照所述个数阈值对应数量进行节点集合分组,当分组后余下的不满所述个数阈值对应数量的存储节点个数,设置为单独的一个集合分组;

其中,所述超过个数条件上限通过如下公式获取:

其中,Mmax表示超过个数条件上限对应的个数值,并且,Mmax为向上取整;Nmax表示单位时间内启动频率相同的最大节点个数。

7.如权利要求5所述的一种网页多重信息属性的标记方法,其特征在于:得到数据信息标记分布图,具体为:对所述HTML标志引用的内容数据进行分词操作,得到内容数据中的若干个词语,确定每个词语的词语特征并确定词语之间的相似度,将相似度搞的词语进行去重复处理,得到目标词语;

对所述目标词语根据词性统计特征进行清洗得到关键词,将所述关键词转换为词向量,计算每一词向量与标准词向量之间的距离,根据所述距离进行坐标标记;

根据所述坐标标记绘制数据信息标记分布图,并将所述词向量对应的关键词输入至数据信息标记分布图对应区域中;

基于所述关键词与所述HTML标志引用的内容数据建立所述数据信息标记分布图与内容数据分布图的关联关系。

8.如权利要求7所述的一种网页多重信息属性的标记方法,其特征在于:将数据进行整合生成数据集,具体为:基于所述数据信息标记分布图与内容数据分布图的关联关系,按照多个数据整合要求,确定对所述数据信息标记分布图多次不同的数据整合规则,并基于所述不同的数据整合规则建立动态数据整合指令;

基于所述动态数据整合指令分别对所述关键词和所述HTML标志引用的内容数据进行动态整合,得到多组整合数据,基于所述多组整合数据生成数据集。

9.如权利要求1所述的一种网页多重信息属性的标记方法,其特征在于:关联信息匹配,包括:构建内容数据标记分布图的标记模型,确定与网页相关联的一个或更多个排序因子,确定所述内容数据标记分布图与信息属性的权重值;

通过所述标记模型对所述内容数据进行分析,得到所述内容数据的标记标签及信息属性,并输入至与网页相关联的一个或更多个排序因子中进行比较;

基于所述标记模型对所述网页相关联的一个或更多个排序因子中的关联内容数据进行标记,将所述内容数据的标记标签及信息属性与关联内容数据一一对应;

根据所述关联内容数据的使用强度及宽带占用概率进行排列,计算所述关联内容数据的均衡参数,并将所述均衡参数与预设均衡参数进行比较,基于比较结果将所述关联内容数据进行关联关系的建立。

10.如权利要求9所述的一种网页多重信息属性的标记方法,其特征在于:基于比较结果将所述关联内容数据进行关联关系的建立,包括:构建数据匹配时均衡参数的计算模型,将数据匹配时匹配关联节点的数量和关联节点的负载输入至计算模型中进行计算;

在确定所述均衡参数小于预设均衡参数时,筛选出负载大于第一预设负载的关联节点,作为第一关联节点,并基于第一关联节点的负载,从大到小进行排列,建立第一排队队列;

在确定所述均衡参数小于预设均衡参数时,筛选出负载小于第二预设负载的关联节点,作为第二关联节点,并基于第二关联节点的负载,从小到大进行排列,建立第二排队队列;

第一关联节点与所述第二关联节点的关联关系,根据所述关联关系,对所述第一关联节点上的多余负载进行解析,得到标记标签及信息属性;

将主体内容传输至所述第二关联节点上进行关联,将所述标记标签关联在所述第一关联节点上。