欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020105765289
申请人: 北京百度网讯科技有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2025-04-03
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种文档数据处理方法,包括:

接收查询语句;

基于所述查询语句对文档库进行搜索以确定与所述查询语句相关的文档;

对所述文档进行语句切分以获得多个切分语句;

基于所述多个切分语句生成多个候选摘要片段;

基于所述查询语句以及所述多个候选摘要片段中的每个候选摘要片段的属性来对所述多个候选摘要片段进行打分;以及基于打分的结果来将所述多个候选摘要片段中的至少一个候选摘要片段确定为所述文档的摘要。

2.根据权利要求1所述的文档数据处理方法,其中,对所述文档进行语句切分以获得多个切分语句包括:确定所述文档中的多个符号的位置;

将所述多个符号中满足设定的条件的符号作为切分标记;以及基于所述切分标记对所述文档进行切分以获得多个切分语句。

3.根据权利要求2所述的文档数据处理方法,其中,所述多个符号包括以下中的至少一个:标点符号、制表符、换行符和空格符。

4.根据权利要求3所述的文档数据处理方法,其中,所述标点符号包括英文标点符号和中文标点符号,所述英文标点符号和中文标点符号各自包括逗号、句号、问号、叹号和分号。

5.根据权利要求3所述的文档数据处理方法,其中,所述设定的条件包括以下之中的至少一个:所述符号不在地址字符序列内;

所述符号不在成对的标点符号内;

所述符号是英文标点符号中的句号且与该句号相邻的字符为非数字;以及所述符号是空格符且与该空格符相邻的字符为非标点符号。

6.根据权利要求1所述的文档数据处理方法,其中,基于所述多个切分语句生成多个候选摘要片段包括:对所述文档进行分词以获得多个词;

以所述文档的起始位置作为扫描起始位置来对所述文档进行扫描,当扫描得到的词的总字数大于或等于预设的字数阈值且在扫描结尾位置处的最后一个词位于所述多个切分语句中的一个切分语句的结尾位置时,基于扫描起始位置与扫描结尾位置之间的词生成候选摘要片段,并以所述扫描结尾位置作为下一次扫描的扫描起始位置来进行下一次扫描。

7.根据权利要求1所述的文档数据处理方法,其中,所述多个候选摘要片段中的每个候选摘要片段的属性包括所述候选摘要片段的长度、所述候选摘要片段中的中文字符占比以及所述候选摘要片段在所述文档中的位置中的至少一个。

8.根据权利要求7所述的文档数据处理方法,其中,基于所述查询语句以及所述多个候选摘要片段中的每个候选摘要片段的属性来对所述多个候选摘要片段进行打分包括:对所述查询语句进行分词以获得多个关键词;

对于所述多个候选摘要片段中的每个候选摘要片段,确定所述候选摘要片段中与所述多个关键词匹配的词,基于所述匹配的词来确定所述候选摘要片段的关键词权重和关键词覆盖率,并基于所述候选摘要片段的关键词权重、所述候选摘要片段的关键词覆盖率、所述候选摘要片段的长度、所述候选摘要片段中的中文字符占比以及所述候选摘要片段在所述文档中的位置中的至少一个,对所述多个候选摘要片段进行打分。

9.根据权利要求8所述的文档数据处理方法,其中,基于所述匹配的词来确定所述候选摘要片段的关键词权重和关键词覆盖率包括:针对所述候选摘要片段,确定所述匹配的词中的每个词相对于所述查询语句的重要性参数;以及基于所述匹配的词的数量和重要性参数来确定所述候选摘要片段的关键词权重,并基于所述匹配的词的数量和所述候选摘要片段的分词粒度来确定所述候选摘要片段的关键词覆盖率。

10.根据权利要求1所述的文档数据处理方法,其中,根据以下等式来对所述多个候选摘要片段进行打分:其中,S为候选摘要片段的得分,W为候选摘要片段的关键词权重,L为候选摘要片段的长度,Rc为候选摘要片段中的中文字符占比,C为候选摘要片段的关键词覆盖率,O为候选摘要片段在所述文档中的位置。

11.根据权利要求1所述的文档数据处理方法,其中,基于打分的结果来将所述多个候选摘要片段中的至少一个候选摘要片段确定为所述文档的摘要包括:基于打分的结果来将所述多个候选摘要片段划分为结果摘要片段集合和备选摘要片段集合;

将所述结果摘要片段集合中的摘要片段确定为所述文档的摘要,并且当所述结果摘要片段集合中的摘要片段的数量小于要生成的摘要的数量时,基于打分的结果从所述备选摘要片段集合中选择至少一个摘要片段,并将所述结果摘要片段集合中的摘要片段和所选择的至少一个摘要片段确定为所述文档的摘要。

12.根据权利要求11所述的文档数据处理方法,其中,基于打分的结果来将所述多个候选摘要片段划分为结果摘要片段集合和备选摘要片段集合包括:基于打分的结果对所述多个候选摘要片段进行排序;

将得分最高的候选摘要片段放入结果摘要片段集合;

依次比较相邻的两个候选摘要片段,如果排序在后的候选摘要片段中包含排序在前的候选摘要片段中未包含的关键词,则将所述排序在后的候选摘要片段放入结果摘要片段集合,否则将排序在后的候选摘要片段放入备选摘要片段集合;

其中,所述关键词通过对所述查询语句进行分词获得。

13.根据权利要求8所述的文档数据处理方法,还包括:在所生成的摘要中对与所述多个关键词匹配的词进行高亮显示。

14.根据权利要求13所述的文档数据处理方法,还包括:针对所生成的摘要中所述匹配的词中的每个词,基于该词相对于所述查询语句的重要性参数对该词进行打分;以及取消对得分低于预设的分数阈值的词的高亮显示。

15.一种文档数据处理装置,包括:

处理器;以及

存储器,配置用于存储机器可读指令,所述处理器被配置为执行所述指令以:接收查询语句;

基于所述查询语句对文档库进行搜索以确定与所述查询语句相关的文档;

对所述文档进行语句切分以获得多个切分语句;

基于所述多个切分语句生成多个候选摘要片段;

基于所述查询语句以及所述多个候选摘要片段中的每个候选摘要片段的属性来对所述多个候选摘要片段进行打分;以及基于打分的结果来将所述多个候选摘要片段中的至少一个候选摘要片段确定为所述文档的摘要。

16.根据权利要求15所述的文档数据处理装置,其中,所述处理器还被配置为:确定所述文档中的多个符号的位置;

将所述多个符号中满足设定的条件的符号作为切分标记;以及基于所述切分标记对所述文档进行切分以获得多个切分语句。

17.根据权利要求16所述的文档数据处理装置,其中,所述多个符号包括以下中的至少一个:标点符号、制表符、换行符和空格符。

18.根据权利要求17所述的文档数据处理装置,其中,所述标点符号包括英文标点符号和中文标点符号,所述英文标点符号和中文标点符号各自包括逗号、句号、问号、叹号和分号。

19.根据权利要求17所述的文档数据处理装置,其中,所述设定的条件包括以下之中的至少一个:所述符号不在地址字符序列内;

所述符号不在成对的标点符号内;

所述符号是英文标点符号中的句号且与该句号相邻的字符为非数字;以及所述符号是空格符且与该空格符相邻的字符为非标点符号。

20.根据权利要求15所述的文档数据处理装置,其中,所述处理器还被配置为:对所述文档进行分词以获得多个词;

以所述文档的起始位置作为扫描起始位置来对所述文档进行扫描,当扫描得到的词的总字数大于或等于预设的字数阈值且在扫描结尾位置处的最后一个词位于所述多个切分语句中的一个切分语句的结尾位置时,基于扫描起始位置与扫描结尾位置之间的词生成候选摘要片段,并以所述扫描结尾位置作为下一次扫描的扫描起始位置来进行下一次扫描。

21.根据权利要求15所述的文档数据处理装置,其中,所述多个候选摘要片段中的每个候选摘要片段的属性包括所述候选摘要片段的长度、所述候选摘要片段中的中文字符占比以及所述候选摘要片段在所述文档中的位置中的至少一个。

22.根据权利要求21所述的文档数据处理装置,其中,所述处理器还被配置为:对所述查询语句进行分词以获得多个关键词;

对于所述多个候选摘要片段中的每个候选摘要片段,确定所述候选摘要片段中与所述多个关键词匹配的词,基于所述匹配的词来确定所述候选摘要片段的关键词权重和关键词覆盖率,并基于所述候选摘要片段的关键词权重、所述候选摘要片段的关键词覆盖率、所述候选摘要片段的长度、所述候选摘要片段中的中文字符占比以及所述候选摘要片段在所述文档中的位置中的至少一个,对所述多个候选摘要片段进行打分。

23.根据权利要求22所述的文档数据处理装置,其中,所述处理器还被配置为:针对所述候选摘要片段,确定所述匹配的词中的每个词相对于所述查询语句的重要性参数;以及基于所述匹配的词的数量和重要性参数来确定所述候选摘要片段的关键词权重,并基于所述匹配的词的数量和所述候选摘要片段的分词粒度来确定所述候选摘要片段的关键词覆盖率。

24.根据权利要求15所述的文档数据处理装置,其中,所述处理器还被配置为根据以下等式来对所述多个候选摘要片段进行打分:其中,S为候选摘要片段的得分,W为候选摘要片段的关键词权重,L为候选摘要片段的长度,Rc为候选摘要片段中的中文字符占比,C为候选摘要片段的关键词覆盖率,O为候选摘要片段在所述文档中的位置。

25.根据权利要求15所述的文档数据处理装置,其中,所述处理器还被配置为:基于打分的结果来将所述多个候选摘要片段划分为结果摘要片段集合和备选摘要片段集合;

将所述结果摘要片段集合中的摘要片段确定为所述文档的摘要,并且当所述结果摘要片段集合中的摘要片段的数量小于要生成的摘要的数量时,基于打分的结果从所述备选摘要片段集合中选择至少一个摘要片段,并将所述结果摘要片段集合中的摘要片段和所选择的至少一个摘要片段确定为所述文档的摘要。

26.根据权利要求25所述的文档数据处理装置,其中,所述处理器还被配置为:基于打分的结果对所述多个候选摘要片段进行排序;

将得分最高的候选摘要片段放入结果摘要片段集合;

依次比较相邻的两个候选摘要片段,如果排序在后的候选摘要片段中包含排序在前的候选摘要片段中未包含的关键词,则将所述排序在后的候选摘要片段放入结果摘要片段集合,否则将排序在后的候选摘要片段放入备选摘要片段集合;

其中,所述关键词通过对所述查询语句进行分词获得。

27.根据权利要求22所述的文档数据处理装置,其中,所述处理器还被配置为:在所生成的摘要中对与所述多个关键词匹配的词进行高亮显示。

28.根据权利要求27所述的文档数据处理装置,其中,所述处理器还被配置为:针对所生成的摘要中所述匹配的词中的每个词,基于该词相对于所述查询语句的重要性参数对该词进行打分;以及取消对得分低于预设的分数阈值的词的高亮显示。

29.一种计算机可读存储介质,其上存储有可执行指令,所述指令在被处理器执行时使所述处理器执行根据权利要求1至14中任一项所述的方法。