1.一种多媒体文件的片头和/或片尾的识别方法,其特征在于,包括:获取待处理的多媒体文件,所述多媒体文件包括至少两帧图像;
利用对象跟踪技术,对所述至少两帧图像进行识别处理,以获得目标文件片段;
根据所述多媒体文件的字幕内容和字幕时间,获得目标字幕片段;
根据所述目标文件片段和所述目标字幕片段,确定所述多媒体文件的片头和/或片尾。
2.根据权利要求1所述的方法,其特征在于,所述利用对象跟踪技术,对所述至少两帧图像进行识别处理,以获得目标文件片段,包括:利用对象跟踪技术,提取所述至少两帧图像中出现目标对象的图像,以获得至少两个候选文件片段;
根据所述至少两个候选文件片段中相邻的候选文件片段之间的第一时间间隔和预先设置的第一时间阈值,对相邻的候选文件片段进行合并处理,以获得所述目标文件片段。
3.根据权利要求1所述的方法,其特征在于,所述根据所述多媒体文件的字幕内容和字幕时间,获得目标字幕片段,包括:根据所述多媒体文件的字幕内容和字幕时间,获得至少两个候选字幕片段;
根据所述至少两个候选字幕片段中相邻的候选字幕片段之间的第二时间间隔和预先设置的第二时间阈值,对相邻的候选字幕片段进行合并处理,以获得所述目标字幕片段。
4.根据权利要求1所述的方法,其特征在于,所述对象跟踪技术包括人脸跟踪技术。
5.根据权利要求1~4任一权利要求所述的方法,其特征在于,所述根据所述目标文件片段和所述目标字幕片段,确定所述多媒体文件的片头和/或片尾,包括:根据所述目标文件片段和所述目标字幕片段,获得至少一个融合文件片段;
根据所述至少一个融合文件片段的开始时间、所述至少一个融合文件片段的结束时间、所述至少一个融合文件片段中相邻的融合文件片段之间的第三时间间隔和预先设置的第三时间阈值,确定所述多媒体文件的片头和/或片尾。
6.一种多媒体文件的片头和/或片尾的识别装置,其特征在于,包括:获取单元,用于获取待处理的多媒体文件,所述多媒体文件包括至少两帧图像;
文件处理单元,用于利用对象跟踪技术,对所述至少两帧图像进行识别处理,以获得目标文件片段;
字幕处理单元,用于根据所述多媒体文件的字幕内容和字幕时间,获得目标字幕片段;
决策单元,用于根据所述目标文件片段和所述目标字幕片段,确定所述多媒体文件的片头和/或片尾。
7.根据权利要求6所述的装置,其特征在于,所述文件处理单元,具体用于利用对象跟踪技术,提取所述至少两帧图像中出现目标对象的图像,以获得至少两个候选文件片段;以及根据所述至少两个候选文件片段中相邻的候选文件片段之间的第一时间间隔和预先设置的第一时间阈值,对相邻的候选文件片段进行合并处理,以获得所述目标文件片段。
8.根据权利要求6所述的装置,其特征在于,所述字幕处理单元,具体用于根据所述多媒体文件的字幕内容和字幕时间,获得至少两个候选字幕片段;以及根据所述至少两个候选字幕片段中相邻的候选字幕片段之间的第二时间间隔和预先设置的第二时间阈值,对相邻的候选字幕片段进行合并处理,以获得所述目标字幕片段。
9.根据权利要求6所述的装置,其特征在于,所述对象跟踪技术包括人脸跟踪技术。
10.根据权利要求6~9任一权利要求所述的装置,其特征在于,所述决策单元,具体用于根据所述目标文件片段和所述目标字幕片段,获得至少一个融合文件片段;以及根据所述至少一个融合文件片段的开始时间、所述至少一个融合文件片段的结束时间、所述至少一个融合文件片段中相邻的融合文件片段之间的第三时间间隔和预先设置的第三时间阈值,确定所述多媒体文件的片头和/或片尾。