1.一种面向视频弹幕的用户情感差异区域检测方法,其特征在于,包括步骤1,对视频弹幕原始数据根据其中的字段进行格式化处理,得到视频弹幕集合,其中每一条视频弹幕数据包括弹幕文本、时间戳和历史评论时间;
步骤2,根据历史评论时间将弹幕划分到不同的历史时间平面内,保证每个历史时间平面内的弹幕数据量基本一致,再根据时间戳将弹幕对应到视频播放时间轴上;
步骤3,通过预先选定的视频信息汇总网站收集相关的专业词汇,构建用户评论词典,根据用户评论词典对标注的时间同步评论进行分词等预处理,再通过FastText训练情感倾向分类模型,根据用户评论词典对待分析的时间同步评论进行分词等预处理,使用情感倾向分类模型预测评论的情感倾向;
步骤4,通过预先选定的视频信息汇总网站收集相关的视频字幕,根据句子中每个单词的向量值进行算术平均,计算得到的平均值作为整个句子的向量表示,计算相邻场景的字幕文本与显示滞后的弹幕文本之间的相似度,校正滞后的弹幕文本;
步骤5,计算当前时间区域的用户情感倾向总和,不同时间区域的情感值由对应的时间区域内用户正向情感占比来刻画,根据正向情感弹幕文本数量计算时间区域的情感倾向数值,计算时间区域的平均情感倾向数值,根据平均情感倾向数值计算出时间区域的情感倾向差异率,通过与情感倾向差异率阈值进行比较,判定用户情感差异区域;
步骤6,根据弹幕的历史评论时间、时间戳和情感倾向,通过时间区域的情感倾向差异图可视化展示展示用户情感差异区域。
2.根据权利要求1所述的面向视频弹幕的用户情感差异区域检测方法,其特征在于,还包括以下A-H中的任一项或多项:A.视频弹幕数据的格式化处理包括以下步骤:
步骤A1,提取弹幕文本:弹幕集合Comments={c1,c2,…,cn};c1,c2,…,cn为n条评论;
步骤A2,提取时间戳信息:时间戳Timestamp={t1,t2,…,tn};t1,t2,…,tn为n条评论对应的时间戳;
步骤A3,提取历史评论时间信息:历史评论时间rollDate={rD1,rD2,…,rDn};rD1,rD2,…,rDn为n条评论对应的历史评论时间;
步骤A4,确定弹幕文本ci对应时间戳ti和历史评论时间rDi:ci(ti,rDi);
B.划分视频弹幕评论到不同的历史时间平面包括以下步骤:步骤B1,设置初始条件:时域T={T1,T2,…,T6},T1,T2,…,T6对应的取值为T1=1,T2=1,T3=2,T4=3,T5=5,T6=8;
步骤B2,根据初始条件T计算历史评论时间rollDate的划分时间点rDti:rDti=rD0+Ti*
7,rD0为该时域内起始历史评论时间;
C.通过FastText训练情感倾向分类模型或预测未标记的视频弹幕的情感倾向包括:利用FastText分类概率计算:
其中,σ为sigmoid函数,v′n(w,i)是哈夫曼树中所有非叶子节点对应的向量表示,v′n(w,i)T是v′n(w,i)的转置矩阵,h是隐藏层的输出,当n(w,i+1)作为n(w,i)的左子树时,取值为1;
D.计算视频场景对应的时间区域包括:
匹配场景对应的时间段Ti与视频播放时间ti:Ti∈{t0,t1};t0和t1对应场景的起始播放时刻和终止播放时刻;
E.校正显示滞后的视频弹幕包括;
步骤E1,根据单词级向量 计算句子级向量 N为句子中全部单词的数量;
步骤E2,计算字幕 与弹幕 的语义相似度
表示为字幕文本的向量, 是 的转置,
表示为时间同步评论的向量, 为 的模长, 为 的模长;
F.计算视频场景对应的时间区域的情感值总和包括:
步骤F1,计算情感倾向值总和Sum_sentiment:Sum_sentiment=∑(NumberofPOS(TSCS))+∑(NumberofNEG(TSCs)),∑(NumberofPOS(TSCs))表示当前时间区域内用户正向情感的总和,∑(NumberofNEG(TSCs))表示当前时间区域内用户负向情感的总和;
步骤F2,计算时间区域的情感值Scene_sentiment:Sum_sentiment为情感倾向值的总和,∑(NumberofPOS(TSCs))表示当前时间区域内用户正向情感的总和;
G.计算视频场景对应的时间区域情感差异率包括:
步骤G1,计算平均情感倾向ASt:
t表示待检测的场景对应的时间区域,Z表示全部的观测区间,|Z|表示观测区间数量,X、Y对应不同的观测区间, 表示X观测区间的播放时间t时间区域内的情感倾向;
步骤G2,计算情感差异率
ti表示第i个观测区间上的场景对应的时间区域t, 表示ti对应时间区域内用户正向情感占比;场景对应的时间区域t对应的平均情感倾向差异为ASt;
H.用户情感差异区域的判定和可视化包括:
情感差异率阈值判定: 和 为相邻观测区间i,j内相同场景对应的时间区域t的情感差异率。
3.一种面向视频弹幕的用户情感差异区域检测系统,其特征在于,包括:视频弹幕数据获取模块,利用网络爬虫获取视频弹幕数据,从网站爬取到的原始数据经过格式化处理转化得到视频弹幕集合;
视频弹幕数据划分模块,根据视频弹幕集合的历史评论时间和视频播放时间戳,将每条弹幕划分到对应的历史时间平面和视频播放时间轴;
视频弹幕情感分析模块,根据标记的弹幕数据训练分类模型,通过分类模型预测未标记弹幕情感倾向;
显示滞后视频弹幕校正模块,利用视频字幕具有补充描述视频场景的作用,根据视频字幕得到视频场景对应的时间区域,同时根据视频字幕和视频弹幕的语义相似度校正显示滞后的视频弹幕;
用户情感差异区域判定模块,根据相应时间区域内用户情感倾向的占比刻画当前时间区域的情感倾向,比较相邻观测区域的相同时间区域变化,其中超过阈值且情感差异率变化最大的即为差异区域;
情感差异区域可视化模块,根据视频弹幕的历史评论时间和视频播放时间轴确定弹幕的评论时间信息,结合视频弹幕的情感倾向,实现用户情感差异区域可视化。