1.一种综合微博用户社交关系和微博文本特征识别抑郁情绪方法,其特征在于:该方法包括如下步骤,步骤一:根据用户U发表的微博文本首先经过文本筛选去除无用或者影响判定结果的内容;
步骤二:给微博文本打上抑郁情绪的特征标签利用分词器进行分词并同时去掉停用词;
步骤三:利用卡方检验进行特征值的提取与抑郁情绪相关的词语作为特征词;
步骤四:在选取出特征词后对每篇微博文本计算每个特征词的权重值,并同时将微博文本映射到一个特征向量;
步骤五:根据特征向量训练抑郁情绪文本分类模型;
步骤六:根据抑郁情绪文本分类模型识别出的与抑郁情绪相关文本计算出在单位时间内占用该单位时间内微博文本总数的比例并取出前N个最高概率P(1)、P(2)…P(N),选择天作为时间单位首先计算出每天用户发表的与抑郁情绪有关的微博占这一天微博博文的比例,按单位时间取出前N个最高概率P(1)、P(2)…P(N);
步骤七:利用微博用户社交数据计算出每个博主关注的有抑郁情绪微博用户数量并取中位数M,如果pi关注的抑郁情绪数量大于中位数M,利用PageRank算法思想以用户pi关注的微博抑郁情绪作为该用户pi的入链并计算出PageRank(pi)如果不大于中位数M就设PageRank(pi)为0;PgeRank算法如下所示其中pi为微博用户,pj为识别出的抑郁情绪微博用户,L(pj)为关注微博用户pj的人数,N为当前总的微博用户数量,q为阻尼系数取0.85;
步骤八:根据步骤六前N个最高概率P(1)、P(2)…P(N)计算出的平均概率P(avg)和步骤七得到的PageRank(pi)使用模型融合的方法计算出该用户的最终抑郁情绪结果。
2.根据权利要求1所述的一种综合微博用户社交关系和微博文本特征识别抑郁情绪方法,其特征在于:统计研究数据中微博总数统计该词出现的与抑郁情绪相关的微博篇数A,出现的与抑郁情绪无关的微博篇数B,不出现的与抑郁情绪相关的微博篇数C和不出现的与抑郁情绪无关的微博篇数D然后计算其卡方值选出所有词中卡方值较高的作为特征词;
具体计算公式为:
3.根据权利要求1所述的一种综合微博用户社交关系和微博文本特征识别抑郁情绪方法,其特征在于:采用PageRank算法思想以用户pi关注的微博抑郁情绪作为该用户pi的入链算出PageRank(pi)具体公式如下所示其中pi为微博用户,pj为识别出的抑郁情绪微博用户,L(pj)为关注微博用户pj的人数,N为当前总的微博用户数量,q为阻尼系般取0.85。
4.根据权利要求1所述的一种综合微博用户社交关系和微博文本特征识别抑郁情绪方法,其特征在于:采取以下几种方法融合
(1)根据文本存储单元存储的概率值计算出的平均概率值P(avg)和PageRank(pi)值通过加权计算得出抑郁情绪最终的概率值即P=A*P(avg)+B*PageRank(pi)其中A、B为加权值;
(2)根据文本存储单元计取出平均概率值P(avg)和PageRank(pi)值相比较取出最大的概率值作为抑郁情绪最终结果(3)根据文本存储单元存储的概率值计算出的文本平均概率值P(avg)和PageRank(pi)值使用GBDT(梯度提升决策树)算法融合得出抑郁情绪结果。