1.一种社交短文本细粒度情感采集方法,其特征在于,所述方法具体包括如下步骤:S21、识别社交短文本的主题,所述主题由社交短文本涉及的领域及属性词组成;
S22、在对应主题领域的领域情感词汇库中查找该属性词存在依托关系的情感词汇,形成若干属性词及情感词汇对,称为词对;
S23、结合通用情感词库查找上述情感词汇的近义词及同义词,基于情感词汇的近义词及同义词进行词对的扩充;
S24、基于社交行为及词对的出现频率,计算出情感值,形成该主题领域下的词条,词条由属性词、情感词汇、情感值构成;
S25、检测词条是否已经出现在该主题领域的领域情感词汇库中,若不存在,则将该词条补入,形成特定主题领域下的细粒度情感词库。
2.如权利要求1所述社交短文本细粒度情感采集方法,其特征在于,在步骤S24之后包括:基于计算出的词对情感值,对领域情感库中对应词对的情感值进行更新。
3.如权利要求1所述社交短文本细粒度情感采集方法,其特征在于,在步骤S21之前还包括:S1、构建领域情感词汇库,用于存储相应领域的情感词汇、情感词汇所属的情感领域及属性词;
情感领域包括:褒义情感、中性情感及贬义情感,通过数值进行量化,即为情感值;
属性词分为显性属性词及隐性属性词。
4.如权利要求3所述社交短文本细粒度情感采集方法,其特征在于,领域情感词汇库的构建方法具体如下:前期通过人工标注进行构建,当情感词汇量达到一定数量后,通过对不同主题领域的大量社交短文本进行学习,不断扩充领域情感词汇库。
5.如权利要求4所述社交短文本细粒度情感采集方法,其特征在于,基于社交短文本的领域情感词汇库扩充方法具体如下:S11、识别出社交短文本中的主观性部分及客观性部分,主观性部分包括:情感词汇及隐性属性词,客观性部分包括:主题领域及显性属性词;
S12、在不同主题领域的领域情感词汇库中找到与显性属性词或隐性属性词存在依存关系的情感词汇及情感词汇所属的情感领域;
S13、将情感词汇、属性词、情感领域及相关社交行为的社交标签通过图建模的方式记录,并存储于对应主题领域的领域情感词汇库;
S14、将情感词汇按属性词进行分类,结合通用情感词汇库对指定属性词的情感词汇进行同义情感词汇及近义情感词汇的扩充,并将扩充的同义情感词汇、近义情感词汇通过图建模的方式记录,并存储于对应主题领域的领域情感词汇库。