关键词:
中文微博
情感词典
情感分析
多特征融合
类序列规则
主题模型
摘要:
在当今互联网高速发展的时代下,社交网络和移动终端技术的快速发展,兴起了很多社会媒体和社交网站平台,而微博就是其中最为流行的一种社交网络平台。微博作为一种社交网站的主要媒体形式,它短小、精悍、快捷,越来越受到人们的喜爱。人们也越来越倾向于通过微博获取新闻、评论、娱乐、知识学习等信息,不知不觉间,微博对网络舆情的传播施加了越来越重要的影响。由于用户热衷于通过微博来表达观点、态度和情感等,所以挖掘这些微博信息的情感对于政府的舆情监控、商家的市场分析、用户评论的分析与决策等等有着十分重要的意义。传统的微博情感分析即对短文本的情感分析,仅仅是将微博文本进行倾向性判断,最终只分析出微博的情感倾向性是褒义、中性还是贬义。由于微博短文本语言的特殊性,它与一般普通的文本不同,常常会出现极其简短、口语化、语法不规范、网络新词频繁出现等现象。因此,针对微博语言的这些现象,对微博进行更细粒度的研究显得尤为重要。本文将微博情感分为高兴、喜欢、生气、厌恶、恐惧、悲伤和惊讶七大类,分别使用基于词典与规则结合的语义加权方法和基于有监督的机器学习方法对选取的微博文本进行细粒度的情感分类,对微博文本的情感分析工作分为主题相关的情感分析和主题无关的情感分析。本文的主要研究内容如下:(1)对微博文本中的语言特点现象进行了研究,针对这些现象分析微博文本中各种对后面分类有利的特征,并介绍了目前情感分析的研究基础和现状,有关情感分析的国内外评测会议和情感分析的应用研究。(2)设计构建了文本的中文微博情感词典,情感词典的类别包括高兴、喜欢、生气、厌恶、恐惧、悲伤和惊讶七大类;除此之外,还构建了网络新词词典、程度副词词典、连词词典和表情符号的扩展。情感词典是以大连理工大学情感词汇本体为基础,对其进行扩充,并进行了基于大连理工大学的情感词典和文本词典的实验对比,实验结果证明了本论文构建的词典效果更好。(3)以构建的词典为基础,文本使用了基于词典与规则结合的语义加权算法对微博进行情感值的加权,以此作为基于词典与规则的方法,并与后面基于机器学习的方法进行对比。(4)本文提出一种基于类序列规则的多特征融合的情感分析方法。利用基于词典和传统SVM两种方法得到微博各个句子的两个标签,将微博文本表示成为序列形式,结合连词挖掘其中的序列规则作为特征再对分类器进行训练,最终利用提取的情感词特征、标点符号特征、句子结构特征和类序列规则特征进行训练,经过参数调节后得到分类效果较好的分类器。(5)针对主题相关的微博数据,还考虑到提取主题特征对训练的影响,实验证明,通过主题模型得到的概率分布作为特征也能提升最终的分类效果。(6)本文采用的数据集是COAE(中文倾向性分析评测)2014会议上提供的微博数据。训练数据包含4000条微博和14526个句子,测试集包含5000条微博和16785个句子,每条微博的情感类型均已被标注,所有的这些微博文本均来自新浪微博。最后进行了各种方法的实验对比。