在信息爆炸的21世纪,随着信息技术应用不断深入以及信息化建设的不断,文本信息正爆炸式的增长,文本的情感分析也逐渐成为自然语言处理领域的研究热点。情感分析主要是针对给定文本或其中的句子或短语片段识别其情感极性或情感强弱。传统的研究方法主要是采用人工抽取特征和机器学习算法相结合构建情感分类模型,然而,人工抽取特征需要专家的领域知识和大量的人力物力,系统适应性差。
近年来,深度学习作为机器学习的一个新的研究方向,在不少领域的应用中取得了突破性进展。深度学习在自然语言处理中最基础的应用是词向量生成,即词的分布式表示,并在许多传统自然语言处理任务中得到应用。但在传统的词向量训练模型中,词向量通过上下文学习获得,虽然包含了语义和语法信息,但是对情感分析任务,缺少了情感等信息。同时,在句子级情感分析任务中,在构建句子的语义表达方面往往忽略了句子中词序信息和语义信息对最后情感分类结果的影响。
针对以上情感分析研究中存在的问题,本文主要研究内容及创新工作如下:
(1)提出了基于C&W模型的词向量改进训练模型,实现在词向量训练过程中嵌入情感信息和词性信息。该方法通过在模型训练中将句子和词中的情感类标签和词性类标签以不同的方式融入模型训练。为了验证学习得到的词向量性能,本文分别对中英文文本进行了定性和定量的对比试验,结果表明由改进训练模型生成的词向量在词向量对比实验中达到最理想的性能。
(2)提出了基于LSTM网络的情感分类模型,实现了将词向量情感语义信息扩展到句子中。该方法在利用词向量构建句子模型时,句子中的词以序列化的方式输入,使用LSTM神经单元控制前后词之间的相互关系,将句子中的词序信息融入到句子模型构建,获得句子的情感语义表达,完成情感分类。
(3)提出了基于卷积神经网络的情感分类模型,实现了对句子中的特征顺序提取、选择与过滤。该方法首先对句子中的所有词构建输入矩阵,使用不同大小窗口的卷积滤波器进行特征的提取和选择,然后用最大池化策略获得影响因子和定长输出,进而获得句子情感分类结果。
本文在中文和英文评论中进行了词向量对比实验,同时针对中文酒店评论进行了基于LSTM网络的情感分类模型、基于卷积神经网络的情感分类模型的对比实验。实验结果表明,本文改进的词向量训练模型和情感分类模型可以更好的处理情感分析任务。