意见挖掘研究近年来取得很大进展,但是现有的意见挖掘系统大多只关注褒贬意见,却忽略了意见背后的原因、事实细节、建议或条件等意见解释信息,而这些信息对基于意见挖掘的决策和信息服务极为重要。为此,本文面向产品评论,在深入分析汉语产品评论的意见解释语言特点基础上,探索意见解释分类方法及关键技术。具体地,本文从以下三个方面研究:
(1)汉语意见解释分类语料构造与分析:鉴于目前还没有公开可用的解释性意见资源库,本文首先在制定意见解释分类体系及相关标注规范基础上,构建了关于手机和酒店两个领域的产品评论意见解释分类语料库,并对不同领域的意见解释的语言特点进行了比较分析。分析结果表明,意见与意见解释并非一一对应,不同类别的意见解释的语言表达差异很大。
(2)基于SVM的汉语意见解释分类:本文在SVM框架下探索不同特征选择及表示方法对意见解释分类的影响,尤其是意见解释内部片段内部的基本特征,以及意见解释相关联的属性、评价、情感极性等上下文特征。实验结果验证了多特征融合有利于提高意见解释分类性能。
(3)基于神经网络的汉语意见解释分类:为了进一步提高意见解释分类性能,本文在基于特征工程的SVM分类方法基础上,尝试使用CNN、RNN和LSTM等不同的神经网络模型解决意见解释分类问题。实验结果表明,基于神经网络模型的分类方法优于传统的SVM分类方法,且CNN方法优于RNN和LSTM方法。