近年来随着移动互联网和电子商务的快速发展,移动上网和网购已经成为人们日常生活的一部分。一些网购企业如淘宝、京东、亚马逊等表现出了强劲的发展势头。人们在网购商品收货后一般会对该次购物做出评价,评价对象通常是商家的服务和商品。这些在线商品评论一般会包含喜、怒、哀、乐等情感,带有情感倾向的商品评论可以应用在产品调查分析、信息预测等领域。
本文从情感词典的扩展和情感词强度这两个方面对商品评论情感分类进行了研究:
(1)基于词向量的情感词典的扩展
目前人工管理的情感词典在添加情感词方面存在一些局限性,例如对一些新词的识别和词的不规范变形的识别,词向量可以解决这样的问题。我们可以利用大规模的无标注数据(如百度百科语料)使用Skip-gram模型训练词向量,然后得到一个低维度词向量集合。在词向量空间中利用余弦距离可以很容易找到与给定词语义相似的词,帮助预测该词语的情感极性。
(2)基于情感词强度的情感分类
一些基于词典的中文情感分类方法存在如下不足:情感词组的提取没有考虑程度副词的作用,否定词查找,情感词的歧义问题。本文引入了中文的情感词强度词典和大量的语法信息,提出了基于细粒度情感强度词典的sentiDP方法。该方法有一个良好的语义合成机制,可以解决情感词的歧义问题。
实验表明sentiDP方法在准确率、F1值方面比其他两种方法的效果都好,在书籍数据上召回率比基准方法高7%,可以有效地处理酒店、笔记本、书籍这些不同领域的商品评论。在情感词典的扩展方面,基于词向量的词语极性预测方法比基于NGD的方法准确率高18%。