随着互联网和电子商务技术的发展,网络购物成为一种热潮,人们可以实现足不出户购买到自己心仪的商品。但是,与传统线下购物相比,网络购物有着商品种类繁多、用户无法直接感受商品的质量、体验商品功能等特征,这使得电商网站上的商品评论信息成为消费者选择和购买决策的重要参考。同时,评论信息作为反馈机制也可以帮助商家改进产品、提升服务。但是,目前电商网站评论数据量巨大、内容庞杂,采用人工阅读方式无法准确有效的得到有用的信息。而且人们更希望得到的是关于产品或服务多个方面的细粒度评价信息,而非其整体情感倾向。因此,针对电商评论的细粒度观点挖掘成为了热门的研究课题,受到国内外研究学者的广泛关注。
细粒度观点挖掘旨在从评论数据中抽取出被评价实体方面以及相对应的情感,生成评价摘要,为潜在消费者和商家提供决策支持。考虑到目前细粒度观点挖掘方法如基于人工定义、基于频率、基于有监督学习方法的局限性,而LDA主题模型作为无监督方法不仅不需要人工标注的训练数据,还可以克服上面所述方法中没有将具有相似语义的特征词进行聚类的缺点,被研究者广泛应用。但是LDA模型抽取的主题粒度较粗,无法识别被评价实体方面,而且三层模型无法实现细粒度观点挖掘目标,需要进行改进和拓展。
针对上面提到的问题,本文根据细粒度观点挖掘的目标,对LDA模型进行设计和拓展,提出了细粒度的主题情感混合模型(Fine-grained Topic Sentiment Unification Model, FG-TSU模型)。首先针对标准的LDA模型识别出的主题粒度较粗,本文将主题分为局部主题和全局主题,利用滑动窗口的方法将词共现信息从文档级降到句子级,实现细粒度局部主题的抽取;然后,本文根据词分类和在模型中引入指示变量用以区分方面词和观点词;最后,本文在LDA模型的三层模型基础上加入了情感层,对主题和情感进行同时建模,实现情感倾向分析,不仅可以获得整篇评论的情感极性,还可以获得被评价实体方面层的情感极性,最终完成细粒度观点挖掘的目标,生成评价摘要。
为了验证本模型具有跨领域性,本文选取了酒店和手机两个领域的电商评论数据集进行实验,设计了三个实验,实验结果表明本模型在实现电商评论细粒度观点挖掘上的可行性。