随着网络时代的发展,很多游客热衷于在网络平台上发表外出旅游的体验和评价。从而产生了海量的关于游客网络评论的数据,而旅游网站和相关部门要想提升经营效益和改善旅游环境,就必须从中挖掘出有用数据信息。本文利用数据挖掘的技术对携程旅行网上桂林市游客网络评论进行研究,主要研究工作及相关的结论如下:
第一,使用基于八爪鱼采集器的网络爬虫技术研究了携程旅行网官网上的游客评论数据的抓取规则和采集规则,采集了该网站上的1260条评论并以Excel格式导出,再对原始数据集进行去除无效评论的预处理,最后得到1210条,近10万字的游客网络评论作为样本数据集。
第二,使用可视化技术和LDA主题模型对采集的游客评论文本数据进行特征分析。通过词云图直观准确的找到高频词,并结合分类方法来确定影响游客满意度的影响因素;再根据网络语义直观的给出了高频词间的语义关系网。最后利用LDA主题模型对文本数据集进行主题提取,得到了游客关注的前8个主题为:行程、景点、酒店、导游、吃饭、购物、讲解和服务。
第三,构建适合本文研究需要的情感词典,并基于情感词典进行情感分析,利用Python编程计算了所有游客评论的情感值,发现有33.64%的游客具有较高的忠诚度。
第四,先对网络采集的文本数据进行量化,再利用相关分析、回归分析的统计方法对游客评论数据进行分析,并建立模型。接着对不同年度、月度的游客评论数据进行了比较分析。
最后,对上面的研究结果进行了总结,并向桂林市旅游相关部门和相关旅游网站提出了意见和建议,以期给其提供参考。