在线旅行预订作为一种新兴的消费方式,正逐渐被广大商业人士、旅游者认可和接受。众多在线旅行社(online Travel Agency,简称OTA)作为旅行预订服务代理商在旅游电子商务活动中占据着十分关键的位置。
越来越多的用户通过网络查找、预订酒店,但用户利用通用搜索引擎查找到的酒店结果,存在信息量过大、重复、不准确等缺陷。酒店垂直搜索引擎是针对酒店行业特点,定制的专业搜索引擎,它向用户提供更精准的酒店查找结果,更丰富的酒店房间报价对比平台,极大减少用户寻找酒店所耗费的精力与时间。
当前在互联网商业运营的酒店垂直搜索引擎,普遍存在对酒店房间搜索能力较弱的问题,并且对酒店内众多在线预订商的房间报价,进行分组的效果不够理想,既影响用户使用酒店引擎的效率和感受,也影响引擎网站的运行效益。针对上述情况,本论文提出对酒店房间报价数据进行分词、聚类计算的方法,并实现以此为特色的、简要的酒店垂直搜索引擎。
主要研究内容包括:1)分析当前互联网上酒店引擎的数据现状、行业惯例,实现对酒店房间报价数据识取要素的分词方法,可在较少的人工操作内完成词库以及持续运营;2)针对单个酒店内的所有房间报价数据,实现通过合适的聚类算法将报价分词结果进行分组,符合用户日常对酒店房间报价的认知和分类;3)基于web技术,实现简要的、独立的酒店垂直搜索引擎,突出分词聚类算法带来的效果。结果表明,本文的分词聚类算法可为酒店垂直搜索引擎补充房间搜索能力,以及良好的报价分组效果,为酒店引擎提升商业化运营效益,提供了算法基础和开发原型。