Analysis of Reviews for the Xijiang Qianhu Miao Village Scenic Spot
With the rapid development of the internet and the continuous advancement of smart technology, e-commerce has become an integral part of the tourism industry. In this information era, e-commerce not only plays a significant role in the field of merchandise transactions but also shows immense potential in recommending tourist attractions. Through e-commerce technology, tourist attractions can more accurately and personally recommend suitable sites and services to visitors, thereby enhancing their satisfaction and travel experience. One of the primary methods for gauging visitors’ satisfaction with tourist attractions is through sentiment analysis of tourist consumer reviews. This analysis reflects the state of pleasure or disappointment that tourists feel when comparing the perceived effects of a tourist attraction with their expectations. This paper utilizes web crawling technology to extract user reviews of the Xijiang Qianhu Miao Village scenic area from the Ctrip website. The extracted data is then subjected to descriptive analysis, sentiment analysis, and LDA topic analysis, leading to the formulation of insightful recommendations.
Xijiang Qianhu Miao Village
近年来,出行旅游已经成为人们日常生活中一种不可或缺的娱乐休闲方式。文化和旅游部发布的《2019年旅游市场基本情况》数据显示,当前中国旅游市场发展良好,2019年我国全年实现旅游总收入6.63万亿元,同比增长11%;旅游业对我国GDP的综合贡献达到10.94万亿元,占GDP总量的11.05%;国内旅游人数达60.06亿人,较2018年同期增长8.4%
在线票务平台的兴起极大地促进了旅游评论的增长,这些评论作为宝贵的无形资源,对景区管理者制定改进措施具有显著影响。为了确保这些评论数据的准确性、公正性和科学性,进行全面的文本分析显得尤为关键。随着消费者素养的提升,网络评论越来越能真实地反映游客的感受,成为企业和消费者获取信息的重要途径。这不仅帮助企业根据游客的反馈提升服务质量,增强市场竞争力,同时也引发了如何从海量的评论中提炼出有价值的信息,为景区管理者和游客提供更全面的信息,实现互利共赢的问题。因此,本文旨在探讨如何利用高效的数据分析技术,快速从评论文本中提取关键信息,为景区提供改进建议,吸引更多游客
西江千户苗寨坐落于雷山县,是南山风景名胜区的一部分,是现阶段全国最大的苗族聚居村落之一
网络旅游评论的搜集构成了情感分析的基石,也是本文研究的核心部分。随着网络技术的进步,在线平台变得更加多样化,同时选择网络购票的游客数量也在持续上升。
网络爬虫技术是获取互联网信息的关键技术,如谷歌、百度、搜狗等这类公司对搜索引擎的技术研究较为深入,研究方向为关键词搜索技术,这部分涉及索引技术、自动归类等技术。但网络爬虫技术在搜索网页时占据主要地位,一般对网页进行访问是通过一个链接(统一资源定位符URL),链接中包括了访问协议HTTPS、访问路径(根目录)、资源名称,在文本框中输入URL后回车,在浏览器中可以找到自己所需的内容,这个过程就是获取网页的过程
Jieba分词是一个自2012年首次推出以来,就广受好评的开源Python库,它在Python中文分词领域中非常流行。“Jieba”这个名字取自中文词汇“结巴”,象征着将连贯的文本分解成具有明确意义的单独词语
序号 | 用户评论 |
1 | 特别满意的一次民宿体验。首先位置相当好,在河边半山腰上,在房间就能俯瞰苗寨全景,从小路去古镇…… |
2 | 商业气息很足哦,最多的店除了吃饭的就是租衣服做妆造旅拍的,去的时候一直在下雨,所以户外的一些…… |
3 | 西江千户苗寨:始于颜值行于风情在历史的大浪淘沙中,因为苗族人民的智慧和创造,让西江千户苗…… |
4 | 西江千户苗寨是真的美,五一期间来的,还下雨,以为天气不好,看不到好的景色,没想到竟然令我惊喜…… |
5 | 西江千户苗寨,位于贵州省黔东南苗族侗族自治州雷山县西江镇南贵村,距雷山县城36千米,距黔东南…… |
序号 | 用户评论 |
1 | 特别 满意 民宿 体验 位置 河边 半山腰 房间 俯瞰 苗寨 全景 小路 古镇 不算 贵州…… |
2 | 商业 气息 很足 吃饭 衣服 做妆造 旅拍 下雨 户外 表演 取消 听说 天气 芦笙 表演…… |
3 | 西江 千户 苗寨 始于 颜值 行于 风情 历史 大浪淘沙 苗族 人民 智慧 创造 西江 千户…… |
4 | 西江 千户 苗寨 真的 五一 期间 下雨 天气 不好 看不到 景色 没想到 惊喜 凯里 高铁…… |
5 | 西江 千户 苗寨 位于 贵州省 黔东南苗族侗族自治州 雷山县 西江 镇南 贵村 雷山 县城…… |
在爬取数据时,不仅爬取了用户评论,也将相应的用户打分、评论时间和IP地址爬取下来,更加丰富了数据的信息量,数据示例见
景点 | 打分 | 满意度 | 用户评论 | 日期 | 月份 | 属地 |
西江千户苗寨 | 5 | 超棒 | 特别满意的一次民宿体验…… | 2024/4/18 | 4 | 贵州 |
西江千户苗寨 | 4 | 满意 | 商业气息很足哦…… | 2024/5/20 | 5 | 贵州 |
西江千户苗寨 | 5 | 超棒 | 西江千户苗寨…… | 2024/2/17 | 2 | 海南 |
西江千户苗寨 | 5 | 超棒 | 西江千户苗寨是真的美…… | 2024/5/3 | 5 | 贵州 |
西江千户苗寨 | 5 | 超棒 | 西江千户苗寨…… | 2024/5/29 | 5 | 贵州 |
携程网设置有打分系统,以此来评价用户的满意度。5分:超棒、4分:满意、3分:不错、2分:一般和1分:不佳。
可以由
从
属地 | 人数 | 属地 | 人数 |
贵州省 | 971 | 辽宁省 | 30 |
未知 | 436 | 河北省 | 26 |
四川省 | 187 | 天津省 | 25 |
广东省 | 183 | 安徽省 | 24 |
北京市 | 141 | 江西省 | 23 |
上海市 | 136 | 山西省 | 18 |
江苏省 | 96 | 海南省 | 16 |
云南省 | 86 | 新疆维吾尔自治区 | 12 |
重庆市 | 80 | 甘肃省 | 12 |
湖南省 | 80 | 吉林省 | 10 |
湖北省 | 74 | 黑龙江省 | 8 |
浙江省 | 73 | 青海省 | 6 |
广西壮族自治区 | 69 | 宁夏回族自治区 | 4 |
山东省 | 43 | 澳门特别行政区 | 3 |
福建省 | 39 | 内蒙古自治区 | 3 |
陕西省 | 38 | 香港特别行政区 | 2 |
河南省 | 33 | 西藏自治区 | 2 |
对于统计的数据,我们做了一定的处理,将加拿大、荷兰、澳大利亚等国外IP属地的11条用户数据进行了剔除处理,只保留了国内的数据,并且剔除了未知IP的436条数据,所以共保留了2553条用户数。见
SnowNLP是一个Python语言编写的自然语言处理工具包,主要功能是对中文文本进行情感分析、提取关键词、分词、词性标注等操作
从
本文将消费者情绪分为三类,如
通过wordcloud库,绘制的3类情绪的词云图如下。
从不同情感类别的词云图中,可以初步筛选出影响游客用户评价的相关词汇,如
比如说有关苗族的演出、服饰和节日等,从而吸引人们的眼光,达到增加游客流量的目的,同时夜景和观景词条也是积极情绪中较为突出的词汇,表明了游客对夜景的喜好程度是很高的,景区可多设置几个观景台,以达到游客们观赏夜景的目标。
主题模型在自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。在判断文档相似性时,需要使用主题模型进行语义分析并判断文档相似性
潜在狄利克雷分配,即LDA模型(Latent Dirichlet Allocation, LDA)是由Blei等人在2003年提出的生成式主题模型
本次建模数据采用积极情绪用户评论和消极情绪用户评论(数据由4.1中提取),首先对数据进行去重处理,然后对文本字符小于10的进行剔除处理,最终得到积极情绪用户评论1959条,消极用户评论356条。
通过计算一致性指标数值,绘制coherence曲线获取最优的主题个数,对景区评论文本的正负面评价进行LDA获取主题词并分析,深入挖掘旅客对于景点本身或周围配套设施的关注点,从而更有针对性的为景区设计内容提出建议.
从
为了方便展示,我们将不同情绪下的不同主题下的词汇概率加以展示。在积极情绪评论文本各主题下生成相似度最高的五个词语以及相应的概率,从而获得积极情绪评论文本建模结果如下表所示:
主题0 | 概率 | 主题1 | 概率 | 主题2 | 概率 |
夜景 | 0.029 | 苗寨 | 0.065 | 苗寨 | 0.045 |
不错 | 0.025 | 西江 | 0.051 | 苗族 | 0.038 |
苗寨 | 0.021 | 苗族 | 0.049 | 千户 | 0.018 |
景区 | 0.019 | 千户 | 0.031 | 西江 | 0.017 |
拍照 | 0.016 | 吊脚楼 | 0.015 | 景区 | 0.016 |
主题3 | 概率 | 主题4 | 概率 | 主题5 | 概率 |
苗寨 | 0.046 | 夜景 | 0.027 | 景区 | 0.044 |
千户 | 0.021 | 苗寨 | 0.025 | 不错 | 0.026 |
西江 | 0.016 | 不错 | 0.022 | 商业化 | 0.015 |
观景台 | 0.016 | 景区 | 0.021 | 苗寨 | 0.013 |
景区 | 0.014 | 值得 | 0.021 | 值得 | 0.012 |
从
由主题词能看出,游客对西江千户苗寨景区内的拍照很喜爱,通过了解得到,一些商家会为游客提供拍照服务,会让游客们穿上苗族特有的服饰,前往特定的打卡地点进行拍照,可以总结出,这项行为深受游客们的喜欢,值得大力推广。苗寨特有的文化和建筑设计也是吸引游客的关键点,很多游客就是为了目睹什么是高山流水和长桌宴,特地前往西江,景区应该持续保留苗族特色。最后应该关注观景台的设置,使其能够将苗寨的夜景尽收眼底,增加其观景台的容量并做好安全措施,从而提高游客的体验感。
在消极情绪评论文本各主题下生成相似度最高的五个词语以及相应的概率,从而获得消极情绪评论文本建模结果如下表所示:
主题0 | 概率 | 主题1 | 概率 | 主题2 | 概率 | 主题3 | 概率 |
商业化 | 0.037 | 景区 | 0.068 | 商业化 | 0.050 | 拍照 | 0.044 |
排队 | 0.037 | 苗寨 | 0.050 | 太累 | 0.048 | 特别 | 0.036 |
观景台 | 0.030 | 体验 | 0.030 | 门票 | 0.030 | 晚上 | 0.034 |
景区 | 0.027 | 游客 | 0.027 | 景区 | 0.026 | 观景台 | 0.029 |
晚上 | 0.022 | 西江 | 0.024 | 长桌 | 0.026 | 景点 | 0.029 |
主题4 | 概率 | 主题5 | 概率 | 主题6 | 概率 | 主题7 | 概率 |
景区 | 0.065 | 景区 | 0.053 | 客栈 | 0.037 | 后悔 | 0.037 |
地方 | 0.043 | 行李 | 0.043 | 真的 | 0.036 | 苗寨 | 0.031 |
苗寨 | 0.042 | 停车场 | 0.032 | 商业 | 0.026 | 门票 | 0.029 |
住宿 | 0.035 | 观光车 | 0.030 | 表演 | 0.021 | 拍照 | 0.027 |
晚上 | 0.027 | 摆渡 | 0.030 | 味道 | 0.021 | 古镇 | 0.025 |
从
景区排队时间过长,主要集中在夏季,客流量较多且天气炎热,造成游客的不满,可以增设几个验票窗口以及凉亭,最大力度减少游客拥挤;景区中的通行不便问题,是由于景区内道路基本为山路,上下起伏较大且大都为阶梯,景区适当可以增加观光车的数量,达到部分游客想坐车就能坐上车的目的,对于上阶梯坡度较大的地势,建议在周围修建观光电梯,不仅方便游客的通行,也能体现景区的现代化;对于夜晚住宿难问题,大都是因为景区内的酒店价格颇高,在旺季时是市场价的3~4倍,可以适当呼吁商家降低酒店住宿的价格,吸引更多的游客前往苗寨景区,在客流量上达到获胜,从而增加商家的收入;景区停车不方便,是很多景区面临的问题,部分自驾游客希望能驱车直达景区门口,然而景区门口的停车场就只有那么几个,造成了停车难的问题,景区可以多设停车场或者在景区外的附近增设停车位,然后再设置观光车负责游客到景区的往返工作,既缓解了停车位紧张的问题,又为当地解决部分就业问题。
旅游与电子商务结合后,可以将旅游业从上游到下游很紧密的联系在一起,包括旅游供应商、旅游中介和旅游者。消费者可以通过旅游网站,十分迅速的得到各种旅游信息,这甚至比具体的旅游服务还更为重要。此外,用户在购票旅游后,还可以在相应的网络购票平台上留下评价。这些评价相较于传统旅行社中导游对景点的评价,更加真实可靠,从多个角度展示了景点在游客眼中的真实情况,为后续游客提供了参考依据。总的来说,线上购票不仅方便快捷,还能带来更好的旅游体验和更真实的景点评价,是现代旅游的一大趋势。通过线上平台自主选择旅游项目不仅提升了旅游体验,还增加了游客对景点的全面了解,有助于游客做出更加明智的决策。这样一来,线上购票平台不仅方便了游客,也提高了景点的口碑和服务质量。总之,线上购票和自主选择的方式不仅更经济实惠,还能避免不必要的推销,给游客带来更满意的旅游体验和更加真实的景点评价。
通过迅速识别和提取评论中的关键词,景区管理者可以清晰地了解游客体验中的亮点与不足,进而采取相应的改进措施。这种积极的响应可能会激发游客在游览后发表正面评价,吸引更多游客前来体验,进而推动当地旅游业的繁荣,形成一种积极的经济循环。因此,对在线旅游评价的文本分析不仅对旅游文化的传播至关重要,也对塑造旅游形象、了解游客偏好等方面发挥着关键作用。
本文利用网络爬虫技术,对携程网西江千户苗寨景区的用户评论进行爬取,之后将其数据进行描述性分析、情感分析和LDA主题分析,总结得出具参考性的建议。对于景区决策者而言,应当对景区场地布置做出合理规划,景区排队时间过长,主要集中在夏季,可以增设几个验票窗口以及凉亭,最大力度减少游客拥挤;景区商业化的方式可以更加的多元化,更少的利润化,景区门票可以适当让利,以更优惠的价格得到更多的客流量,达到薄利多销,以此得到更多的收入等。
*第一作者。