1. 引言
近年来,出行旅游已经成为人们日常生活中一种不可或缺的娱乐休闲方式。文化和旅游部发布的《2019年旅游市场基本情况》数据显示,当前中国旅游市场发展良好,2019年我国全年实现旅游总收入6.63万亿元,同比增长11%;旅游业对我国GDP的综合贡献达到10.94万亿元,占GDP总量的11.05%;国内旅游人数达60.06亿人,较2018年同期增长8.4%[1]。
在线票务平台的兴起极大地促进了旅游评论的增长,这些评论作为宝贵的无形资源,对景区管理者制定改进措施具有显著影响。为了确保这些评论数据的准确性、公正性和科学性,进行全面的文本分析显得尤为关键。随着消费者素养的提升,网络评论越来越能真实地反映游客的感受,成为企业和消费者获取信息的重要途径。这不仅帮助企业根据游客的反馈提升服务质量,增强市场竞争力,同时也引发了如何从海量的评论中提炼出有价值的信息,为景区管理者和游客提供更全面的信息,实现互利共赢的问题。因此,本文旨在探讨如何利用高效的数据分析技术,快速从评论文本中提取关键信息,为景区提供改进建议,吸引更多游客[2]。
2. 西江千户苗寨简介与数据准备
2.1. 景点简介
西江千户苗寨坐落于雷山县,是南山风景名胜区的一部分,是现阶段全国最大的苗族聚居村落之一[3]。西江苗寨,坐落于雷山县城以东36公里,与黔东南州首府相隔33公里,由众多依山傍水的村落组成,形成一片连绵的群落。这里被群山环绕,山脉重叠,梯田沿着山坡层层叠叠,直冲云霄。白水河从村寨中流过,将西江苗寨分为两部分。在山坡上,西江千户苗寨建造了具有地方特色的木制吊脚楼,这些建筑随着地形的起伏而变化,形成了一幅壮观的景象。西江千户苗寨拥有众多景点,包括西江苗族博物馆、鼓藏头家、活路头家、酿酒坊、刺绣坊、蜡染坊、银饰坊、观景台、噶歌古道和田园观光区等。这些景点共同构成了一个展示苗族文化发展的露天博物馆,为游客提供了深入了解和研究苗族传统文化的平台。自1982年起,西江苗寨就被列为贵州东线民族风情旅游的重要景点。1992年,西江千户苗寨被认定为贵州省的省级文物保护单位。到了2005年,西江千户苗寨的吊脚楼更是被纳入了国家级非物质文化遗产名录,进一步凸显了其文化价值和历史意义。
2.2. 数据准备
2.2.1. 数据来源
网络旅游评论的搜集构成了情感分析的基石,也是本文研究的核心部分。随着网络技术的进步,在线平台变得更加多样化,同时选择网络购票的游客数量也在持续上升。
网络爬虫技术是获取互联网信息的关键技术,如谷歌、百度、搜狗等这类公司对搜索引擎的技术研究较为深入,研究方向为关键词搜索技术,这部分涉及索引技术、自动归类等技术。但网络爬虫技术在搜索网页时占据主要地位,一般对网页进行访问是通过一个链接(统一资源定位符URL),链接中包括了访问协议HTTPS、访问路径(根目录)、资源名称,在文本框中输入URL后回车,在浏览器中可以找到自己所需的内容,这个过程就是获取网页的过程[4]。本文将采取Python爬虫的方式,使用selenium库模拟登录网页并获取相关数据。Selenium库是python爬虫常用的一种第三方工具,能够自动打开网页并模拟用户操作网页,实现元素定位、条件匹配等多种功能[5]。爬虫最终获取西江千户苗寨景区的携程网在线评论文本。由于目前携程网上对该景点的评论仅有300页,本研究爬取了所有评论,并对其进行去重处理,得到3000条有效评论。
2.2.2. 数据预处理
Jieba分词是一个自2012年首次推出以来,就广受好评的开源Python库,它在Python中文分词领域中非常流行。“Jieba”这个名字取自中文词汇“结巴”,象征着将连贯的文本分解成具有明确意义的单独词语[6]。该库常用于中文分词。所谓分词,就是给定一段中文文本,然后将这一段中文文本分成单个的词语。jieba库使用简单,分词效率和准确性较好。jieba基于中文词库进行分词,也可以对新词进行处理。本文使用了常用停用词表作为处理文本的依据。处理后得到的原始评论文本如表1,分词后结果如表2:
Table1.Original comment text
表1.原始评论文本
序号 |
用户评论 |
1 |
特别满意的一次民宿体验。首先位置相当好,在河边半山腰上,在房间就能俯瞰苗寨全景,从小路去古镇…… |
2 |
商业气息很足哦,最多的店除了吃饭的就是租衣服做妆造旅拍的,去的时候一直在下雨,所以户外的一些…… |
3 |
西江千户苗寨:始于颜值行于风情在历史的大浪淘沙中,因为苗族人民的智慧和创造,让西江千户苗…… |
4 |
西江千户苗寨是真的美,五一期间来的,还下雨,以为天气不好,看不到好的景色,没想到竟然令我惊喜…… |
5 |
西江千户苗寨,位于贵州省黔东南苗族侗族自治州雷山县西江镇南贵村,距雷山县城36千米,距黔东南…… |
Table2.Tokenized comment text
表2.分词后评论文本
序号 |
用户评论 |
1 |
特别 满意 民宿 体验 位置 河边 半山腰 房间 俯瞰 苗寨 全景 小路 古镇 不算 贵州…… |
2 |
商业 气息 很足 吃饭 衣服 做妆造 旅拍 下雨 户外 表演 取消 听说 天气 芦笙 表演…… |
3 |
西江 千户 苗寨 始于 颜值 行于 风情 历史 大浪淘沙 苗族 人民 智慧 创造 西江 千户…… |
4 |
西江 千户 苗寨 真的 五一 期间 下雨 天气 不好 看不到 景色 没想到 惊喜 凯里 高铁…… |
5 |
西江 千户 苗寨 位于 贵州省 黔东南苗族侗族自治州 雷山县 西江 镇南 贵村 雷山 县城…… |
3. 数据描述型分析
在爬取数据时,不仅爬取了用户评论,也将相应的用户打分、评论时间和IP地址爬取下来,更加丰富了数据的信息量,数据示例见表3。
Table3.Data example
表3.数据示例
景点 |
打分 |
满意度 |
用户评论 |
日期 |
月份 |
属地 |
西江千户苗寨 |
5 |
超棒 |
特别满意的一次民宿体验…… |
2024/4/18 |
4 |
贵州 |
西江千户苗寨 |
4 |
满意 |
商业气息很足哦…… |
2024/5/20 |
5 |
贵州 |
西江千户苗寨 |
5 |
超棒 |
西江千户苗寨…… |
2024/2/17 |
2 |
海南 |
西江千户苗寨 |
5 |
超棒 |
西江千户苗寨是真的美…… |
2024/5/3 |
5 |
贵州 |
西江千户苗寨 |
5 |
超棒 |
西江千户苗寨…… |
2024/5/29 |
5 |
贵州 |
3.1. 用户满意度分析
携程网设置有打分系统,以此来评价用户的满意度。5分:超棒、4分:满意、3分:不错、2分:一般和1分:不佳。
Figure1.Satisfaction analysis
图1.满意度分析
可以由图1看出认为超棒的有1956人次,占了总体人群的大半部分,说明西江千户苗寨景区的风评是很好的,值得人们去旅游一次。接下来就是认为满意的人群,有721人,将近占总体的1/4,也是比较多的一个群体,再次验证此景区的好评度很高。
3.2. 用户旅游时间分析
从图2可以得到该景区的旅游旺季主要集中在夏季,在春季开始旅游人次不断升高,在夏季达到最高,然后逐渐降低,冬季旅游的人是最少的。所以该景区可以在夏季的时候做好应对旅游人次高峰的措施,增派景区管理人员,延长缆车的运行时间。特别是在夏季秋季交界处,容易引发火灾时期,应加强安全防火措施。在冬季旅游淡季时,可以推行更加优惠的旅游活动,以此来加大游客前往的意愿。
Figure2.Number of tourists per month
图2.各月份旅游人次
3.3. 用户属地分析
Table4.Number of passengers in their respective regions
表4.旅客属地人数
属地 |
人数 |
属地 |
人数 |
贵州省 |
971 |
辽宁省 |
30 |
未知 |
436 |
河北省 |
26 |
四川省 |
187 |
天津省 |
25 |
广东省 |
183 |
安徽省 |
24 |
北京市 |
141 |
江西省 |
23 |
上海市 |
136 |
山西省 |
18 |
江苏省 |
96 |
海南省 |
16 |
云南省 |
86 |
新疆维吾尔自治区 |
12 |
重庆市 |
80 |
甘肃省 |
12 |
湖南省 |
80 |
吉林省 |
10 |
湖北省 |
74 |
黑龙江省 |
8 |
浙江省 |
73 |
青海省 |
6 |
广西壮族自治区 |
69 |
宁夏回族自治区 |
4 |
山东省 |
43 |
澳门特别行政区 |
3 |
福建省 |
39 |
内蒙古自治区 |
3 |
陕西省 |
38 |
香港特别行政区 |
2 |
河南省 |
33 |
西藏自治区 |
2 |
对于统计的数据,我们做了一定的处理,将加拿大、荷兰、澳大利亚等国外IP属地的11条用户数据进行了剔除处理,只保留了国内的数据,并且剔除了未知IP的436条数据,所以共保留了2553条用户数。见表4,游客来自贵州省的比率是最大的,高达971人次,其他省份或直辖市的人数均未超过两百人。所以景区应该加大对其他省份的宣传力度,增加网上宣传的方式,包括抖音、去哪网、小红书和快手等网络信息平台,让大多数人都能更深入的了解西江千户苗寨景区。由于评论IP属地的特殊性(IP只与发送评论当时的所在地有关),数据所提供的信息只供参考。
4. 情感分析
4.1. 评价类别分析
SnowNLP是一个Python语言编写的自然语言处理工具包,主要功能是对中文文本进行情感分析、提取关键词、分词、词性标注等操作[7]。它基于概率统计的模型,对中文语料有较好的支持,特别适合于非结构化的中文文本数据处理。以下的得分情况是基于SnowNLP库中的方法进行打分的。
从图3可以看出,评价分值为1的部分,快成一条实心的直线,说明得分1的人比较多,也就是相当满意的人占比很大,为了更直观地看出用户评论满意的人群居多,绘制了以下的饼图。
Figure3.Scoring situation
图3.得分情况
本文将消费者情绪分为三类,如图4,在编码得分大于等于0.6的为积极情绪,在得分大于0.2小于0.6的为中性情绪,最后小于等于0.2的为消极情绪。从图4可得,积极情绪占比高达77.93%,说明在景区游玩的游客,大都体验感还不错,对景区的服务或设施有较好的用户评价。消极情绪占总体的9.40%,体现了景区的服务工作还有提高的空间,应努力提高消极情绪的人的用户体验。
4.2. 词云图分析
通过wordcloud库,绘制的3类情绪的词云图如下。
从不同情感类别的词云图中,可以初步筛选出影响游客用户评价的相关词汇,如图5在积极情绪中(正向情绪),可以看出游客对于苗族、夜景等内容尤为感兴趣,可以适当多添加一些关于苗族文化的事物,
Figure4.Emotion classification proportion
图4.情绪分类占比
Figure5.Top 10 high-frequency words of positive emotion and word cloud
图5.积极情绪Top 10高频词和词云图
Figure6.Top 10 high-frequency words of neutral emotion and word cloud
图6.中性情绪Top 10高频词和词云图
Figure7.Top 10 high-frequency words of negative emotion and word cloud
图7.消极情绪Top 10高频词和词云图
比如说有关苗族的演出、服饰和节日等,从而吸引人们的眼光,达到增加游客流量的目的,同时夜景和观景词条也是积极情绪中较为突出的词汇,表明了游客对夜景的喜好程度是很高的,景区可多设置几个观景台,以达到游客们观赏夜景的目标。图6的中性情绪中,看到情绪商业和商业化等词汇比较多,可以看出有些游客可能比较反感商业化,但却又不反对商业化,这是无法避免的现实,景区的营收大都靠其他的商业收入,而不单是靠收取门票。景区商业化的方式可以更加的多元化,更少的利润化,景区适当让利,以更优惠的价格得到更多的客流量,以此得到更多的收入。由图7的消极情绪(负向情绪)可知,景区的停车可能是一大问题,景区的规划需要进行相应的调整,多增加一些停车场或停车位。其中行李和门票也是消极情绪中较为突出的词汇,回看源用户评论可知,一些游客对行李不好寄存和门票太高提出抱怨,景区可以采取增加寄存点和调低门票价格等措施,从而改善用户的体验。
5. LDA主题分析
5.1. LDA主题模型简介
主题模型在自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。在判断文档相似性时,需要使用主题模型进行语义分析并判断文档相似性[8]。如果一篇文档有多个主题,则一些特定的可代表不同主题的词语就会反复出现,此时,运用主题模型,能够发现文本中使用词语的规律,并且把规律相似的文本联系到一起,以寻求非结构化的文本集中的有用信息。
潜在狄利克雷分配,即LDA模型(Latent Dirichlet Allocation, LDA)是由Blei等人在2003年提出的生成式主题模型[9]。LDA (Latent Dirichlet Allocation)是一种无监督的机器学习算法,它能够挖掘大量文档或语料库中的潜在主题结构。通过分析评论文本,构建特定的词汇库和排除列表,去除无意义的词汇,然后通过Jieba进行分词处理和停用词过滤。在这些预处理步骤之后,利用困惑度指标来确定最优的主题数量,进而应用LDA算法对文本进行主题分析,从而识别出多个主题及其关键词汇,这种方法有助于揭示文本数据中的深层主题模式[10]。
5.2. LDA建模分析
本次建模数据采用积极情绪用户评论和消极情绪用户评论(数据由4.1中提取),首先对数据进行去重处理,然后对文本字符小于10的进行剔除处理,最终得到积极情绪用户评论1959条,消极用户评论356条。
通过计算一致性指标数值,绘制coherence曲线获取最优的主题个数,对景区评论文本的正负面评价进行LDA获取主题词并分析,深入挖掘旅客对于景点本身或周围配套设施的关注点,从而更有针对性的为景区设计内容提出建议.
从图8积极情绪评论数据coherence折线图中可以看出,当主题数为6或9时,主题间的coherence得分最高,然而当主题数越多时,模型容易过拟合,故选用6个主题对积极情绪评论数据进行主题分析。消极情绪评论数据coherence折线图中可以看出,当主题数为8时,主题间的coherence得分最高,故选用8个主题对积极情绪评论数据进行主题分析。
Figure8.Coherence line chart of positive emotion (left) and negative emotion (right) comment texts
图8.积极情绪(左)和消极情绪(右)评论文本的coherence折线图
Figure9.LDA visualization of positive emotion comment texts
图9.积极情绪评论文本LDA可视化
图9是LDA可视化的一个展示,可视化的优点在于能够很直观的看到每个主题下不同词汇占总体的权重(概率),了解每个词汇的重要程度。在pyLDAvis的可视化结果中,如果两个主题的圆圈发生重叠,那么这两个主题就可能有较大的相似性。在理想的情况下,希望每一个主题都能与其他主题明显区分,因此,圆圈之间较小的重叠程度通常被认为是一个好的结果[11]。
为了方便展示,我们将不同情绪下的不同主题下的词汇概率加以展示。在积极情绪评论文本各主题下生成相似度最高的五个词语以及相应的概率,从而获得积极情绪评论文本建模结果如下表所示:
Table 5.Modeling results of positive emotion comment texts
表5.积极情绪评论文本建模结果
主题0 |
概率 |
主题1 |
概率 |
主题2 |
概率 |
夜景 |
0.029 |
苗寨 |
0.065 |
苗寨 |
0.045 |
不错 |
0.025 |
西江 |
0.051 |
苗族 |
0.038 |
苗寨 |
0.021 |
苗族 |
0.049 |
千户 |
0.018 |
景区 |
0.019 |
千户 |
0.031 |
西江 |
0.017 |
拍照 |
0.016 |
吊脚楼 |
0.015 |
景区 |
0.016 |
主题3 |
概率 |
主题4 |
概率 |
主题5 |
概率 |
苗寨 |
0.046 |
夜景 |
0.027 |
景区 |
0.044 |
千户 |
0.021 |
苗寨 |
0.025 |
不错 |
0.026 |
西江 |
0.016 |
不错 |
0.022 |
商业化 |
0.015 |
观景台 |
0.016 |
景区 |
0.021 |
苗寨 |
0.013 |
景区 |
0.014 |
值得 |
0.021 |
值得 |
0.012 |
从表5结果显示可以总结影响积极情绪的六类主题词分别有:拍照、苗寨特色、景色、观景台设置、夜景和商业化。
由主题词能看出,游客对西江千户苗寨景区内的拍照很喜爱,通过了解得到,一些商家会为游客提供拍照服务,会让游客们穿上苗族特有的服饰,前往特定的打卡地点进行拍照,可以总结出,这项行为深受游客们的喜欢,值得大力推广。苗寨特有的文化和建筑设计也是吸引游客的关键点,很多游客就是为了目睹什么是高山流水和长桌宴,特地前往西江,景区应该持续保留苗族特色。最后应该关注观景台的设置,使其能够将苗寨的夜景尽收眼底,增加其观景台的容量并做好安全措施,从而提高游客的体验感。
在消极情绪评论文本各主题下生成相似度最高的五个词语以及相应的概率,从而获得消极情绪评论文本建模结果如下表所示:
Table6.Modeling results of negative emotion comment texts
表6.消极情绪评论文本建模结果
主题0 |
概率 |
主题1 |
概率 |
主题2 |
概率 |
主题3 |
概率 |
商业化 |
0.037 |
景区 |
0.068 |
商业化 |
0.050 |
拍照 |
0.044 |
排队 |
0.037 |
苗寨 |
0.050 |
太累 |
0.048 |
特别 |
0.036 |
观景台 |
0.030 |
体验 |
0.030 |
门票 |
0.030 |
晚上 |
0.034 |
景区 |
0.027 |
游客 |
0.027 |
景区 |
0.026 |
观景台 |
0.029 |
晚上 |
0.022 |
西江 |
0.024 |
长桌 |
0.026 |
景点 |
0.029 |
主题4 |
概率 |
主题5 |
概率 |
主题6 |
概率 |
主题7 |
概率 |
景区 |
0.065 |
景区 |
0.053 |
客栈 |
0.037 |
后悔 |
0.037 |
地方 |
0.043 |
行李 |
0.043 |
真的 |
0.036 |
苗寨 |
0.031 |
苗寨 |
0.042 |
停车场 |
0.032 |
商业 |
0.026 |
门票 |
0.029 |
住宿 |
0.035 |
观光车 |
0.030 |
表演 |
0.021 |
拍照 |
0.027 |
晚上 |
0.027 |
摆渡 |
0.030 |
味道 |
0.021 |
古镇 |
0.025 |
从表6建模结果可以总结影响消极情绪的八类主题词分别有:景区排队时间长、游客体验较差、通行不便、观景台拍照质量差、夜晚住宿难、景区停车不便、商业化严重和性价比低。根据这八个主题可以提出以下建议:
景区排队时间过长,主要集中在夏季,客流量较多且天气炎热,造成游客的不满,可以增设几个验票窗口以及凉亭,最大力度减少游客拥挤;景区中的通行不便问题,是由于景区内道路基本为山路,上下起伏较大且大都为阶梯,景区适当可以增加观光车的数量,达到部分游客想坐车就能坐上车的目的,对于上阶梯坡度较大的地势,建议在周围修建观光电梯,不仅方便游客的通行,也能体现景区的现代化;对于夜晚住宿难问题,大都是因为景区内的酒店价格颇高,在旺季时是市场价的3~4倍,可以适当呼吁商家降低酒店住宿的价格,吸引更多的游客前往苗寨景区,在客流量上达到获胜,从而增加商家的收入;景区停车不方便,是很多景区面临的问题,部分自驾游客希望能驱车直达景区门口,然而景区门口的停车场就只有那么几个,造成了停车难的问题,景区可以多设停车场或者在景区外的附近增设停车位,然后再设置观光车负责游客到景区的往返工作,既缓解了停车位紧张的问题,又为当地解决部分就业问题。
6. 总结
旅游与电子商务结合后,可以将旅游业从上游到下游很紧密的联系在一起,包括旅游供应商、旅游中介和旅游者。消费者可以通过旅游网站,十分迅速的得到各种旅游信息,这甚至比具体的旅游服务还更为重要。此外,用户在购票旅游后,还可以在相应的网络购票平台上留下评价。这些评价相较于传统旅行社中导游对景点的评价,更加真实可靠,从多个角度展示了景点在游客眼中的真实情况,为后续游客提供了参考依据。总的来说,线上购票不仅方便快捷,还能带来更好的旅游体验和更真实的景点评价,是现代旅游的一大趋势。通过线上平台自主选择旅游项目不仅提升了旅游体验,还增加了游客对景点的全面了解,有助于游客做出更加明智的决策。这样一来,线上购票平台不仅方便了游客,也提高了景点的口碑和服务质量。总之,线上购票和自主选择的方式不仅更经济实惠,还能避免不必要的推销,给游客带来更满意的旅游体验和更加真实的景点评价。
通过迅速识别和提取评论中的关键词,景区管理者可以清晰地了解游客体验中的亮点与不足,进而采取相应的改进措施。这种积极的响应可能会激发游客在游览后发表正面评价,吸引更多游客前来体验,进而推动当地旅游业的繁荣,形成一种积极的经济循环。因此,对在线旅游评价的文本分析不仅对旅游文化的传播至关重要,也对塑造旅游形象、了解游客偏好等方面发挥着关键作用。
本文利用网络爬虫技术,对携程网西江千户苗寨景区的用户评论进行爬取,之后将其数据进行描述性分析、情感分析和LDA主题分析,总结得出具参考性的建议。对于景区决策者而言,应当对景区场地布置做出合理规划,景区排队时间过长,主要集中在夏季,可以增设几个验票窗口以及凉亭,最大力度减少游客拥挤;景区商业化的方式可以更加的多元化,更少的利润化,景区门票可以适当让利,以更优惠的价格得到更多的客流量,达到薄利多销,以此得到更多的收入等。
NOTES
*第一作者。