Study on Spatial Distribution Characteristics and Emotional Satisfaction of Homestays in Hebei Province Based on LDA-LSTM
This article takes the geographic coordinates of homestays in Hebei Province and the review data of homestays in Hebei Province on Ctrip as the research objects, and studies homestays from two perspectives: geographic space and emotional satisfaction. Firstly, various spatial analysis methods such as nearest neighbor analysis and kernel density analysis are used to explore the spatial distribution characteristics of homestays, and the distribution characteristics of homestays in Hebei Province are obtained. Next, the LDA-LSTM model is used to analyze the text data of homestay comments. The LDA topic extraction model, Word2Vec word vectorization, and Pagerank algorithm are combined to achieve secondary mining of homestay topic words. Finally, the LSTM neural network model is combined to calculate the satisfaction of each topic and analyze the factors that affect household satisfaction.
Spatial Distribution
国内早期的民宿通常是家庭旅馆或农家乐,随着旅游业的发展,“民宿”概念逐渐广为人知。现在,民宿主要指利用闲置房屋或用地提供短期住宿,以个性化和家庭化为特色。民宿类似于家庭旅馆和农家乐,让游客体验当地风情和景色,但管理更规范,服务和卫生品质更高端,装修设计更独特。民宿早期研究主要借鉴国外成熟地区经验,如今研究逐渐丰富,包括乡村振兴下民宿发展
近年来,学者为提升民宿顾客体验,利用情感分析法对顾客评论进行文本分析成为一项重要工具。梁开孟等
Xu等
基于以上文献,民宿评论文本情感分析研究包括主题分析、机器学习和深度学习,以及三者相结合,但国内较少探索主题分析与深度学习相结合的研究。因此,本文将LDA主题提取模型和LSTM神经网络模型相结合,简称LDA-LSTM模型
河北省位于华北平原,随着“周末游河北”的兴起,越来越多的游客来此体验燕赵之旅,民宿产业随之得到发展。因此,对河北省民宿的地理位置和情感分析至关重要。本文利用POI搜索工具收集了河北省11个市1428个民宿和277个3A及以上景点的经纬度坐标数据,该工具基于百度地图对坐标进行抓取,使用ArcGIS软件将民宿POI信息可视化呈现,形成河北省民宿的空间分布图,如
1) 最邻近分析
最近邻距离指数(NNI)
(1)
(2)
其中,A为研究区域面积,N表示研究区域民宿个数, 为研究区域民宿点间理论最邻近距离, 表示研究区域民宿点间实际观测最邻近距离。NNI > 1为离散模式,NNI = 1为随机模式,NNI < 1为聚集模式。
2) 核密度分析
核密度分析法
(3)
其中, 为空间中任意一点i的核密度, 为研究对象j的权重且距离中心点近的数据点被赋予较高的权重, 为i与j间距离( < 0),R为选定规则区域的带宽,n为带宽R的范围内研究对象j的数量。
3) 缓冲区分析
缓冲区分析
(4)
其中,B为一定距离的范围缓冲区;d表示x到O之间的欧氏距离;L为缓冲距,常取的值为5 km、10 km和20 km。
利用最近邻分析来了解河北省民宿的空间分布模式,使用ArcGIS软件得到了民宿POI的最邻近分析结果,如
最邻近指数 | 观测最邻近指数 | 理论最邻近指数 | Z得分 | P值 |
0.226237 | 1812.5032 | 8011.5376 | −55.898328 | 0.00000 |
由
利用核密度分析深入研究了河北省民宿的空间分布聚集特征,通过ArcGIS软件绘制了各市民宿的核密度分布图,如
从
通过调研文献
本研究聚焦河北省民宿,使用八爪鱼采集器对POI搜索工具收集到的11个市民宿在携程网上的评论数据进行爬取,共收集16,303条评论,涵盖用户id、入住时间、评分、出行类型、评论内容等信息。在分析之前,需要对数据进行数据预处理,以便于后续情感分析工作的进行。对用户评论内容的处理包括数据清洗、文本去重、中文分词以及去停用词。数据预处理后剩下有效评论12,138条,其中包括入住时间、出游类型、用户评分以及评论内容等主要特征内容。
本文通过Python对已经处理过的评论内容进行词云图可视化展示,如
由
利用Python对经过数据预处理的评论进行词频统计,选取了前30个高频词进行分析,结果见
序号 | 高频词 | 词频 | 序号 | 高频词 | 词频 | 序号 | 高频词 | 词频 |
1 | 干净 | 4578 | 11 | 推荐 | 1379 | 21 | 感觉 | 879 |
2 | 房间 | 4541 | 12 | 入住 | 1313 | 22 | 晚上 | 879 |
3 | 不错 | 3314 | 13 | 设施 | 1268 | 23 | 舒适 | 864 |
4 | 老板 | 3110 | 14 | 整洁 | 1194 | 24 | 体验 | 863 |
5 | 环境 | 2906 | 15 | 下次 | 1168 | 25 | 满意 | 826 |
6 | 服务 | 2410 | 16 | 早餐 | 1146 | 26 | 好吃 | 826 |
7 | 卫生 | 2115 | 17 | 位置 | 1029 | 27 | 真的 | 793 |
8 | 特别 | 1985 | 18 | 孩子 | 948 | 28 | 齐全 | 675 |
9 | 热情 | 1978 | 19 | 老板娘 | 919 | 29 | 喜欢 | 668 |
10 | 民宿 | 1855 | 20 | 舒服 | 896 | 30 | 这家 | 646 |
根据
通过高频词提取和词云图分析,发现了住户对民宿的关注焦点,但未能揭示词汇之间的联系。借助社会语义网络分析这一工具,可直观反映各词汇之间的关联关系。基于共词分析的思想,以ROSTCM6软件为工具,将已经分词、去除停用词后的评论文本导入到软件当中,然后生成高频词共现矩阵(见
房间 | 干净 | 环境 | 服务 | 老板 | 热情 | 卫生 | 民宿 | |
房间 | 4541 | 2149 | 764 | 999 | 1065 | 971 | 720 | 558 |
干净 | 2149 | 4578 | 1011 | 1098 | 1230 | 1104 | 1384 | 538 |
续表
环境 | 764 | 1011 | 2906 | 1110 | 607 | 655 | 771 | 327 |
服务 | 999 | 1098 | 1110 | 2410 | 601 | 855 | 788 | 338 |
老板 | 1065 | 1230 | 607 | 601 | 3110 | 1110 | 463 | 478 |
热情 | 971 | 1104 | 655 | 855 | 1110 | 1978 | 482 | 365 |
卫生 | 720 | 1384 | 771 | 788 | 463 | 482 | 2115 | |
民宿 | 558 | 538 | 327 | 338 | 478 | 365 | 1855 |
民宿与传统酒店不同,能够展现当地风土人情和良好的主客互动。民宿评论涉及多个主题,并且不同住户对主题的关注和情感倾向也不同。为了解大多数人关注的主题情感倾向,可以使用LDA-LSTM模型
LDA主题模型
本文使用Gensim工具建立LDA主题模型,将经过数据预处理的民宿评论文本导入模型中,进行主题分析。经过多次测试,发现当主题数为6,每个主题下的主题词个数为10时,效果最佳。
主题1 | 主题2 | 主题3 | 主题4 | 主题5 | 主题6 |
老板 | 环境 | 酒店 | 孩子 | 民宿 | 房间 |
热情 | 服务 | 服务 | 院子 | 房间 | 房东 |
房间 | 房间 | 早餐 | 老板 | 体验 | 房子 |
老板娘 | 设施 | 环境 | 房间 | 设施 | 感觉 |
景区 | 交通 | 餐厅 | 草原 | 小院 | 空调 |
环境 | 服务态度 | 前台 | 民宿 | 马桶 | 整体 |
饭菜 | 热情 | 房间 | 味道 | 风格 | 态度 |
客栈 | 性价比 | 地方 | 店家 | 感觉 | 隔音 |
朋友 | 价格 | 服务员 | 烤羊 | 设计 | 风格 |
免费 | 环境优美 | 热情 | 早餐 | 卫生间 | 小区 |
观察
主题1 | 主题2 | 主题3 | 主题4 | 主题5 | 主题6 |
老板 | 特色 | 条件 | 景色 | 细节 | 投影 |
客栈 | 性价比 | 工作人员 | 蒙古包 | 小院 | 屋子 |
饭店 | 环境优美 | 服务员 | 风景 | 用心 | 隔音 |
热心 | 服务态度 | 菜品 | 篝火 | 房间 | 被子 |
地方 | 住宿 | 水果 | 店家 | 设计 | 洗衣机 |
景点 | 感觉 | 前台 | 感觉 | 氛围 | 阳台 |
优惠 | 态度 | 客房 | 味道 | 感觉 | 冰箱 |
续表
旅游 | 五星 | 感觉 | 地方 | 布置 | 房子 |
味道 | 整体 | 餐厅 | 烤羊 | 卫生间 | 电视 |
早餐 | 环境 | 早餐 | 特色 | 热水 | 异味 |
根据
主题1涉及民宿周围设施,评论中提到了“饭店”、“景点”等词语,说明民宿地理位置便利,靠近景区和餐饮设施。
主题2关注民宿的居住体验,出现了“性价比”、“环境优美”等词语,反映住户对民宿居住体验的满意程度较高,给予五星评价。
主题3关注民宿内工作人员的服务态度,出现了诸如“服务员”、“前台”等词,凸显了住户对服务态度的关注和重视。
主题4涉及民宿的特色,如“蒙古包”、“篝火”等词突显了民宿所具有的地方特色和文化元素,区别于传统酒店。
主题5讨论民宿的环境,如“小院”、“设计”等词强调了环境的舒适和温馨,使住户感受到家的氛围。
主题6关注民宿房间内的条件,涉及“被子”、“洗衣机”等词,强调了对房间设施的需求和期待,同时“异味”一词提及了住户对卫生的关注,对民宿内部卫生要求高。
对六类主题进行主题关注度的计算,将计算好的主题关注度按照时间顺序进行排列,得到六个主题从2020年到2023年随时间的演化趋势图,如
图7. 民宿评论主题关注度时间演化趋势图
在2020年到2023年期间,民宿评论主题关注度主要集中在主题6,即民宿房间内条件和卫生问题,明显高于其他主题的关注度,且呈上升趋势。其次是主题1,主要涉及民宿周围设施是否便利,如餐饮和交通,虽略有下降但仍较高。主题2和主题3是关于民宿的居住体验以及民宿内工作人员的服务态度的主题,在2020年到2023年期间,对其关注度呈现整体上升趋势,说明人们对住宿的要求不再局限于外在房间条件的要求,更在乎居住体验和服务态度方面是否让自己达到了内在欢愉。主题4和主题5在2020年到2023年期间呈现出略下降的趋势,虽然有下降的趋势,但是关注度占比也很高。
LSTM
由于民宿评论文本数据中的每个样本都是一句话,无法作为LSTM模型的输入文本,于是构建词汇表并将句子转换为数字序列,不足部分用0填充以统一维度。接着,使用分类交叉熵损失函数和Adam优化器训练模型对文本评论数据进行情感二分类处理,将数据集分为8:2的训练集和测试集。该模型在训练集上达到95.4%的准确率,损失值为18.6%。
经过LSTM模型对民宿住户的评论进行情感分类分析,可以得到每条评论的情感分类结果,将得到的结果按照每个主题进行汇总,按照如公式(5)所示的主题满意度计算公式,可以得出每个主题的主题满意度随时间的变化图,如
(5)
利用式(5)对经过LSTM模型进行情感分类后的民宿评论进行主题满意度计算,将计算好的主题满意度按照时间顺序进行排列,得到六个主题从2020年到2023年随时间的演化趋势图,如
由
主题3和主题4都是在2020年到2022年处于下降的趋势,2022年到2023年才开始处于上升的趋势。说明2020年到2022年期间,民宿的住户对服务态度和民宿的特色的满意度有所下降,可能是由于疫情的原因导致民宿产业受到了影响,但是2022年到2023年对其满意度又呈现出了上升的状态。
图8. 民宿评论主题满意度时间演化趋势图
主题5在2020年到2023年期间处于先下降再上升然后又下降的趋势,即对于民宿的环境设计和布置方面,民宿住户的评论起伏变化较大,民宿经营者应当引起重视。
本文分别从地理空间和情感满意度两个角度对河北省民宿进行了研究,并得出相应结论。
从地理空间角度,本文通过POI搜索工具收集了河北省11个市的民宿和景区的经纬度坐标,共收集到1428条民宿POI数据和277条3A及以上景区的POI数据。利用ArcGIS软件进行了最邻近分析、核密度分析和缓冲区分析,结果显示,河北省的民宿分布呈现显著的聚集模式,特别是在景区附近。
从情感满意度角度,本文利用八爪鱼采集器对POI搜索工具收集到的河北省11个市的民宿在携程网上的民宿评论进行爬取,得到有效评论12,138条,利用LDA-LSTM模型对其进行情感满意度分析,发现影响住户满意度的因素为民宿周围设施、民宿居住体验、民宿内工作人员的服务态度、民宿特色、民宿环境设计和布置以及民宿房间内的设施条件等六个方面,并进行主题满意度计算,结果表明:住户对于民宿周围设施、民宿居住体验以及民宿房间内的设施条件满意度基本稳定且满意度很高,对于民宿内工作人员的服务态度以及民宿特色方面满意度有所下降,对于民宿环境设计和布置方面满意度起伏变化较大,因此,民宿经营者应重点改进服务态度和特色,提高住户满意度。
邯郸市科学技术研究与发展计划项目(21422304303)。
*通讯作者。