Research on Consumption Tendency of Prefabricated Vegetable Market Based on Text Analysis
The purpose of this paper is to study the current consumption status of consumers in the prefabricated food market, focus on the behavior of prefabricated food consumers, and summarize the key points of consumer concern. Based on this, this paper obtains the review data of key prefabricated food enterprises through a Python crawler, uses semantic network analysis and LDA-coherence topic evaluation model to carry out text mining, and extracts multiple keywords as survey dimensions, in order to understand the factors affecting consumers’ willingness to buy prefabricated dishes, and makes the following summary: consumer review keywords can be divided into five dimensions: product quality, product price, taste and taste, simple and fast, and logistics and transportation. 73.62% of the reviews were non-negative, indicating that most consumers are optimistic and expectant about the current situation and development of pre-made dishes.
Pre-Made Dishes
预制菜自20世纪90年代起在中国市场逐渐普及,最先传入上海,后发展到与上海经济水平趋同的江浙地区,近年来得到越来越多消费者认可。2022年,中央一号文件将培育发展预制菜产业列入规划,各地也在积极推动预制菜产业高质量发展
国家层面:预制菜产业可以促进产业链和结构升级,振兴乡村经济。该行业链接农业和餐饮消费,提升了农产品的附加值和销售渠道,为农业和经济发展带来了机遇。中央一号文件首次提及预制菜的发展,这标志着发展预制菜被提升为乡村振兴的重要战略举措,预制菜行业将迎来全新的发展机遇。
企业层面:使用预制菜能提高出餐速度,实现口味可控。餐饮成本主要包括原材料、人工、租金和能源成本。人力成本是最大的支出之一。提高人效和坪效是餐饮企业主要追求的目标。
消费者层面:预制菜可以为消费者提供方便和快捷的食品选择,特别是在忙碌的现代生活中。预制菜可以减少烹饪的时间和复杂度,同时也提供了各种营养均衡的选择。此外,预制菜还能够保证食品质量和安全,并减少食品浪费。
文本分析的研究包括自然语言处理、语言学、本体学、数据挖掘、机器学习、概率论和统计分析在内的多个学科,是一格综合性的研究领域。刘娜娜、张强
本文的研究工作包括:对京东APP的预制菜商品评论进行爬取和预处理,运用Python的jieba包与常用的停用词表进行分词,进行词频统计,利用ROSTCM6软件的NetDraw工具绘制语义网络图,进行对象属性的可视化分析,在通过SnowNLP模型进行情感分析,最后通过LDA主题模型总结归纳。
通过Python的requests包,抓取京东平台部分热销预制菜品牌商品评论。共抓取数据好评15088条,中差评合计3526条,合并后共计18614条。由于电商平台存在商家雇佣水军采取作弊行为刷高销量和用户因网络问题重复评论等现象,进行原始数据的清洗尤为重要。报告采用文本比较方法,删除插入的图片和HTML超链接;删除用户ID、发表时间等无用文本;评论内容完全为英文字母、数字和标点符号的,视为随意发表的评论,予以删除;大量重复出现,视为无意义的评论,予以删除。经过预处理后,统计得到有效评论共17300条,其中好评13964条,差评3336条,文本有效率为92.94%。
用户ID |
商品类别 |
时间 |
评论内容 |
188****3650 |
GUO LIAN小霸龙 蒜香烤鱼 |
2023-02-22 |
吃了一盒,感觉不错,京东送货很快,价格便宜,还会继续买吃起来很方便,还可以当火锅吃。 |
186****6318 |
美好 农家小酥肉 |
2023-01-08 |
小酥肉以前在我们家都是用烤箱烤一下在吃今年冬天把它放在大白菜里面炖着吃,味道很不错。 |
186****3233 |
珍味小梅园 红烧狮子头 |
2023-01-14 |
过年就靠这些菜做一桌年夜饭啦,家里老人比较多,还是不要去外面比较保险,珍味小梅园的品质还是很相信的,京东物流送货也很快。 |
通过Python的jieba包对其进行分词,分词后,在通过CSDN下载停用词表将无意义的词载入并过滤,完成最后的文本数据清洗,之后将高频词进行统计,得到分析结果如
语义网络是一种社会网络分析的方法,由大量的常识与概念构成。由网络节点和有向线段组成完整的语义网络关系图,在图中,概念之间的从属关系用箭头的方向来表示。本文使用ROSTCM软件,该软件常用于文本分析领域,借助ROSTCM软件中的NetDraw工具可以绘制语义网络图,利用语义网络图实现评价对象间属性的可视化分析。
通过
SnowNLP中的情感分类基本模型是贝叶斯(Bayes)模型,对于有两个类别的分类问题来说,其特征为,特征之间是相互独立的,属于类别的贝叶斯模型的基本过程为:
(1)
其中:
(2)
贝叶斯模型预测的过程则用到了上述公式(1),对其简化有:
(3)
其中,分母中的1可以改写为:
(4)
通过标记好的评论正负样本训练模型并对其余评论预测得分,结果如下:
评论 |
情感得分 |
这个佛跳墙春节就买过,真的感觉很不错,吃起来口感超赞,最主要的是里面的料太丰盛了,这个价位买的真的很值了,以前也吃过其他品牌的真心觉得这个更胜一筹,还会回购。 |
0.999977317 |
京东快递一如既往送货神速,晚上下单隔天上午送进家门。家人一直想尝试下佛跳墙,网上平台铺天盖地不知真假,最终还是相信京东自营的,年夜饭吃掉了,味道还不错,就是有点腻。 |
0.782334396 |
已经做了一餐,味道很不错料也很实在,应该多备点了,就是冰箱已经被塞满,这一袋很大,能吃两餐了,一次半袋,家里三四口人正好。 |
0.704372012 |
第一次买正大的羊蝎子太让人失望了根本不是羊蝎子都是些边角料一块羊蝎子都没有而且每块都特别肥,加了蔬菜结果搞的菜都特腻了,不知道是不是因为一批质量不行所以搞活动清仓抢了三份本来还很开心现在光发愁怎么消耗完,砸牌子。 |
0.472968147 |
这个猪肚鸡,用的全是琵琶腿小的那一头,皮包骨,根本没图片中拍的这种大块肉。第一包打开吃出来一堆骨头端也是无语了。还有买了包200多,隔天评价时再看,才49一包吐血。 |
0.455101312 |
产品难吃,吃完后还拉肚子。根本就不是猪肚鸡的味道,份量小用材差。 |
0.312619665 |
通过使用Python的snownlp程序包进行情感分析,最终会获得对一个评价的得分P,情感分数置于[0, 1]之间,得分在[0, 0.3]的归为消极情绪,[0.3, 0.7]的归为中性情绪,[0.7, 1]的归为积极情绪,得到结果如
从
从
为了了解预制菜消费者主要倾向于关注产品相关的哪些领域,使用LDA主题模型对评论文本进行主题的聚类。LDA主题模型不关心文档中单词的顺序,通常使用词袋特征(bag-of-word feature)来代表文档。对分完词并去除停用词的评论进行主题分类,一般用来评价LDA主题模型的指标有困惑度(perplexity)和主题一致性(coherence),困惑度越低或者一致性越高说明模型越好。一些研究表明perplexity并不是一个好的指标,所以我们选用coherence来评价模型并选择最优主题,得到的主题-coherence变化情况如图所示:
由
产品质量 |
产品价格 |
口感味道 |
简单快捷 |
物流运输 |
不错 |
活动 |
味道 |
炸锅 |
京东 |
质量 |
价格 |
喜欢 |
空气 |
快递 |
包装 |
便宜 |
好吃 |
分钟 |
物流 |
满意 |
性价比 |
新鲜 |
油炸 |
收到 |
品牌 |
划算 |
正宗 |
火锅 |
送货 |
通过