1. 引言
产品属性权重是衡量消费者对产品属性重视程度的量,产品属性权重越高则说明消费者对该属性的重视程度越高。而现实生活中,消费者对同类产品不同属性的重视程度往往是不同的,比如,以汽车产品为例,相比于动力和舒适性,油耗和性价比可能更受消费者重视 [1] 。因此,确定属性权重并识别出关键属性在商品排序与选择研究 [2] [3] 、产品和服务优化研究 [4] 、消费者满意度研究等领域都是必须且重要的步骤。由于在线评论是消费者对所购买产品的评价,具有较高客观性和价值密度,且对消费者的购买决策影响显著 [5] ,所以在线评论可以作为挖掘消费者对属性重视程度,即确定产品属性权重的有效数据。但目前基于在线评论确定属性权重的研究较少,根据在线评论的利用程度将主要相关研究分为两类:一类是仅利用在线评论挖掘产品属性,而属性权重确定与在线评论关系不大。陈卓群和王忠义通过词频统计和机器学习对在线评论进行处理,获得产品属性体系,然后通过传统专家打分的层次分析法确定属性权重 [6] 。另一类是产品属性挖掘和属性权重确定都基于在线评论,对在线评论的利用更充分、更完整。该类方法中最简单的就是用特征描述文本长度确定特征的权重 [7] [8] ,该方法操作简单容易理解但不够严谨。另外一种方法和思路是基于评论中评价分值或情感分值的分布函数进行属性权重确定,比如习扬和樊治平用离散型概率分布函数来表示在线评价信息,然后以加权累积分布函数决策矩阵与理想累积分布向量的距离为目标函数,构建确定属性权重的优化模型 [1] ;冯坤等基于LDA主题模型提取出在线评论中的属性及属性情感值分布函数,然后根据随机占优准则和PROMETHEE-II方法给出不同商品类别中属性的排序结果 [9] 。该种方法容易受到评论样本质量的影响,尤其在样本不大的情况下,特征分布会与大样本分布存在较大偏差。除此之外,李保珍和封胜杰构建以属性值和产品总体评价分别为自变量和因变量的Logistic回归模型,以求解得到的自变量系数作为权重系数 [10] ;陶玲玲和尤天慧基于消费者对酒店各属性的评价值矩阵,运用熵权法确定属性权重值 [11] 。
如何从挖掘出的属性中识别出关键属性也是重要的研究方向,其中降维算法是较普遍使用的研究方法,典型的线性降维算法有PCA (主成分分析)、LDA (线性判别分析) [12] 、ICA (独立成分分析) [13] 等;非线性降维算法主要包括KLDA (核线性判别分析) [14] 、KPCA (核主成分分析) [15] 、HE (海森特征谱方法) [16] 等。但基于在线评论文本对属性值的描述是定性的且目标属性的确定存在一定难度,所以传统的降维算法在基于在线评论识别关键属性的研究中存在一定局限性。所以,较多改进算法被提出来,比如熊熙等提出了基于模糊选项关系的关键属性提取方法,并分别与传统降维算法PCA和LDA相结合 [17] 。而产品关键属性的一般定义是指受到消费者关注度高的属性集合。所以,识别产品关键属性不完全是一个降维问题,而是如何量化消费者对属性关注度的问题,比如刘宪立和赵坤运用模糊集理论与DEMATEL方法,得到影响在线评论有用性的属性权重和中心度,并以此对属性进行排序确定关键属性 [18] ;钟嘉佶等依照数据目标对用户的在线产品评论进行了有效性判断,选择并提取出了表达用户需求的产品关键设计属性 [19] 。
综上所述,基于在线评论确定属性权重的本质是多属性决策问题,但与传统属性权重研究不同,此类研究需要运用文本挖掘技术,如何表达在线评论信息是研究关键与难点。本文将文本挖掘技术与属性权重确定方法相结合,提出了一种融合模型,该模型包括改进LDA主题模型、情感分析词典法、信息增益和改进层次分析法,用于对评论文本数据进行深度处理,从而确定产品各属性权重。
2. 模型过程
2.1. 基于改进LDA模型进行产品属性挖掘
Word2Vec词向量法可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,表示文本语义上的相似度,从而识别出近似词。采用融合Word2Vec的改进LDA主题模型能够有效识别特征词中的近似词,从而提高主题间的区分度。
1) 评论文本预处理。首先对评论文本进行去重、去除评论内容为“此用户未作出评论!”,然后运用Jieba分词对评论文本进行分词,通过基知网停用词表去除停用词和表情图案。最后,在剔除 < 名词,形容词 > 词语结构中的形容词后,将包含名词和形容词的评论提取出来作为主题挖掘文本数据。
2) 候选特征词词集构建。对预处理后的文本数据进行词频统计,设置词频的阈值,将高于阈值的词汇提取出高频词,并人工剔除无法明确体现特征的词汇,构建初始特征词词集。
3) 构建相似特征词词典。以评论语料作为输入语料,借助Gensim库的Word2vec函数训练生成词向量文件,利用相似度函数公式(2.1),计算得出候选特征词的相似特征词,构建相似特征词词典{候选特征词
:相似词1,相似词2,……}。
(1)
其中u和v分别表示两个词汇的词向量。
4) 近似词整合与LDA主题挖掘。根据相似特征词词典对预处理后的主题挖掘语料库进行相似词整合,然后通过一致性得分确定主题数k,再进行LDA主题挖掘,得到属性–特征词集合,
,其中
表示属性
的第j个特征词,
表示第k个主题属性所包含的特征词数量。
2.2. 基于情感分析进行满意度标注
首先基于HowNet领域情感词词典对各属性进行情感分析,计算评论中所含特征词的情感值,然后将情感值转换为满意度并对评论进行标注:
1) 提取含有总体评价特征词的评论。先对原始文本数据进行词频分析,提取构建反映总体评价的标志词集合
。然后根据集合提取出含有总体评价的评论,并剔除仅含由总体评价不含有产品属性特征的无效评论;
2) 分离文本单元。先将单个评论文本按照标点符号和连接词分成多个文本单元,使每个文本单元都含有一个特征词,则得到评论–文本单元集合,
,其中
表示第m条评论的第n个文本单元,
,其中
表示第m条评论所包含的文本单元数量。
3) 标记出特征词及其所属属性。将文本单元分词结果与主题属性–特征词集合相匹配,标注其包含的特征词,并剔除不含特征词的文本单元,则得到评论–特征词集合,
,其中
表示第m条评论的第n个特征词,
表示第m条评论所包含的特征词数量。将“评论–特征词”集合和“属性–特征词”集合进行匹配,可以得到“评论–属性”集合,
。
4) 计算文本单元情感值。将文本单元的分词结果与完善后的情感词典进行匹配,标记每个文本单元中情感词的位置及其情感权重,正面情感词得分+1,消极情感得分−1。同时考虑否定词和程度副词,程度副词具体维度见表1,若情感词前有奇数个否定词,则情感倾向改变;若短句中有偶数个否定词,则情感倾向不变。而程度副词能够反映情感程度大小,如“口感非常好”和“口感还可以”,两者都是对“口感”这一特征的正面评论,但程度副词的不同使二者存在较大的情感程度差异。参照HowNet程度副词词典建立程度副词词典,并赋予相应的权重,确保计算所得情感值的准确性。
Table 1. List of adverbs of degree
表1. 程度副词词表
依据文本单元中否定词词表和程度副词词典,对各个文本单元情感得分进行修改,则文本单元
准确的情感得分:
(2)
其中g表示文本单元
中否定词数量,D和P分别表示文本单元
中程度副词的权重值和情感词得分。因为一个文本单元仅含有一个特征词,所以文本单元的情感值等价于特征词的情感值,
。
5) 情感值转换与满意度标注。消费者对产品的满意度和情感值的区别在于:满意度是和购买前期望值的比较量,而情感值是描述消费者情感方向与程度的标量,二者不能等价。所以对消费者满意度进行分析需要经过转换关系将情感值转换为满意度,根据李克特五分量表法设置转换关系,如表2所示。其中作出相关假设并作为标注规则:
a) 对于评论中未提到的属性,假设其基本符合消费者期望,以“基本满意”进行标注;
b) 对于评论中提到的属性,假设其受消费者重视程度高于未被提到的属性,以“比较满意”或“非常满意”进行标注;
c) 对于单个评论中存在的多个相同属性下的特征词,取其中情感值最低的特征词;
Table 2. Emotional value and satisfaction conversion scale
表2. 情感值与满意度转换关系量表
按照以上满意度标注规则对每条评论进行标注,得到评论–满意度集合,
,其中
表示第m条评论中属性
的满意度水平。整个基于情感分析进行评论满意度标注过程如图整个基于情感分析进行评论满意度标注过程如图1所示。
Figure 1. The entire process of satisfaction labeling based on emotional analysis
图1. 基于情感分析的满意度标注全过程
2.3. 基于信息增益值进行属性重要性确定
以满意度标注结果为样本数据,计算各属性的信息增益值用于衡量其重要性。考虑到消费者对购买的同一产品的属性偏好具有一致性,且不同群体消费者对同一属性的偏好程度具有差异性 [17] ,因此假设属性的重要性值服从正态分布:
。同时为了降低样本质量对计算结果的影响,需对信息增益值进行多次计算。
1) 对样本数据进行N折交叉处理,随机选择其中n (n < N)折,得到样本集合,
;
2) 分别计算t个样本中目标属性D的信息熵值:
假设目标属性D的概率分布为
,则
(3)
3) 分别计算t个样本中属性
下的条件熵值:
假设特征属性
的概率分布为
,则
(4)
4) 分别计算t个属性
的信息增益值:
(5)
5) 重要性值的正态分布表示:根据以上步骤得到的
个信息增益值结果,计算各属性总体正态分布参数估计值。
(6)
则属性
的重要性服从以下正态分布:
。
2.4. 基于改进层次分析法进行属性权重确定
1) 构建判断矩阵。不同于通过专家对指标进行9标度打分的传统主观方法,本文依据各属性重要性值分布间的距离大小进行4标度,构建判断矩阵A:
(7)
矩阵中,
为判断矩阵中因素i与j比较值,且满足
。
(8)
对于都服从正态分布的两个变量i和j,依据正态分布的累积概率密度对
进行层级划分与标度
设置:当
时,即
,则
;当
且
,则
;当
且
,则
;当
且
,则
。
2) 构建优化矩阵。为了满足一致性要求,通过转化公式对判断矩阵元素
进行转换,得到优化矩阵B:
(9)
(10)
3) 指标权重计算。计算各属性指标的单一权重值:
(11)
然后作归一化处理:
(12)
3. 实证研究
3.1. 数据获取与预处理
以同一品牌的肉类生鲜产品为研究对象,采用Python编写爬虫程序从天猫平台共爬取25,560条该类产品在线评论。首先进行评论去重,然后结合人工词典,运用Jieba分词对评论文本进行分词,通过知网停用词表去除停用词和表情图案。然后将能够表现产品属性及特征的名词和形容词提取出来作为主题挖掘文本语料。但其中 < 名词,形容词 > 词语搭配中的形容词往往无法体现产品的具体属性,比如形容词“高”和“快”等,所以将该类形容词从语料中剔除。
3.2. 产品属性挖掘
采用LDA主题模型进行主题挖掘,首先根据一致性得分(Coherence Score)确定最优主题数为6,然后运用sklearn中的LDA模型进行主题挖掘。对于主题挖掘结果,首先只保留各个主题下权重大于2%的特征词,然后由五组研究人员分别确定主题名称,最后依据投票原则对主题名称进行统一确定。同时对于存在多个主题下的特征词,由五组研究人员重新将该特征词归于一个主题中,最后依据投票原则确定该特征词所属主题。最后挖掘出该产品具有六大主题,包括“价格”、“包装”、“物流”、“服务”、“品质”和“份量”,具体结果见表3。
Table 3. Product attribute mining results
表3. 产品属性挖掘结果
3.3. 情感分析与满意度标注
对预处理后的评论文本数据进行词频分析,从词频结果挖掘并构建出反映总体评价的标志词集合s0,{“总之”,“总体”,“总的来说”,“总得来说”,“体验”,“购物”,“购物体验”,“回购”,“推荐”,“好评”,“差评”}。然后提取出含有该类评价特征词的评论,共有16,034条,并剔除其中不含有属性特征词的评论,如“总的来说很好,下次还来”,还有10,651条有效评论作为情感分析与满意度标注的文本数据。
基于HowNet领域情感词词典对各属性进行情感分析,通过公式(2)计算评论中所含特征词的情感值,如表4所示,然后根据表2转换关系量表将情感值转换为满意度,并按照标注规则进行评论满意度标注,如表5所示,整个情感分析和满意度标注过程见图2。
Table 4. Results of emotional value analysis of comments
表4. 评论情感值分析结果
Table 5. Comment satisfaction labeling results
表5. 评论满意度标注结果
Figure 2. Example of emotional analysis and satisfaction labeling
图2. 情感分析和满意度标注实例
3.4. 属性信息增益值计算与总体分布估计
对样本数据进行十折交叉处理,随机选择其中6折,得到包含210个不同样本的样本集合。通过公式(3)、(4)和(5)分别依据210个不同数据样本计算各属性的信息增益值,结果见表6。然后通过公式(6),估计出各属性总体正态分布参数,参数估计结果见表7。“物流”属性为例,该属性重要性值服从正态分布
。
Table 6. Calculation results of gain values for each attribute information
表6. 各属性信息增益值计算结果
Table 7. Estimated values of overall distribution parameters for each attribute
表7. 各属性总体分布参数估计值
3.5. 属性权重确定
首先计算所有属性重要性值分布两两之间的距离大小
,此次为依据确定标度
,得到判断矩阵A:
如“价格”和“包装”两属性重要性分布间距离
,因为
且
,则
,同时
;
然后对通过转化公式(2.10)对判断矩阵元素
进行转换,得到优化矩阵B:
如
。
由得到的优化矩阵通过式(7)和式(8)得到归一权重值
:
所以,“价格”、“包装”、“物流”、“服务”、“品质”和“份量”六个产品属性权重分别为0.18、0.17、0.06、0.25、0.35和0.09,因此权重最大属性是产品品质,其次是服务质量、产品价格,而产品份量、包装和物流的权重较低,说明对于生鲜产品,消费者最看重生鲜产品的新鲜度、是否干净和口感好不好等品质问题,其次是商家服务质量和态度好不好,以及产品价格是否实惠。
4. 结束与展望
产品属性权重的确定与关键属性的识别具有重要现实意义,既能够帮助消费者进行商品比较与选择,也为公司进行产品和服务优化决策提供切实依据。考虑到在线评论作为消费者对商品的售后评论具有较高客观性和价值密度,因此,文章以在线评论为研究数据,将文本挖掘技术与属性权重确定方法相结合,提出了LDA-IGR-IAHP的方法模型,用于对评论文本数据进行深度处理,从而确定产品各属性权重并识别出关键属性。首先基于改进LDA主题模型挖掘出产品属性,然后基于属性情感分析对评论中属性满意度进行标注。之后先对满意度标注样本进行N折交叉处理,然后计算所有不同样本下各属性的信息增益值,以此对各属性重要性值分布进行参数估计。然后,计算两两分布的距离因子,最后运用改进AHP方法确定属性权重。以肉类生鲜产品的在线评论为数据进行实证分析,挖掘出肉类生鲜产品的六个属性,并计算得到各属性的重要性权重值。结果表明,所提出的融合模型能够准确计算出产品各属性权重。
文章提出的方法模型既克服了传统权重确定方法的主观性弊端,同时也尽可能避免了样本质量对结果的干扰。本研究不足之处在于只构建了一级产品属性体系,而部分商品的属性特征往往比较复杂。