Satisfaction Evaluation Based on User Experience—A Case Study of Bilibili
Purpose: This study is to explore the applicability of the classical foreign user experience scale within the local context of China. This aims to enrich the measurement tools available in the field of user experience. By collecting data on college students’ usage of Bilibili (Site B), the study seeks to evaluate user satisfaction with Site B, provide actionable suggestions for its optimization and improvement, ensure that user needs are accurately reflected in the direction of the APP’s enhancements, and thereby contribute practical user feedback to the development of Site B. Methods: The UMUX scale and WAMMI scale were utilized to assess the user experience of 1011 college students on Site B, with the SUS scale serving as the criterion. Initially, we assessed the reliability and validity of the UMUX scale. Subsequently, we conducted exploratory factor analysis, confirmatory factor analysis, and validity testing on the WAMMI scale data. We employed the revised Chinese translations of these two scales to evaluate the user experience of college students on Site B. Conclusion: 1) The revised UMUX scale demonstrated good reliability and validity. Regarding the WAMMI scale, after eliminating questions 5, 10, 12, and 16, the remaining 16 items retained high reliability and validity. The indicators of the two scales fulfill the criteria for measurement, suggesting they possess a degree of applicability within the Chinese cultural context. 2) Overall, Chinese college students report a favorable user experience with Site B, and gender does not appear to significantly influence user experience. Nonetheless, increased duration and frequency of use are associated with improved user experience.
User Experience Evaluation
根据CNNIC第53次《中国互联网网络发展状况统计报告》,截至2023年12月,我国手机网民已达10.91亿,网民使用手机上网的比例为99.9%。我国网络视频(含短视频)用户规模达10.67亿,占整体网民的97.7%
随着社会生产力的提升,消费者对产品的需求逐渐从数量需求转为可用性需求,当基本需求得到满足之后,用户体验的重要性日益凸显。根据ISO 9241-11:2018的定义,用户体验涵盖了用户在使用或预期使用系统、产品或服务时所产生的感知和反应
用户体验的量化评估是对用户体验质量进行具体化的测量过程,包括主观与客观的测量手段。访谈和问卷调查由于成本效益高、实施便利,成为评估用户体验最常用的手段之一。从已有文献可见,陈淑红和程春通过自制问卷调查了网易云音乐APP用户体验对用户忠诚度的影响,并发现感官体验、互动体验和社会体验对用户忠诚度具有显著的正向影响
目前,系统可用性量表(System Usability Scale, SUS)是被广泛认可的用研测量工具,可用于各类产品、系统与服务的可用性测评
哔哩哔哩(简称B站)是一个以视频弹幕功能著称的网站。据B站2022年四季报及全年财报指出,其日均活跃用户数达到9280万,月均活跃用户3.26亿,用户日均使用平台时间长达96分钟
B站的用户体验,根据已有研究,主要得益于其独特的播放机制——弹幕、内容丰富的原创视频以及相对较少的广告。例如,李堂辉基于“使用与满足”理论指出,B站的弹幕功能作为一种新兴的互联网信息交流和传播方式,有效满足了用户的多样化需求
B站的用户群体中,18~35岁占比78%
本次研究以大学生B站用户为调查对象,采取方便取样方法,共进行了三次样本的发放,剔除无效及规律性作答的,最后有效样本依次为:第一次1011份有效问卷,有效回收率98.73%,其中男性432名,女性579名,用于两个量表的有效性检验,我们又在一个月后对其中80名相同被试进行了两个量表的重复测量。第二次有效问卷仍然是1011份,用于两个量表的用户体验现状调查。第三次我们选择41名大学生被试,男性22名,女性19名,目的在于通过定性访谈的方式,深入了解他们对于B站的整体印象以及不满意之处。
本研究采用SPSS 26.0进行描述性统计分析和探索性因素分析,使用Amos 24.0软件对数据做验证性分析。另外,利用NVivo 11.0软件对访谈资料进行整理和分析,提取文本内容中的关键词频。
UMUX量表被看作是SUS量表的一个变式。最初它包含12个问题,后来经过修订,缩减为一个包含四个问题的单维量表。这个量表包括综合体验(第1题)、满意度(第2题)、有用性(第3题)和高效性(第4题)四个部分,其中后三个方面用来测量ISO可用性定义
爱尔兰科克大学的人因研究组(HFRG)于20世纪90年代早期研发了针对评估软件应用的软件可用性测试调查表(Software Usability Measurement Inventory, SUMI)
系统可用性量表(System Usability Scale, SUS)由John Brooke创建
为确保翻译质量,我们采取了严格的双重校对流程。首先,我们邀请两位语言学教授和一位具有英语教育背景的心理学教授共同翻译了UMUX量表和WAMMI量表的初稿。随后,一位心理学教授对初稿进行了细致的审阅和归纳,并根据实际应用场景对题项表述进行了调整。为了确保翻译的准确性,我们随后邀请了两位英语专业的教授对这两个量表进行回译。在此过程中,我们还特别邀请了一位心理学专家对回译稿与原稿之间的一致性进行了细致的比较和研究。最后,为了确保量表翻译的适应性和实用性,我们选取了10名B站用户进行调查,并根据用户的反馈对存在问题的题项进行再次修订,从而形成中文版的UMUX量表和WAMMI量表的最终版本。
1) 项目分析
通过对1011名被试UMUX量表得分进行相关分析,结果显示,各题项与总分的相关系数在0.679~0.752之间,均在0.01水平上达到显著。本研究以总分为依据,对研究对象进行了排名,将分数最高的个体(前27%)分为高分组,将分数最低的个体(后27%)分为低分组,并对高分组与低分组样本在4个题项的得分进行独立样本t检验。结果表明,两组样本在每个题项的得分均差异显著(p < 0.001)。这说明UMUX量表所有题项具有较好的区分度。
2) 信度检验
问卷的信度分析主要是对问卷测量的可靠性与稳定性的考量,其主要目的是检验测量所得结果的内部一致性程度。UMUX量表的α系数为0.746,重测信度为0.792,UMUX量表是单维度,合成信度为0.850,说明UMUX量表在中国具有一定的可行性。
3) 效度检验
效度分析用来评判测量结果的正确程度和准确程度。探究UMUX量表的四个因子之间及与总量表的相关分析结果发现,四个因子与总量表之间的相关系数较大(0.679~0.752),说明各因子都围绕一个共同特质;四个因子之间存在较低程度的相关(0.216~0.538),显示每个因素有各自独立的作用。这些说明UMUX量表具有良好的结构效度。
以SUS量表作为效标,本研究测得UMUX量表得分与该效标的得分呈现显著的正相关(r = 0.723, p < 0.01),说明该量表效标效度良好。
1) 项目分析
2) 探索性因素
本研究将被试随机分成两部分:一部分(n = 504)用于探索性因素分析,另外一部分(n = 507)接受验证性因素分析。
本研究使用KMO和Bartlett球形检验样本的充足度和进行因素分析的适宜度。结果表明,KMO = 0.904,Bartlett球形检验结果达到显著性水平(χ2= 3560.221, df = 190, p < 0.001),这说明样本数据适合进行探索性因素分析。
基于上述结果,本研究使用主成分分析法(Principal Components)提取各因子,并使用最大方差法(Varimax)进行旋转。在因子选择上,删除因子下题项只有一个或两个的因子。探索性因素分析结果显示,有两个因子包含题项在三个以下。因此,再次删除3个题项(第10题、第12题、第16题),保留余下16个题项,并对剩下的16个题项进行第二次探索性因素分析,提取因子方法如前。16个题项的公因子方差值范围为0.451~0.732,最终抽取出四个因子(
项目 | 共同度 | 因素负荷 | 特征值 | 贡献率(%) | 累积贡献率(%) |
因素1 | 可用性 | 5.778 | 36.114 | 36.114 | |
3 | 0.732 | 0.831 | 在B站上,我能快速找到我想要的东西 | ||
4 | 0.657 | 0.747 | 在我看来,B站是符合逻辑的 | ||
9 | 0.624 | 0.744 | B站可以帮助我找到正在查找的内容 | ||
13 | 0.577 | 0.698 | 当使用B站时,我感到效率高 | ||
1 | 0.677 | 0.650 | B站有许多我感兴趣的内容 | ||
因素2 | 易用性 | 2.390 | 14.937 | 51.050 | |
8 | 0.615 | 0.744 | B站太慢 | ||
14 | 0.632 | 0.756 | 很难说B站是否有我想要的东西 | ||
17 | 0.607 | 0.710 | 难以记住自己在B站上的位置 | ||
18 | 0.612 | 0.691 | 使用B站就是浪费时间 | ||
2 | 0.572 | 0.651 | B站浏览起来是困难的 | ||
因素3 | 满意度 | 0.895 | 5.594 | 56.645 | |
7 | 0.658 | 0.67 | 当我使用B站时,我感觉可以掌控操作 | ||
6 | 0.568 | 0.557 | B站的网页非常吸引人 | ||
11 | 0.677 | 0.508 | 我不喜欢使用B站 | ||
因素4 | 易学性 | 0.790 | 4.935 | 61.580 | |
20 | 0.701 | 0.790 | B站上的每件事情都容易理解 | ||
15 | 0.451 | 0.469 | 第一次使用B站是容易的 | ||
19 | 0.492 | 0.416 | 当点击B站时,能得到我期望的内容 |
3) 验证性因素
根据探索性因素分析的结果,我们对另一部分样本数据(n = 507)进行了验证性因素分析,以检验WAMMI量表的四个因子的拟合程度。如
模型拟合指数 | ||||||
统计检验量 | χ2/df | RMSEA值 | GFI值 | NFI值 | TLI (NNFI)值 | CFI值 |
适配标准值 | <3 | <0.08 | >0.9 | >0.9 | >0.9 | >0.9 |
模型值 | 3.011 | 0.066 | 0.928 | 0.907 | 0.918 | 0.933 |
4) 信度检验
WAMMI量表的内部一致性分析显示,其总体的Cronbach’s α系数为0.882,表明量表具有较高的可靠性。此外,各维度的α系数介于0.650至0.860之间,进一步证实了其良好的内部一致性。重测信度达到0.766,说明该量表在不同时间点测量的一致性也较为理想。
5) 效度检验
分析WAMMI量表的四个因子及其与总量表之间的相关性显示,这四个因子与总量表的相关性较强(相关系数介于0.738至0.800之间),而因子之间的相关性则相对较弱(相关系数介于0.319至0.501之间),这表明WAMMI量表具备良好的结构效度。此外,WAMMI量表与作为效标的SUS量表之间的相关系数达到0.709 (p < 0.01),这一结果说明两量表之间效标效度合乎标准。
由
频数 | 百分比(%) | ||
性别 | 男 | 432 | 42.7 |
女 | 579 | 57.3 | |
使用时间 | 小于1年 | 54 | 5.3 |
1年到3年 | 381 | 37.7 | |
3年以上 | 576 | 57.0 | |
使用频率 | 每天都使用 | 455 | 45.0 |
每周都使用 | 429 | 42.4 | |
每月都使用 | 127 | 12.6 |
UMUX量表得分越高,代表用户体验越好。对不同性别、使用时间、使用频率的B站用户进行UMUX量表得分的多因素方差分析,结果发现,四个维度和量表总分均不存在交互作用。使用时间在综合体验、有用性以及量表总分上存在着主效应差异(F综合体验(3,1010)= 21.132, p < 0.001; F有用性(3,1010)= 20.687, p < 0.001; F总分(3,1010)= 16.833, p < 0.001),使用时间越长的用户体验感越好。使用频率表现出主效应,频率高的用户有更好的有用性体验(F有用性(3,1010)= 14.420, p < 0.001)。
总体而言,WAMMI量表的分数越低,意味着用户体验越佳。同样采用性别、使用时间和使用频率三个自变量进行多因素方差分析,结果显示这四个维度与量表总分上没有交互作用。使用时间对于可用性、易用性、用户满意度以及量表总分等方面具有显著的主效应影响(F可用性(3,1010)= 17.550, p < 0.001; F易用性(3,1010)= 13.120, p < 0.01; F满意度(3,1010)= 31.040, p < 0.001; F总分(3,1010)= 27.040, p < 0.001),使用频率在满意度上存在主效应差异(F(3,1010)= 25.116, p < 0.001)。使用时间越长,使用效率越频繁,用户的使用体验感越好,满意度越高。
根据访谈结果可知,大学生用户对于B站用户体验的使用体验较好。根据词云图(
在中文版UMUX量表上,本研究通过对1011份问卷进行数据分析后发现:1) 项目结果显示,UMUX量表的题总相关系数在0.679~0.752之间,题与题之间的相关系数在0.216~0.655之间,表明量表的每一个题项均指向了一个共同的主题,但题项之间本身的重合度不高,具有较好的区分度,反映了量表可从B站用户体验的不同方面进行评估。2) UMUX量表的α系数为0.746,重测信度为0.792,合成信度为0.850,与SUS量表的效标效度为0.723,说明量表在中文语境下具有一定的可施测性。
在中文版WAMMI量表上:1) 项目分析结果显示,WAMMI量表各题项与总分的相关系数在0.147~0.660之间,均在0.01水平上达到显著;其中第5题与总分间的相关系数为0.147,题目的鉴别能力较低,应当剔除。2) 数据高低分组后,两组样本在题项的得分均差异显著(p < 0.001),说明WAMMI量表的题项具有较好的区分度,可从不同维度对B站用户体验进行多方面的评估。3) 在进行探索性因素分析中发现,其中两个因子下分别只有两个题项,不符合每个因子下至少三个题项的要求,因此将这四个题项(第5题、第10题、第12题、第16题)予以剔除,然后进行验证性因素分析,发现各种拟合指数达到标准,说明剔除题项后的模型对数据拟合较好。4) WAMMI量表总分α系数为0.882,每个维度的α系数在0.650~0.860之间,重测信度达到0.766。四个因子(可用性、易用性、满意度、易学性)与总量表之间的相关系数较大,说明各因子都围绕一个共同特质,四个因子之间存在较低程度的相关,每个因素有各自独立的作用,进而说明WAMMI量表具有良好的结构效度。与作为效标的SUS量表之间的相关系数达到0.709 (p < 0.01),效标效度也较理想。
总之,修订后的中文版UMUX量表和WAMMI量表具有良好的信效度指标,适用于评估大学生对B站的用户体验情况。
整体而言,大学生用户对于B站的用户体验较好,与前期访谈的结果一致,这可能与其用户本身的特殊性有密不可分的联系。B站的用户大多为Z世代用户
两个量表的结果均表现出,使用时间长和使用频率高的用户体验感更好,满意度也更高。首先,使用时间长和使用频率高,用户会与B站建立更深层次的联系,对B站分享的信息能进行更深层次的加工,产生强烈的参与感和社会存在感
但B站用户体验在不同性别上的差异不显著,赵阳佳紫的研究中发现性别对于B站跨年晚会的使用动机没有差异
在访谈过程中,我们发现“使用”这一词汇频繁地被提及,这无疑反映出B站用户在体验过程中的极高满意度。那些如“符合”、“功能”、“操作”、“容易”、“学习”、“吸引力”、“效率”、“帮助”等关键词,更是清晰地揭示了大学生用户群体对B站的普遍认可。他们认为B站不仅操作简便,使用起来轻松愉悦,而且能够高效满足他们的需求,提供极具吸引力的内容和功能,帮助他们更方便地获取信息和解决问题。
2) 中国大学生用户的B站使用体验整体来说较好,在性别上不存在差异,但表现出使用时间越长、使用频率越高的用户体验更好。
国家自然科学基金重点项目(No. 61936010);重庆文理学院横向项目(No. WLHX-2020-0033)。
*共同第一作者。
#通讯作者。