基于语言大模型的智能英语口语学习APP调研与设计研究

期刊菜单

基于语言大模型的智能英语口语学习APP调研与设计研究
Research on Survey and Design of Intelligent English Speaking Learning APP Based on Large Language Models

DOI: 10.12677/sea.2024.132027, PDF, HTML, XML, 科研立项经费支持
作者: 刘乐彤, 潘悦晨：中国矿业大学(北京)管理学院，北京；郭子浩：中国矿业大学(北京)文法学院，北京；李子晴, 季东霖：中国矿业大学(北京)人工智能学院，北京
关键词: 语言大模型；人工智能；APP设计；英语口语学习；用户和竞品调研；Large Language Models； Artificial Intelligence； App Design； English Spoken Learning； User and Competitive Product Research

摘要: 本研究的核心目标是探索和设计一款基于语言大模型的英语口语学习应用程序，旨在解决英语口语应用缺乏针对性陪练的问题。本研究利用了KANO模型作为对目标用户进行使用意向调研，对目前市场上发展较成熟的英语学习产品进行定性和定量分析，基于调研结果，确定APP设计方向重点；同时，研究还涉及了APP的交互外观设计，探讨了结合用户体验的设计原则和方法，以创造出直观、易用且吸引人的用户界面；本研究还介绍了支撑自身应用成型的核心技术——语音转文字技术、大模型对话系统和文字转语音技术等方面。本研究为开发一个创新的、满足用户需求并具有市场竞争力的英语口语学习应用提供了理论依据和实践指南，挖掘了英语口语教育的潜在可能性。

Abstract: The core objective of this study is to explore and design an English spoken language learning application based on large language models, aimed at addressing the issue of the lack of targeted practice in English speaking applications. This research employed the KANO model to conduct usage intention surveys among the target users and performed both qualitative and quantitative analysis of mature English learning products currently on the market. Based on the survey results, the key focus for the APP design was determined; in addition, the study also involved the investigation of the APP’s interactive exterior design, discussing design principles and methods that integrate user experience to create an intuitive, easy-to-use, and engaging user interface. This study also introduced the core technologies that support the application’s development, such as voice-to-text technology, large model dialogue systems, and text-to-speech technology. This research provides a theoretical foundation and practical guide for the development of an innovative English spoken language learning application that meets user needs and possesses market competitiveness, uncovering the potential possibilities of English spoken language education.

文章引用：刘乐彤, 潘悦晨, 郭子浩, 李子晴, 季东霖. 基于语言大模型的智能英语口语学习APP调研与设计研究[J]. 软件工程与应用, 2024, 13(2): 262-280. https://doi.org/10.12677/sea.2024.132027

1. 绪论

1.1. 市场环境

随着全球化的进程，英语已经成为了国际交流的通用语言，英语口语教育的需求是日益增长的，无论是在学术、商务还是日常生活中，流利的英语口语能力都成为了人们追求的重要技能。特别是在中国，随着经济的发展和国际交流的增多，越来越多的人开始重视英语口语的学习，我国政府也高度重视英语教育，在《关于深化教育教学改革全面提高义务教育质量的意见》中明确提出了加强英语口语教学的要求，这些政策的出台，为英语口语教育的发展提供了有力支持。

在互联网科技的快速发展和人们日益加快的生活节奏，面对学习英语的需求，在线英语学习逐渐受到人们青睐，英语学习应用市场正处于快速发展阶段，用户需求不断增长，市场潜力巨大。但在层出不穷的英语学习APP中，多以背单词功能为主，很少有产品去真正对英语口语学习者做出科学的个性规划和针对训练；绝大部分英语学习者对于个性化的学习方式都有强烈的需求，智能化和个性化成为英语学习应用发展的关键方向，而生成式AI技术能够通过个性化的学习模型和内容推荐，为学习者提供更加贴合其需求的学习体验，其潜力巨大。

1.2. 研究意义

当前英语口语需求较大的人群主要可以分为三类：职场办公人群、计划留学的学生群体和儿童英语口语学习者。然而学习口语往往需要特定的语言环境以提供实践机会，而在我国，大部分学习者恰恰缺少这样的环境，许多人因为害怕犯错或担心自己的口音问题而不敢与人用英语交流；另外，即便人们在找到了合适的英语口语陪练，高昂的费用也让他们感到难以承担。不管学习哪种语言，练习口语的最重要一步就是勇于开口说话；基于此，人工智能技术通过为学习者设定个性化的学习方案、创建模拟情景的方式，使得学习者可以与AI进行互动式英语交流，有效解决了英语口语学习者面临的难题。

随着大数据和人工智能等科学技术在语言学习领域的广泛应用，这些技术正在帮助语言学习者克服学习中的障碍和难以形成良好口语习惯的难题。生成式AI技术主要基于深度神经网络，通过训练大规模的数据集并执行prompt工程，能够学习并提取出数据的本质规律，进而利用生成模型创造出新的数据。在自然语言处理领域，生成式AI已经成功应用于多种任务，例如文本摘要、翻译和对话系统，并在这些方面展现出了卓越的性能。

2. 研究方法

2.1. KANO方法介绍

KANO模型是用于对用户需求进行分类和优先级排序的分析工具。它通过评估用户需求对用户满意度的影响程度，为产品功能的升级提供基础，并确定在产品设计过程中功能实现的优先级。KANO模型的分析方法主要基于对用户需求的细分原理。它使用设计问卷进行调研，然后结合调研结果对产品的不同属性进行分析和分类，以确定产品功能的属性，从而帮助产品设计团队更好地理解和满足用户的需求，从而提升产品的用户满意度和市场竞争力。

Table 1. Classification of evaluation results of KANO Model

表1. KANO模型评价结果分类对照表

A：魅力属性，O：期望属性，M：必备属性，I：无差异属性，R：反向属性，Q：可疑属性

KANO模型根据用户对产品的满意度的影响因素，将产品所能满足的需求划分为六大类型：

1) 必备型需求属性(M)：用户对产品的基本必备要求；当产品的基本属性表现充足时，用户也可能不会表现出更多的满意或是好感。

2) 期望型需求属性(O)：用户对产品的意愿型需求，顾客的满意程度与此类需求满足程度成比例关系；产品的期望属性表现良好，用户的满意度会显著增加，反之，此属性表现不好，用户的不满程度也会增加。

3) 魅力型需求属性(A)：用户对某项产品功能不会过分期望的需求，随用户的期望型需求被满足程度增加，即使某项魅力型产品功能表现不完善，顾客的满意度也不会因此大幅降低。

4) 无差异型需求属性(I)：不论产品是否体现这一属性，对用户的体验感没有影响，不会导致其满意或不满意。

5) 反向型需求属性(R)：产品某一功能强烈引起用户的不满，导致产品满意度水平降低，产品的反向型特性的提供程度与用户满意度成反比。

6) 可疑属性(Q)：功能具备和不具备，用户均表示“喜欢”或者“不喜欢”，该属性可能由于用户没有很好理解问项或误答 [1] 。

KANO模型将用户对产品功能的主观需求转化为可量化的数据，从而更加科学地指导我们在人工智能驱动的英语产品设计过程中做出决策；通过利用KANO模型，我们能够确定最优的设计方案，并创建出真正符合用户喜好和期望的产品原型。

在应用KANO模型的过程中，关键步骤是基于KANO模型的产品特性细分原理来设计调研问卷。这一步骤要求我们深入理解用户需求，并将这些需求分类为不同的KANO类别，每个属性的分类结果如表1所示，这种细分帮助我们定位产品功能，并确保我们的设计能够满足用户的不同层次的需求。

2.2. 文本分析方法介绍

文本分析就是对文本的表示和对该文本特征项的选取，将含有特殊语义、情感的非结构化的文本数据抽出特征词转为结构化的数据，使计算机可以识别和操作，再通过量化手段，进而来表达出文本内容中能挖掘出的信息，涉及到对文本内容的系统、客观和定量的描述。这种方法可以用来揭示文本的结构、模式、主题、情感倾向等，可以帮助研究者从大量的文本数据中提取有价值的信息和见解，在多个领域都有广泛的应用。

通过对文本的细致分析，研究者可以更深入地理解文本的主题、观点和结构，可以帮助研究者发现文本中的重复模式、主题或情感倾向，从而更好地理解文本的意图和背景、洞察其深层价值，为决策提供有力的支持。

3. 用户意向调研

3.1. 问卷调研设计

我们采用KANO模型，研究功能/服务需求与满意度之间的关系。在问卷设计时，采用了对同一功能/服务的正向题和负向题两个方面的询问方式，分别针对“如果有功能/服务，评价情况是”和“如果没有功能/服务，评价情况是”进行了调查。

基于正向题和负向题的交叉汇总，来区别我们所设想APP功能的魅力属性、期望属性、必备属性、无差异属性、反向属性这五种属性，根据六种属性中占比最高一项来确定分类结果，有助于我们深入理解用户对不同功能/服务的期望和满意度情况，帮助我们确定功能设计和实现的优先级和侧重点。再借助Better和Worse值来评估用户对功能/服务的满意影响力，帮助于我们了解用户需求与满意度之间的关系，以指导英语口语学习应用的设计和改进。

3.2. 问卷调研结果

对问卷收集结果进行数据清洗，总共获取217份有效数据。根据KANO模型评价结果分类对照表得出各功能/服务对应的属性占比和分类结果如表2所示，并进行Better和Worse值的计算。

从下表可以看出本次分析的9个功能，按照属性占比最高作为划分界限：最终必备属性(M)包括可选场景展开对话1项功能；期望属性(O)包括自由对话1项功能；魅力属性(A)包括每日学习任务和学习周报1项功能；无差异属性(I)包括打卡、用户信息栏、加入学习社群、每日推荐话题的展开对话、个性定制学习计划共5项功能；反向属性(R)包括游戏辅助学习这1项功能。按照需求优先级：必备属性>期望属性 > 魅力属性 > 无差异属性，对功能排序，因而我们应该首先开发可选场景展开的对话功能，抓紧开发自由对话功能，并且每日学习任务和学习周报功能开发越完善越好。

Table 2. Classification of evaluation results of KANO model

表2. KANO模型评价结果分类对照表

计算Better和Worse值，通过计算Better (满意影响力)和Worse (不满意影响力)值，该指标介于0~1之间，用来评估用户对功能/服务水平变化的敏感程度

增加后的满意影响力：Better/SI = (A + O)/(A + O + M_I)。Better值越大，说明用户对功能/服务水平变化的敏感性越高，其优先级也越高。

不满意影响力：Worse/DSI = −1 × (O + M)/(A + O + M + I)。Worse值越小，说明用户对功能/服务水平变化的敏感性越高，其优先级也越高。

分析后的Better-Worse系数图如图1所示，横坐标为Worse绝对值，纵坐标为Better值。Better的数值通常为正，正值越大即越接近1，则表示用户满意度提升的效果会越强，满意度上升的越快。Worse的数值通常为负，其负值越大即越接近−1，则表示对用户不满意度的影响最大，满意度降低的影响效果越强，下降的越快。第一象限的Better值和Worse值绝对值较高为期望属性，该象限的功能需优先满足，对应为“自由对话功能”、“每日学习任务和学习周报功能”、“个性定制学习计划功能”；第二象限的Better值高，Worse值绝对值低，该象限的功能也应优先满足；第三象限的Better值低，Worse值绝对值低，该象限的功能通常不提供，对应“打卡功能”、“围绕每日推荐固定话题的对话功能”、“加入学习社区功能”、“游戏辅助学习服务”；第四象限的Better值低，Worse值绝对值高，该象限的功能一定需要满足，对应“用户信息栏功能”。

Figure 1. Better-Worse coefficient chart

图1. Better-Worse系数图

4. 竞品调研

4.1. 竞品功能和外观拆解

通过对用户画像的定位以及对英语学习应用产品类的市场分析，我们选择了用户下载量排行较高的应用“流利说英语”作为研究对象，根据该产品的功能框架和外观设计了逐层拆解和分析。

4.1.1. 竞品功能和外观拆解

“流利说英语”作为一款比较全面成熟的英语学习应用，它的功能框架设计可以满足用户的基本学习需求，该框架主要分为四大部分，即“学习、提升计划、发现和我的”页面，如图2所示。“学习”页面包括“水平测试、学习情况、轻松学和配音”功能；“提升计划”页面是通过用户选择和水平测试生成个人定制的计划；“发现”页面分为“功能专栏选区、猜你喜欢、每日一词、听力、配音、主题课程”等功能。

首先，“学习”页面是用户日常使用最频繁的区域，它划分了多个功能模块。“水平测试”，是对用户当前英语能力的评估，以便更好地推荐和规划适合的学习内容；“学习情况”则记录了用户的学习进度和成就，帮助用户跟踪自己的学习轨迹；“轻松学”提供了一些用户感兴趣的话题；“配音”功能让用户可以模仿原声片段来提高发音和语调。

“提升计划”页面，主要为付费功能，这里的核心基于用户的做出的选项并结合系统的水平测试结果，生成一个定制个性化的学习计划，旨在给用户提供针对性的计划、建立秩序，来有效率提升他们的英语能力。

“发现”页面被设计成为学习资源中心，它包含许多功能专栏选区。“猜你喜欢”会基于用户的历史行为推荐内容；“每日一词”帮助用户学习新词生词；“听力”和“配音”功能来锻炼用户的听说技能；“主题课程”则提供了围绕特定主题的进行深入教学，给用户多重学习选择和体验。

“我的”页面作为用户的个人中心，去管理他们的个人信息、学习成就和喜好设置。而且用户可以查看到自己的学习概况，包括已完成的课程及学习计划等。

Figure 2. Fluent English speaking app feature framework

图2. 流利说英语功能框架

4.1.2. 产品页面分析

“流利说英语”整体页面展示如表3所示，首页最左上角为该页面名称，名称下方是一个机器人头像和英语水平测试提示，其下方是学习情况展示，分别为今日学习时间和签到天数，用白底加粗体黑字展示更加醒目，“精品课”部分使用常规的长方形方块和简约字符图标；其中“轻松学”部分使用竖版的长方形图标，封面为海报或相关图片，有不同话题的跟读，以其中的入门词汇—常见动物为例，点击进入后上方为该课程的图文简介，下方为主要内容标题及完成进度，不同标题采用列表式排列，简洁大方；进入题目后的跟读页面采用的白绿配色圆圈一目了然，清晰简约，右上方可变速和颜色主题的调整。

“提升计划”页面的主色调采用了薄荷绿和白色，营造出一种清新的视觉体验。此页面的核心功能是帮助用户测试他们当前的英语水平。为了形象地表达英语水平提升的概念，背景中还特别使用了向上趋势的箭头图案。

“发现”页面利用顶部缤纷多彩的设计和不同的颜色标识了丰富的产品功能，让用户感受到活力和多元性。页面的其他部分则是各种社区内容的具体展示，尽管风格多样，但整体上保持了有序的排列，确保用户在浏览时不会感到混乱。

“我的”页面分为三个主要的模块区，上方为用户账号信息区，消息提醒和设置选项被地放置在右上角，显示了使用者的基本信息，包括昵称、账号和头像，方便用户随时进行查看和修改；中间为英语水平去，利用雷达图像去展示用户目前的听力、语法、词汇、口语和发音五大能力的等级。下方则陈列了一些常规功能。

“流利说英语”的整体页面布局主要采取了陈列馆式、列表和选项卡式的设计风格 [2] 。以白色作为整体的背景色，字体主要为黑色，这样的配色方案既保证了内容的可读性，又维持了界面的简洁，整个应用的风格多样且充满活力。

Table 3. Display of the Fluent English Speaking APP

表3. 流利说英语说页面展示

4.2. 竞品评论分析

为了深入分析用户评论数据并提取有价值的信息，本研究采取了的文本数据分析。首先，我们从华为应用市场和APP Store收集了初始用户评论，这些数据反映了用户对竞品的真实感受和意见。由于原始评论包含无关信息，如广告、垃圾信息或重复内容等，所以我们对这些数据进行了清洗，去除重复的评论、过滤掉无意义的信息，确保分析结果的质量。

随为了更深入地理解评论中的内容，我们使用了jieba分词工具和中文停用词库对清洗后的评论数据进行中文分词处理。jieba分词是一个广泛使用的中文分词库，它可以将连续的文本切分成词语。通过分词，我们能够识别出评论中的关键词汇和短语。停用词库在文本分析中至关重要，主要作用是过滤掉常见但对分析贡献有限的词汇，如“的”、“和”、“是”，使用停用词库可以提高分析效率，减少数据处理的负担。它帮助去除噪音，使得关键信息更加突出，从而提高关键词提取、主题建模和情感分析的准确性，提高分析效率。

接下来，我们对分词后的结果进行了词频统计，以确定哪些词汇和短语最常出现。这一分析可以揭示用户评论中的常见主题和焦点。词频统计不仅为我们提供了关键词的量化信息，还帮助我们识别出可能的情感倾向或用户关注的问题。最后，利用词云图来直观展示分析结果。词云图是一种视觉化工具，它通过不同的字体大小来表示词汇的频率，从而使得频繁出现的词汇更加突出。

代码示例：

import pandas as pd

import csv

import re

import jieba

from wordcloud import WordCloud

import matplotlib.pyplot as plt

# 读取csv文件中的评论数据

with open('comments.csv', 'r', encoding='utf-8') as f:

reader = csv.reader(f)

comments = [row[0] for row in reader]

# 使用正则表达式替换评论中的标点符号为空字符

cleaned_comments = []

for comment in comments:

cleaned_comment = re.sub(r'[，。！]', '', comment)

cleaned_comments.append(cleaned_comment)

# 对清洗后的评论进行分词

words_list = []

for comment in cleaned_comments:

words = jieba.cut(comment)

words_list.extend(words)

# 加载停用词表

with open('chinese_stopwords.txt', 'r', encoding='utf-8') as f:

stopwords = [line.strip() for line in f.readlines()]

# 过滤停用词

filtered_words = [word for word in words_list if word not in stopwords]

# 将分词后的评论合并为一个字符串

text = ' '.join(filtered_words)

# 创建WordCloud对象并设置参数

Wordcloud=WordCloud(width=800, height=500,background_color='white',font_path='simhei.ttf').generate(text)

# 生成词云图并显示

plt.figure(figsize=(8, 8), facecolor=None)

plt.imshow(wordcloud)

plt.axis(off)

plt.tight_layout(pad=0)

plt.show()

Figure 3. Fluent English speaking app feature framework

图3. 流利说英语功能框架

综上所述，我们通过一系列的数据处理——对用户评论数据的收集、清洗以消除噪声和无关信息、分词处理以将文本拆分为可理解和可分析的单词单元，以及词频统计来识别最多出现的词汇，完成了对“流利说英语”产品用户反馈的深入挖掘 [3] 。利用词云图直观地展示用户的共同观点，提供了的定性数据。

从生成的词云图如图3所示中，我们可以明显看出用户对产品的几个关键看法：首先，免费的课程内容受到了广泛欢迎，这表明用户对于无需额外付费就能获得的教学资源持积极态度；其次，有助于练习发音和口语流利度的课程和训练同样得到了高度评价，说明用户重视实际应用能力的提升，这些评论反馈揭示了用户的真实需求和感受，为我们的产品设计和功能迭代提供了明确的方向。

因此，在设计APP的功能时，我们应该更加关注如何整合实用的课程或练习资源，尤其是可以帮助用户改善英语口语发音和提高口语流利度的方法；注重的方向包括利用人工智能技术和语言大模型增加更多的实际对话场景练习、提供针对性的发音纠正工具、设计互动性强的口语任务以及为用户提供即时的反馈和指导。此外，我们还应当考虑如何让用户更轻松方便地访问和使用这些功能，例如通过个性化推荐引导用户发现对他们有用的题目，或者通过打卡形式激励用户持续学习和练习；通过这些方法，我们能够更好地满足用户的需求，提升产品的吸引力和教学效果，从而帮助用户实现英语口语的学习目标。

5. APP设计

5.1. APP交互界面设计

5.1.1. 交互视觉设计概念

设计是定义、设计人造系统行为的设计领域。交互设计主要是为了构建人与产品及服务之间的关系，是一种如何让产品易用、有效且让人愉悦的技术。社交类APP的交互设计需要从多个方面进行考虑，如界面、功能、便捷度等，以便让产品和使用者之间建立起一种有机关系，从而可以有效满足使用者的需求，提高使用者粘度 [4] 。

APP界面视觉设计是指不包含用户体验设计、交互设计的纯界面视觉美化的设计，但视觉的设计也应考虑交互与用户体验，界面视觉设计包括的元素可用以下几个名词概括：启动Icon (即APP的Logo)，启动页，引导页，功能页面，空白页等，其中Icon属于功能页面的一部分，但因其具有明显的风格特征，在本文中也作为专项研究。每一种元素都有以下几种设计要素，图形，色彩，排版，构图，字体；不同的元素会有其独特的要素存在 [5] 。视觉设计不仅要保证美观，还要能给用户留下深刻的印象。

5.1.2. 页面设计原则

1) 一致性原则

一致性原则要求坚持以用户体验为中心设计原则，界面直观、简洁，操作方便快捷，用户接触软件后对界面上对应的功能一目了然、不需要太多培训就可以方便使用本应用系统；保持字体及颜色一致，避免一套主题出现多个字体；不可修改的字段，统一用灰色文字显示；保持页面内元素对齐方式的一致，如无特殊情况应避免同一页面出现多种数据对齐方式；保持功能及内容描述一致，避免同一功能描述使用多个词汇，如编辑和修改，新增和增加，删除和清除混用等。建议在项目开发阶段建立一个产品词典，包括产品中常用术语及描述，设计或开发人员严格按照产品词典中的术语词汇来展示文字信息。

在一致性方面：我们所设计APP——Fluent Pal的外观以橙色为主色，白色和米色为辅色，让用户形成了活力积极且和谐的视觉体验；在字体设计上：选择了易读性强的字体，且根据信息的重要性恰当地分配了字体大小，确保了用户在不同设备上的阅读体验一致；排版方面：采用网格系统进行页面布局，确保元素的位置和间距保持一致，同时统一了按钮样式和图标设计，方便用户快速切换功能模块。

2) 准确性原则

准确性原则要求使用一致的标记、标准缩写和颜色，显示信息的含义应该非常明确，用户不必再参考其它信息源。显示有意义的出错信息，而不是单纯的程序错误代码。避免使用文本输入框来放置不可编辑的文字内容，不要将文本输入框当成标签使用。使用缩进和文本来辅助理解。使用用户语言词汇，而不是单纯的专业计算机术语。高效地使用显示器的显示空间，但要避免空间过于拥挤。保持语言的一致性，如“确定”对应“取消”、“是”对应“否”。

在准确性方面：Fluent Pal拥有清晰的口语功能定位，在设计时注重突出其英语口语教育的核心功能。通过明确的界面布局和导航结构，用户能够快速找到所需的学习内容或功能，如场景练习、题库学习等。能让用户快速了解APP的主要内容分类；准确的图标显示：界面图标如按钮、文字标签都被设计得清晰易懂。按钮具有明显的点击效果，图标与对应的功能紧密关联，文字标签简洁明了。这些细节的设计使用户能够轻松识别各种界面元素及其功能，避免了可能的误解或错误操作。

3) 可读性原则

可读性原则要求文字的长度适中，特别是在大块空白的设计中很重要，太长会导致眼睛疲惫，阅读困难。太短又经常会造成尴尬的断裂效果，断字的使用也会造成大量的复合词，这些断裂严重的影响了阅读的流畅性；空间和对比度适中每个字符同线路长度，间距也是重要的。所以每个字符之间的空间至少等于字符的尺寸，大多数数字设计人员习惯选择一个最小的文字大小的150%为空间距离，这就可以留下足够的空间。当每一行中读取大段的文字，且线路长度过多或线之间的空间太少，都会造成理解困难；对齐方式一致无论是在文本中心，还是偏左，或者是沿着一个文件的右侧对齐，文本的对齐相当重要，可以极大地影响可读性。一般而言，文本习惯向左对齐，因为它反映了阅读方式–从左至右。熟悉每一行开始和结束的地方。

在可读性方面：Fluent Pal做到了清晰的字体选择，在设计时注重字体的选择，以确保文字内容易于阅读。字体大小适中，行间距和字间距得到合理控制，避免了文字的拥挤或稀疏排列。此外，字体颜色与背景色形成了良好的对比，使得文字清晰可见。这些细节的设计减少了用户的视觉疲劳，提高了阅读效率；简洁的界面布局：界面布局简洁明了，避免了过多的装饰元素或复杂的结构。通过合理的网格系统和对齐方式，各个界面元素被有序地组织起来，使用户能够快速找到所需的信息或功能。这种简洁的设计风格不仅美观大方，也提高了用户对界面的理解速度。

5.1.3. 交互页面介绍

APP的整体以橙色为主色调，象征着活力和自信。对于许多人来说，开口讲英语可能是一项挑战。无论是在公众场合发表演讲，还是在私人场合与他人交流，都可能会感到紧张和不安，我们希望用户通过使用Fluent Pal练习后，可以克服这些困扰，变得更加自信。

1) 登录界面：

Figure 4. Login screen Figure 5. Home page interface

图4. 登陆界面图5. 首页界面

在登陆界面如图4，我们设计了可爱的卡通形象来引导用户进行操作。这些卡通形象不仅能够吸引用户的注意力，还能够让用户感到亲切和友好。同时，采用气泡式的对话方式，这种方式会让用户感到更加轻松和愉快。

在对话选项的设计上，使用深浅不同的颜色来区分不同的选项。这样用户可以更清楚地看到每个选项，从而减少出错的可能性。这种设计也能够使选项更加显著，让用户更容易找到自己对应的选项，同时我们也通过这里将信息收集，进行用户画像定位。

2) 首页界面

在APP中，所有的界面背景都被设计为浅橙色调，这样做的目的是为了减少用户长时间盯着手机屏幕看时可能产生的视觉疲劳。因为长时间使用电子设备会对眼睛产生不良影响，因此希望通过这种方式来保护用户的视力。

在主页面如图5，可以看到每日学习和打卡功能被放置在了上方的显眼位置，为提醒用户每天都要坚持学习，养成良好的学习习惯。希望用户能够通过这种方式，每天都能有所收获，不断提升自己。在“首页”还有每日推荐的话题功能，用户可与人工智能进行对话；同样还设置了许多不同的应用场景并进行了清晰的区分，以便用户可以根据自己的需求和兴趣来选择适合自己的学习内容。

3) 题库界面

Figure 6. Question bank interface Figure 7. Testing interface

图6. 题库界面图7. 测试界面

“题库”页面如图6，采用整洁有序的列表式布局，确保用户能够轻松地找到并使用他们需要的功能。在页面的最上方，有一个显眼的时间栏，用户可以从中选择特定的年份。一旦选择了年份，页面下方就会动态地显示出选定年度的所有考题，为用户提供了一个高效筛选考试内容的方式；除了按年份筛选，用户还可以通过选择不同的考题类型和难度设置来进一步细化搜索结果。为了帮助用户快速浏览题目，所有题目都使用了粗体黑字。同时，为了方便用户对难度有一个直观的理解，难度等级采用了五角星的虚实结合的设计，其中实心五角星越多就代表难度更高。

当用户点击考题板块时，他们会进入到“测试”页面如图7所示。在该页面上，测试题的主题和介绍清晰地展示在界面的上半部分，让用户在开始答题前能够对测试内容有一个整体的了解。测试题本身也采用了陈列馆式的布局，每个测试板块都用橙色加粗字体明确标注了题号，以便用户能够迅速定位；而且用浅黑色字体来标识每一个测试对应的考季和问题数量，用户能够清楚地知道自己已经完成的题目数量，增强了用户体验，也使得使用过程更加高效和有组织。

在整个页面的配色方案中，橙色被用作辅助色彩，用于图案、关键信息点缀和整体背景，但并不会过分突出，确保了界面风格的统一性和协调性。

4) 对话界面

在对话界面中，如图8所示，与用户进行对话AI的卡通形象占据了画面的大部分空间。这些可爱的卡通形象可以以明亮的色彩和夸张的表情吸引用户的注意力，希望让用户尤其是年龄小的用户能够专注对话。

Figure 8. Conversation interface Figure 9. Personal center interface

图8. 对话界面图9. 个人中心界面

此页面右上角的图标可以查看聊天的文字历史记录，页面下半部分设置了播放、录音和暂停的按钮，同时还放置了换个话题、提示和中文求助的功能；背景采用了浅色渐变的设计，从左上角到右下角逐渐变浅。这种渐变效果为整个画面增添了一种柔和而温暖的氛围，让用户感到舒适和放松。同时，浅色渐变的背景也与卡通形象形成了鲜明的对比，使卡通形象更加突出和引人注目。

卡通形象的可爱和背景的温暖相互呼应，营造出一个充满童趣的场景。这种设计不仅能够吸引用户的目光，还能够激发用户的好奇心和探索欲望，有助于用户更愿意与界面进行互动和交流。

5) 个人中心

如图9，个人中心页展示本周七天的打卡情况，七天横向排列，使用不同深浅的颜色表示打卡与否，使用聊天框形状展示当天打卡计划。下方是列项排列的每日计划，这类计划是根据用户画像定制的每日学习计划，清晰有序列出每个计划，在其右边设置褐色渐变箭头，增加转到相应学习界面的功能。每个计划之间利用适当的间距、直观的颜色表示和清晰的列项排列，在浏览学习任务和计划时，避免视觉疲劳，防止用户看到繁杂文字而产生压力感，从而帮助用户更好地管理自己的时间和任务。

5.2. APP核心技术

会话人工智能可以分为随意聊天或闲聊人工智能和面向任务的人工智能。对于闲聊人工智能，人工智能的目的是作为人类之间的日常随意交谈进行有意义的讨论。这些类型的人工智能通常不需要参考数据库或外部信息。对于面向任务的人工智能，用户假设人工智能可以提供可靠的特定任务信息，因此这类人工智能通常需要查询外部数据库或知识库。

会话人工智能可以被划分为两种类型：其一是用于闲聊目的；另一种是面向任务的人工智能。在前者中，我们对人工智能的期望是能够模拟人类之间的日常对话，以进行有意义的交流，通常无需依赖数据库或外部信息。在面向任务的情境下，用户期望人工智能提供可靠的特定任务信息，因此这类人工智能通常需要访问外部数据库或知识库 [6] 。而我们所致力于构建的对话时口语交流系统，应该是介于两者之间，即：既能满足用户对话的交流目的，也能满足口语教学的特定任务目的。

5.2.1. 技术实现支持

现代的口语学习APP设计中，技术实现支持起着至关重要的作用。整个技术框架可以分解为以下几个关键环节：自动语音识别(ASR) [7] 、自然语言理解(NLU)、对话状态追踪(DST)、策略生成(PL)和自然语言生成(NLG)以及文本到语音转换(TTS)。这一系列的技术环节确保了用户与APP的互动能够顺畅进行，从用户的口语输入到APP的反馈输出形成了一个闭环的交互流程。

在传统的技术路径中，这些环节通常是分开处理的。例如，ASR首先将用户的语音转化为文本，然后NLU解析文本的含义，DST追踪对话的状态，PL根据对话状态生成响应策略，NLG将策略转化为自然语言文本，最后TTS将文本转换回语音反馈给用户。这一过程虽然有效，但存在着处理延时、对话理解不深入等问题。

会话式的人工智能技术，需要相应更高的技术选择，也看到了基于神经的方法的进步。然而，LLM(大语言模型)的出现，让我们可以把视野放到更高的位置上。

5.2.2. 大语言模型的引入

近年来，大语言模型的出现和应用，特别是在口语学习APP中的应用，提供了一种新的技术路径。与传统技术路径相比，大语言模型集成了NLU、DST、PL和NLG等多个环节的功能，大大简化了处理流程，如图10所示。这意味着，当ASR完成语音到文本的转换后，整个对话理解、状态追踪、策略生成和语言生成过程可以在一个模型内完成，然后直接通过TTS转换为语音输出。这种新技术路径的优势在于：

1) 效率提升：简化的处理流程减少了传递延迟，提高了处理速度。

2) 深度理解：大语言模型能更深入地理解语境和用户意图，提供更加准确和自然的对话体验。

3) 灵活性：大语言模型可以更灵活地应对各种对话场景，提高了APP的适应能力。

大语言模型对于口语对话软件的意义是决定性的。在没有大语言模型的情况下，很难实现对用户口语输入的深入理解和自然流畅的对话输出，用户体验也难以有显著提升。大语言模型的出现，不仅改变了技术实现的路径，更为用户提供了一个全新的、高效的、深度交互的学习平台。

Figure 10. APP Technology Integration

图10. APP技术整合

5.2.3. 主要技术介绍

1) ASR语音转文字技术

语音识别技术(Automatic Speech Recognition)是将计算机识别语音并转换为书面文本的技术。语音识别的主要过程是先获取音频，对输入语音进行预处理，然后提取语音特征，建立语音识别所需模板，找出一系列最优的与输入语音匹配的模板，根据一定搜索和匹配策略，最后识别出文本，将声学信号转录成文本信息，如图11。

Figure 11. Automatic speech recognition

图11. 语言转文字技术

2) 大模型对话系统

传统的自然语言处理技术(NLP)主要包含：自然语言理解(NLU)、对话状态追踪(DST)和自然语言生成(NLG)。自然语言理解是将用户输入的自然语言文本转化为机器可理解的结构化数据，以便对话机器人进行进一步处理 [8] ，如图12。对话状态追踪的功能在于跟踪对话中的状态变化，即理解对话的上下文并确定当前对话状态。策略生成的任务是基于对话环境状态和策略规则生成合适的回应，即决定如何回复用户的输入。自然语言生成的任务是将对话系统生成的结构化文本转化为自然语言文本，以便进行口头表达。它与NLU相反，将结构化数据转化为用户可理解的自然语言。

Figure 12. Large Model Dialogue System

图12. 大模型对话系统

随着深度学习算法和大语言模型(LLM)技术的兴起，应运而生的ChatGPT流畅和连贯的多轮对话能力，掀起人们对大语言模型的热情。基于大语言模型的便捷，本应用的自然语言处理是通过调用API将文本传给预设好的大模型，来获得更强大的对话和问答功能，避免以往传统自然语言处理(NLP)的复杂繁琐。

利用prompt工程赋能大语言模型，提升处理任务的能力，引导和训练模型生成内容，更好地运用在APP口语学习场景中，实现应用和大语言模型的高效接轨；同时也可通过提示工程来提高大语言模型的安全性。

3) TTS文字转语音技术

语音合成技术(text to speech)是将文字转化为语音的一种技术，还可以通过不同的音色输出想表达的内容。在语音合成技术中，主要分为语言分析部分和声学系统部分，也称为前端部分和后端部分，语言分析部分主要是根据输入的文字信息进行分析，生成对应的语言学规格书，而声学系统部分主要是根据语音分析部分提供的语音学规格书，生成对应的音频，进而实现发声的功能，过程见图13。

Figure 13. Text To Speech

图13. 文字转语音技术

而现阶段，如果要建设一款面向用户的个性化产品，为对话时人工智能创建和交付自定义语音的方法，也能够支持 [9] 。

5.2.4. 技术路径选择

选择新技术路径，即集成大语言模型的方案，主要基于以下考虑：

∙ 用户体验的显著改善：大语言模型的引入，特别是在口语对话的理解和生成上，能够提供更加流畅和自然的交互体验，这对于语言学习APP来说是至关重要的。

∙ 技术前沿的紧跟：利用大语言模型能够确保APP在技术上保持领先，更好地满足用户的需求和期望。

∙ 未来发展的可扩展性：大语言模型为APP的未来功能扩展和优化提供了更多的可能性。

基于以上考虑，我们初步设想APP运行模式如图14所示。

Figure 14. APP operation mode

图14. APP运行模式

6. 总论

人工智能技术的快速发展，为各个领域带来了前所未有的机遇和挑战。在英语口语教育领域，随着技术的不断创新，口语学习应用程序也必须跟上时代的步伐，不断提高自身的质量和实用性，为了尽快使应用产品成型、成熟并落地实现，我们还需在设计和技术上进行完善和改进。

本研究首先对英语口语学习市场环境进行了宏观分析，探讨了口语学习应用的研究意义和方法。通过对市场环境的分析，我们可以了解到目前市场上的英语口语学习应用的现状和发展趋势，为后续的研究提供参考。

其次，我们对目标用户进行了使用意向调研，以此确立用户心中满意的产品形象。通过调研，我们可以了解到用户对于英语口语学习应用的需求和期望，从而为产品设计提供指导；同时，我们还对竞品的功能框架和口碑进行了研究和梳理，学习对标竞品的优点，在设计过程中积累经验。

最后，基于理论和调研结果，我们对英语口语应用的交互外观和功能的进行初步设计，这一阶段的工作主要包括界面设计、功能规划和用户体验优化等方面，旨在打造一个既美观又实用的英语口语学习应用。本研究得出的主要结论如下：

1) 通过分析，我们发现目前口语学习群体需要真正能够用于实际场景的陪练应用程序。市面上的应用大多只是提供了几种特定情境下的训练，缺乏实际中无限可能的场景的实用训练，导致用户难以学以致用。

2) 基于人工智能和语言大模型的应用，有助于实现用户理想的英语口语针对性、个性化的训练，这样的应用能够让用户既可以沉浸在模拟场景中也可以进行未知的随机对话，从而锻炼口语的应用能力，让用户可以即学即用。

尽管本研究取得了一些成果，但在APP功能设计上还有所欠缺。例如，缺少结合英语学习策略的设计，没有充分体现以应试为学习目标的用户所需要的功能；在未来的研究中，我们可以继续深入和优化这些方面，以提升应用的实用性和完成度。

基金项目

本论文文章由“中国矿业大学(北京)大学生创新训练项目资助(校级项目编号202308032)”和“中央高校基本科研业务费专项资金资助”资助。

参考文献

[1]	邹爽, 何炼锴. 基于Kano模型的数字文旅小程序用户需求及设计策略研究[J]. 新媒体研究, 2023, 9(12): 24-27 33. https://doi.org/10.16604/j.cnki.issn2096-0360.2023.12.004
[2]	刘倩倩. 基于情感化设计理念的高血压管理类APP界面设计研究[D]: [硕士学位论文]. 济南: 山东建筑大学, 2024.
[3]	蔡颖. 基于Python的文本数据处理研究[J]. 软件, 2023, 44(5): 179-183.
[4]	吴春霞, 冯卓琦. 基于用户体验的社交类APP交互设计应用研究[J]. 鞋类工艺与设计, 2023, 3(22): 114-116.
[5]	高龙博. App界面视觉风格设计研究[D]: [硕士学位论文]. 北京: 北京交通大学, 2019.
[6]	Xue, Z.J., Li, R.R. and Li, M.D. (2022) Recent Progress in Conversational AI. https://arxiv.org/abs/2204.09719
[7]	Liu, X.Y., Li, M.D., Chen, L.X., et al. (2021) Asr N-Best Fusion Nets. ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Toronto, 6-11 June 2021, 7618-7622.
[8]	Ni, J., Young, T., Pandelea, V., et al. (2023) Recent Advances in Deep Learning Based Dialogue Systems: A Systematic Survey. Artificial Intelligence Review, 56, 3055-3155. https://doi.org/10.1007/s10462-022-10248-8
[9]	Rownicka, J., Sprenkamp, K., Tripiana, A., Gromoglasov, V. and Kunz, T.P. (2021) Digital Einstein Experience: Fast Text-to-Speech for Conversational AI. https://arxiv.org/abs/2107.10658

为你推荐

友情链接