与智能设备对话,什么是好的聊天对话体验?

过去四十年,人与机器之间的交互媒介在不断进化,自然语言对话作为新一代的人机交互媒介,近些年得到广泛的关注和应用。从智能家居设备到智能手机助手,从智能客服到智能情感陪伴,人们可以与越来越多的设备进行自然语言对话。

小度智能音箱 /语音助手Siri/数字人服务 /智能机器人

按照对话的主题和目的,可以将人与机器的自然语言对话分为两种类型:任务型对话、聊天型对话,任务型对话以完成用户的特定任务为目标,用户的交互意图明确,例如用户通过语音对话完成预定机票和购物等任务。聊天型对话不具体帮助用户完成某个特定任务,而是通过用户与设备之间的开放式对话,安抚用户情绪或满足闲聊和娱乐的需求。有研究表明,具有聊天功能的智能产品更容易获得用户的信任,并提升用户的整体使用体验。

与智能设备对话的两种类型

从用户体验的角度,任务型对话体验可以通过对用户完成任务的情况进行评价,例如可以采用任务完成率、时间效率等指标。然而,针对聊天型对话体验目前还缺乏有效的评估方法和框架。本文从用户体验的视角出发,探索适用于聊天型对话体验的评估方法。

在研究方法上,采用定性和定量相结合的方法,首先通过定性研究的方法收集评估指标,然后通过定量研究的方法对指标体系进行优化和验证,以搭建一套信效度良好、可广泛应用的评估体系。研究分为三个阶段,首先,定性收集评估指标,确保收集到的指标全面且有意义;其次,将指标体系应用于智能设备测试,通过定量的方法进行评估体系的建构和优化;最后,对评估体系的模型进行应用和验证,得到评估指标间的权重系数,确保评估体系科学和可靠。

研究过程与研究方法

从0到1:全面收集聊天型对话评估指标

为确保指标全面、有意义且容易让用户理解,收集过程经历了3个步骤:

  • 步骤1:参考以往的关于任务型对话和聊天型对话的研究,选取合适的指标。然后通过头脑风暴,更全面地收集,此阶段共收集45个评估指标;

  • 步骤2:结合智能设备产品专家的建议,筛选与用户实际需求相匹配的评估指标。然后请专家评估指标重要性和易理解程度,删除不适合聊天对话体验评价和重要性低的指标,保留了24个指标;

  • 步骤3:邀请普通用户对指标的易理解程度进行评价,对表述不清、难以理解或有歧义的指标进行修改或删除。最终,形成由20个指标组成的聊天体验评估体系。

最初收集的20个聊天对话体验评估指标

去伪存真:构建聊天型对话评估指标体系

2.1用户测试

我们将阶段一得到的评估指标应用到人机聊天测试中,通过用户测评数据的统计分析及定性访谈进一步优化评估指标,并通过探索性因子分析探索指标体系的结构。

共有38名被试参与了用户测试,年龄在20-40岁之间,男性18人,女性20人。所有被试均为智能音箱聊天功能使用经验用户,其中,经验丰富者(每天聊天3次以上)和经验较少者(每周聊天3次以下)各一半。

用户测试场景

在用户测试过程中,我们选择了5款主流且具有聊天对话功能的智能音箱,分别标记为智能音箱A、智能音箱B、智能音箱C、智能音箱D、智能音箱E。被试按照随机顺序,分别与5款智能音箱围绕4类话题进行聊天对话。4类聊天话题分别为:调侃类、建议咨询类、话题聊天类、情绪排解类。

用户测试中的4类聊天对话话题

被试与智能音箱聊天对话结束后,将分别对各智能音箱聊天对话的体验进行打分,打分采用10点李克特量表,1分代表非常不满意,10分代表非常满意。最后,被试需要完成关于聊天体验评估指标重要性的Kano问卷。

2.2指标构建与优化

38个被试分别体验5款智能音箱的聊天对话功能后,将每个用户每款音箱的数据作为一个样本数据,共得到有效样本数据168份。结合Kano模型、相关性分析、多重共线性诊断与定性访谈的用户反馈,优化评估指标,包括对指标进行删除或合并,以及对部分指标的描述进行修正。优化后的指标如下表所示,共计包括15个评价指标。

优化后的聊天对话体验评估指标

我们对优化后的15个指标进行探索性因子分析,采用最大方差法旋转因子,抽取特征值大于1的因子。最终提取了2个因子,累积方差贡献率为68.0%,探索性因子分析结果如下表所示。

探索性因子分析结果

综合考虑因子1和因子2所包含的各项指标,我们分别将这两个因子命名为“听懂连续对话及内容质量”和“表达方式及声音”,从而得到评估指标的体系结构。在探索性因子分析的基础上,我们进一步计算了每一个指标在整体满意度上的权重,最终的聊天体验评估体系结构及权重系数如下表所示。

评估体系结构及权重系数

应用实践:聊天型对话评估指标体系应用

3.1测量结果

我们将建立的聊天对话评估体系应用于5款智能音箱聊天体验的评估,因文章篇幅原因,具体评估和计算过程不赘述,评估结果如下表所示,该评估体系可以用于横向对比各智能音箱聊天系统能力。

基于评估体系的聊天对话体验测量

3.2聊天对话示例

接下来,我们针对评估体系中权重相对较高的几个指标,如内容质量相关的内容有价值、开启新话题、联系上下文等指标,以及表达方式相关的表达多样化、表达自然流畅等指标,选取部分用户与设备聊天对话的具体示例,以便大家对什么是好的和不好的聊天对话体验有更直观的感受。

内容有价值

用户期望通过聊天对话获得有价值的内容,尤其在“建议咨询”的聊天场景下。

对话示例1(用户正向评价)

对话示例2(用户负向评价)

开启新话题

在聊天模式下,用户不希望轻易把天聊死,希望智能设备能够主动留下话茬。

对话示例3(用户正向评价)

联系上下文

用户期望与智能设备聊天时,聊天过程能联系上下文,不要前后逻辑矛盾。

对话示例4(用户负向评价)

表达多样化

用户期望设备的回复内容更多样化和丰富,以避免让用户觉得是设定好的程序。

对话示例5(用户正向评价)

对话示例6(用户负向评价)

表达自然流畅

用户期望自然流畅的表达,聊天对话符合人们日常说话用语和习惯。

对话示例7(用户正向评价)

对话示例8(用户负向评价)

小结

以智能音箱聊天对话体验评估为课题,本研究提出了一套完整的评估方法,并建立了针对聊天型对话体验的指标体系和评估框架,该指标体系及其权重一定程度上反映了用户对聊天对话体验的需求和关注程度,可以为后续产品体验优化提供参考方向。

然而,本研究也存在一定的局限性,一方面,目前多数智能设备会同时具备任务型对话和聊天型对话两种能力,从用户视角可能无法清晰区分两种自然语言对话场景;另一方面,由于与智能设备对话仍处于探索期,产品迭代很快,用户的预期也会随之改变,因此,评估指标体系的权重也可能发生变化,未来可能需要持续监测和修改评估指标体系。

参考文献

Chat with Smart Conversational Agents:How to Evaluate Chat Experience in Smart Home. Xiantao Chen, Jiaqi Mi, Menghua Jia, Yajuan Han, Moli Zhou, Tian Wu. MobileHCI 2019.

作者:百度技术中台UER小分队

© 版权声明
THE END
喜欢就支持以下吧
点赞0
分享
评论 抢沙发