语音用户界面设计终极指南 -第1张图片-零帕网

Xfinity Remote by Juan C. Angustia

我们的声音是多种多样、复杂多变的。语音命令处理起来也是更加困难。即使是在人与人之间,更不用说计算机了。我们所表达的思维方式、文化交流的方式,我们使用语言的方式以及推断意思的方式......所有这些细微差别都会影响我们语言的理解。

那么,设计师和工程师如何应对这一挑战呢?我们如何培养用户和AI之间的信任?这是VUI发挥作用的地方。

语音用户界面(VUI)是主要或补充的视觉、听觉和触觉界面,可实现人与设备之间的语音交互。简单地说,VUI可以是任何东西,从听到你的声音时闪烁的灯光到汽车的娱乐控制台,它无处不在。VUI不需要具有可视界面 ,它可以完全是听觉的或触觉的(例如振动)。

虽然VUI的范围很广,但它们都共享一组常用的UX基础知识,从而提高可用性。我们将探索这些基础知识,因此,作为用户,你就可以剖析你日常的VUI交互。而作为设计师,则可以通过这些来构建更好的体验。

语音用户界面设计终极指南 -第2张图片-零帕网

Dannniel

发现——约束,依赖,用例

我们与世界互动的方式受到我们的技术、环境和社会约束的影响极大。我们处理信息的速度,我们可以将数据转化为行动的准确性,我们用来传达数据的语言/方言,以及该行动的接收者(无论是我们自己还是其他人)。

在我们深入研究交互式设计之前,我们必须首先确定构成语音交互的环境背景。

确定设备类型

设备类型影响语音交互的频谱和范围的模式和输入。

语音用户界面设计终极指南 -第3张图片-零帕网

语音用户界面设计终极指南 -第4张图片-零帕网

 Android Voice UI

手机

iPhone、华为、三星

连接移动网、wifi、配对设备

环境背景对语音交互性有重大影响

用户习惯于使用语音交互

允许通过视觉、听觉和触觉反馈进行互动

交互方法在各种模型中相当标准化

穿戴式

特定于用例,通常面向特定用例,如手表、腕带、智能鞋等

连接移动网、wifi、配对设备

用户可能习惯于使用语音交互,但这种交互在设备之间是非标准化的

一些可穿戴设备允许通过视觉、听觉和触觉反馈进行交互 - 尽管有些可穿戴设备更加被动,没有明确的用户交互

通常依赖于连接的设备进行用户交互和数据消费

固定连接设备

台式电脑、带屏幕的电器、恒温器、智能家居集线器、音响系统、电视等

连接有线网、wifi、配对设备

用户习惯于在相同的位置使用这些设备并在习惯的基础上进行设置

类似设备类型之间的准标准化语音交互方法(台式计算机与诸如Google Home / Amazon Alexa与智能恒温器之类的连接集线器)

非固定计算设备(非电话)

笔记本电脑、平板电脑、转发器、汽车信息娱乐系统等

连接无线网、有线网(不常见)、wifi、配对设备

主输入模式通常不是语音

环境背景对语音交互性有重大影响

通常在设备类型之间具有非标准化的语音交互方法

创建用例矩阵

语音交互的主要、次要和第三用例是什么?该设备是否有一个主要用例(如健身追踪器)?或者是否有一个折中的用例组合(如智能手机)?

创建一个用例矩阵非常重要,它将帮助你确定用户与设备交互的原因。他们的主要互动模式是什么?什么是次要的?什么是好的交互模式,什么是必不可少的?

语音用户界面设计终极指南 -第5张图片-零帕网

你可以为每种交互模式创建用例矩阵。应用于语音交互时,矩阵将帮助你了解用户当前使用或想要使用语音与产品交互的方式,包括他们使用语音助手的位置:

语音用户界面设计终极指南 -第6张图片-零帕网

按交互模式的顺序排列

如果你正在使用用户研究来通知你的使用案例(使用或原始定量/质量研究),那么通过排序透视交互模式对排名进行排序就变得非常重要。

如果有人告诉你:“如果我能与电视对话并告诉它换个频道,那该多好呀”,那么你真的需要深入挖掘。他们真的会用吗?他们了解约束条件吗?他们真的了解自己使用该功能的倾向吗?

作为设计师,你必须比理解自己更好地了解你的用户。你必须质疑,考虑他们可以访问其他选项,使用特定交互模式的可能性。

例如,假设我们正在检查用户是否可能使用语音命令与电视进行交互。在这种情况下,可以安全地假设语音交互是许多可能的交互类型之一。

用户可以访问多个备选交互工具:远程、配对智能手机、游戏控制器或连接的物联网设备。因此,语音并不一定成为默认的交互模式,这只是其中之一。

因此问题就变成了:用户将语音交互作为主要交互方式的可能性是多少?如果不是主要的,那么它会是次要的吗?这将使你的假设和用户体验假设得到进一步的验证。

技术约束

将我们的言论转化为行动是一项极其困难的技术挑战。通过无限的时间、连接和训练,经过良好调整的计算引擎可以方便地摄取我们的语音并触发适当的操作。

不幸的是,我们生活在一个我们没有无限连接的世界里,我们也没有无限的时间。我们希望我们的语音交互与传统的替代方案一样直接:视觉和触摸——尽管语音引擎需要复杂的处理和预测建模。

以下是一些示例流程,演示了我们的演讲要识别的内容:

语音用户界面设计终极指南 -第7张图片-零帕网

AMI语音引擎

正如我们所看到的......有许多模型需要不断训练才能使用我们的词汇、口音、可变音调等。

语音用户界面设计终极指南 -第8张图片-零帕网

自动语音识别

每个语音识别平台都有一套独特的技术限制,在构建语音交互UX时,必须接受这些约束。

分析以下类别:

连接级别 - 设备是否始终连接到互联网?

处理速度 - 用户是否需要实时处理他们的语音?

加工精度 - 准确度和速度之间的折衷是什么?

语音模型 - 我们目前的模型训练有多好?他们能够准确地处理完整的句子还是简短的单词?

后退 - 如果言语无法被识别,那么技术后退是什么?用户可以利用另一种交互模式吗?

不准确的后果 - 错误处理的命令会导致不可逆转的行为吗?我们的语音识别引擎是否足够成熟以避免严重错误?

环境测试 - 语音引擎是否已在多种环境中进行过测试?例如,如果我正在构建汽车信息娱乐系统,那么我将预期比智能恒温器更多的背景干扰。

非线性

我们应该考虑用户可以以非线性方式与设备交互。例如,如果我想在网站上预订机票,那么我被迫关注网站的累进信息流:选择目的地、日期、门票数量,查看选项等...

但是,VUI有更大的挑战,用户可以说“我们想在商务舱飞往旧金山。”现在,VUI必须从用户那里提取所有相关信息,以便利用现有的航班预订API。逻辑排序可能是倾斜的,因此VUI有责任从用户那里提取相关的信息(通过语音或视觉补充)。

语音用户界面设计终极指南 -第9张图片-零帕网

语音输入用户体验

现在我们已经探索了我们的约束、依赖关系和用例,我们可以开始深入研究实际的语音用户体验。首先,我们将探讨设备如何知道何时倾听我们。

对于某些添加的上下文,下图说明了基本的语音UX流程:

语音用户界面设计终极指南 -第10张图片-零帕网

触发器

有四种类型的语音输入触发器:

语音触发 - 用户会说出一个短语,提示设备开始处理语音(“Ok Google”);

触觉触发 - 按下按钮(物理或数字)或切换控件(例如麦克风图标);

动作触发器 - 在传感器前挥动手;

设备自触发 - 事件或预先确定的设置将触发设备(车祸或提示您确认的任务提醒)。

作为一个设计师,你必须了解哪些触发器与你的用例相关;并将这些触发点按可能相关到不相关的顺序排列。

主要线索

通常,当一个设备被触发去听时,会有一个听觉、视觉或触觉提示。

语音用户界面设计终极指南 -第11张图片-零帕网

Wirecutter

语音用户界面设计终极指南 -第12张图片-零帕网

这些提示应遵循以下可用性原则:

即时 - 在适当的触发后,提示应尽快提示,即使这意味着中断当前操作(只要中断该操作不具有破坏性);

短暂 - 提示几乎是瞬间的,特别是对于习惯使用的设备。例如,两个肯定的哔哔声比“Ok Justin”更有效,你现在要我做什么?主提示越长,用户的话与设备提示冲突的可能性就越大。这个原则也适用于视觉线索。屏幕应该立即转换成一种聆听的状态;

清晰的开始 - 用户应该确切地知道他们的声音何时开始被录制;

一致 - 提示应始终相同,声音或视觉反馈的差异会使用户感到困惑;

区别 - 提示应该与设备的正常声音和视觉效果不同 - 并且不应在任何其他环境中使用或重复;

补充提示 - 如果可能的话,利用多种交互式媒介来表现提示(例如,两次哔哔声,一次灯光变化和一次屏幕对话);

初始提示 - 对于初次使用的用户,或者当用户似乎卡住时,你可以显示初始提示或建议以促进语音通信。

语音用户界面设计终极指南 -第13张图片-零帕网

反馈用户体验

反馈对于成功的语音界面用户体验至关重要。它允许用户一致且立即确认他们的单词被设备摄取和处理。反馈还允许用户采取纠正或肯定行动。

语音用户界面设计终极指南 -第14张图片-零帕网

Samborek

语音用户界面设计终极指南 -第15张图片-零帕网

以下是一些有助于提供有效VUI反馈的UX原则:

实时响应式视觉效果 - 这种视觉反馈在本机语音设备(例如手机)中最常见 。它可以在多个声音维度上创建即时的认知反馈:音高,音色,强度和持续时间 - 这些都可以响应性地实时改变颜色和模式;

音频播放 - 简单的播放,以确认语音的解释;

实时文本 - 文本反馈将在用户说话时逐步显示;

输出文本 - 在用户完成发言后转换和修改的文本反馈。在将音频确认或转换为动作之前,将其视为第一层纠正处理;

非屏幕视觉提示(灯光,灯光模式) - 上面提到的响应式视觉效果不仅限于数字屏幕,这些响应模式也可以表现为简单的LED灯或灯光模式。

结束提示

该提示意味着当设备停止收听用户的声音并开始处理命令时。许多相同的“主要提示”原则适用于最终提示(即时,简短,清晰,一致和不同)。但是,还有一些其他原则适用:

足够的时间 - 确保用户有足够的时间完成命令;

自适应时间 - 分配的时间应适应用例和预期响应。例如,如果用户被问到“是”或“否”问题,则结尾提示应该在一个音节之后期望合理的暂停;

合理的暂停 - 自上次录制声音以来经过了合理的时间吗?这非常难以计算,但在上下文中也依赖于交互的用例。

会话用户体验

像“打开我的闹钟”这样的简单命令不一定需要冗长的对话,但更复杂的命令可以。与传统的人与人之间的互动不同,人与人之间的互动需要额外的确认,冗余和纠正层。

更复杂的命令或迭代对话通常需要多层语音/选项验证以确保准确性。使问题更加复杂,通常用户不确定要询问什么或如何要求它。因此,解密消息并允许用户提供其他上下文成为了VUI的工作。

肯定性 - 当AI确实理解语音时,它应该回复肯定的消息,该消息也确认了语音。例如,人工智能不是说“当然”,而是说“当然,我会把灯关掉” - 或者“你确定要我关灯吗?”

纠正 - 当AI无法破译用户的意图时,它应该使用纠正选项进行响应。这允许用户选择另一个选项或完全重新开始对话;

善解人意 - 当AI无法满足用户的请求时,它应该因缺乏理解而获得所有权 - 然后为用户提供纠正措施。移情对于建立更加个性化的关系非常重要。

拟人化的用户体验

赋予人类特征以进行语音交互会在人与设备之间建立关系。这种拟人化可以以各种方式表现出来:灯光模式,反弹形状,抽象球形图案,计算机生成的声音和声音。

语音用户界面设计终极指南 -第16张图片-零帕网

语音用户界面设计终极指南 -第17张图片-零帕网

拟人化是人类特征,情感或意图对非人类实体的归因。

语音用户界面设计终极指南 -第18张图片-零帕网

这种关系在用户和机器之间建立了更紧密的联系,这也可以跨越具有类似操作平台的产品(例如Google的助手,亚马逊的Alexa和Apple的Siri)。

个性 - 为交互带来额外的维度,允许虚拟个性与用户联系和同情。它有助于减轻错误处理的语音的负面影响;

积极性 - 一般积极性鼓励重复互动和肯定的基调;

信心和信任 - 鼓励额外的互动和复杂的对话,因为用户更有信心,结果将是积极的,并增加价值。

端到端的运动体验

语音交互应该是流动的和动态的。当我们面对面交谈时,我们通常使用无数的面部表情、语气、肢体语言和运动的变化。挑战在于在数字化环境中捕获这种流体相互作用。

如果可能,整个语音交互体验应该感觉像是一种有益的互动。当然,更多短暂的互动,如“关灯”,并不一定需要完整的关系。然而,任何一种强大的互动,比如与数字助理一起做饭,就需要长时间的交谈。

语音用户界面设计终极指南 -第19张图片-零帕网

AurélienSalomon

语音用户界面设计终极指南 -第20张图片-零帕网

TinoFan

有效的语音运动体验将受益于以下原则:

过渡 - 无缝处理不同状态之间的转换。用户应该觉得他们不会永远等待,而是助手正在为他们工作;

鲜艳 - 鲜艳的色彩传达了喜悦和未来主义。它为互动增添了未来主义优雅元素 - 鼓励重复互动;

响应 - 响应用户输入和手势,给出关于正在处理哪些单词的提示,并允许用户查看他们的语音/意图是否被准确地解析。

语音用户界面设计终极指南 -第21张图片-零帕网

通过AGI汽车仪表内自然AI 格列布Kuznetsov✈

结论

VUI非常极为复杂、多方面,而且常常是交互的混合。事实上,并没有真正包含所有内容的定义。重要的是要记住,日益数字化的世界意味着我们花在设备上的时间可能比花在彼此身上的时间还要多。VUI最终会成为我们与世界互动的主要手段吗?我们拭目以待。