智能科技

当前位置:澳门威斯尼人平台登陆 > 智能科技 > 语音交互设计,面对智能化的未来

语音交互设计,面对智能化的未来

来源:http://www.tessiz.com 作者:澳门威斯尼人平台登陆 时间:2019-11-05 05:53

下图为整个硬件的构成部分以及运作传输图。

“这一周哪天是晴天”

不识别

“今天适合穿什么衣服”

答不对题

6.尽可能只给用户呈现她关心的最终结果

有段时间我一直用助理来也微信公众号打车,因为我只要说到哪,就等着来也回复我说几分钟谁来接我就好了,不用一直看着那几十秒的loading,也不用等着超过最长时间再次点击打车。

对话内容展示空间有限,相对于界面式浏览、筛选效率低,如果一直给用户中间结果,用户容易失去耐心,尽可能给用户呈现最终结果,才能提高用户效率。

****物理输入/语音输出**

这种特别的组合咋看上去很罕见,但仔细想想传统的立体声音响就是这种交互方式。物理输入可以是点击屏幕,但也可以是按按钮或者手势识别。

另一个例子可能有一些不常见,比如在杂货商店使用的自助结账系统通常都有一个语音介绍对应屏幕上显示的内容。语音输出通常用在一些未经训练的用户经常使用的设备上。一个可靠的人声提示可以帮助这些用户顺利的进行一些特定的操作步骤,诸如银行取款等。

首先交代一下背景:

在日常生活的大多数情况中,我们其实并没有必要使用语音交互,比如进入一家餐厅我们可以直接使用门口的点餐机下单,执行语音下单操作并没有多大意义;再比如如果我们一回到家灯的开关就在右手边,那么语音开灯就显得多此一举。

随着智能技术的发展,2016年对话式交互被越来越多的人谈到,对对话式交互的讨论从对话式交互的发展历史,到未来对话式交互的趋势预测和各种可能性,有很多很不错的观点。

****成功的结合方式**** **

Tony Sheeder主持了Dragon Mobile Assistant的第一个版本的设计。Dragon Mobile Assistant是一个 Nuance Communications公司推出的免提使用手机的app。它的语音识别技术很出色,可以用来安排约会,发送信息,分享内容到社交网站以及查询天气等。虽然它能够很好的理解用户的请求,但早期的版本却存在一个有趣的设计问题。

sheeder解释道,起初语音交互和图形界面是由两个不同的团队设计的,两个团队都觉得他们应该同时控制信息的输入和输出。“这就使得最终产生了许多冗余的信息,例如app会在屏幕上显示一些信息同时用语音将它读出来。”sheeder说。当两部分设计人员开始互相协作时,他们开始考虑哪些内容适合视觉呈现而哪些内容可以用语音来输出。因此,下一个版本的输入输出方式就明显自然多了。

为了能够成功的将多种交互方式进行结合,不仅需要了解什么时候需要或者不能用语音,而且需要知道怎样将语音与其他输入输出方式有效的结合。下图列出了几种不同的混合交互方式的例子:

毋庸置疑,在接下来的几年内肯定会有更多不同结合方式的产品出现,这意味着设计师需要花费更多的精力来确定哪种输入输出方式能带来最好的使用体验。而且可以预见的,每当你增加一种输入或输出方式,设计复杂度会指数级增加。

下面有一些有用的tips来告诉你哪种输入和输出的组合方式适合你的产品。

(名称解释:在决定做这个产品的初期,是以落地到公司的5号行政楼为场景的前提下进行的设想,所以叫“5号小蜜”)。

  • 微软Build大会发布智能音箱Invoke,
  • 苹果WWDC发布HomePod,
  • 百度AI开发者大会发布DureOS开放平台,
  • 阿里人工智能实验室发布天猫精灵,
  • 亚马逊推出语音助手Alexa…

二、提升对话式服务咨询体验的几个设计思考

从对话互动体验的链路来看,对话式交互核心体验主要由三部分组成:用户需求描述和ai理解、回复(含指令执行)、用户使用回复。下面我会围绕这几部分来说说我设计过程中的思考。

作者Laura Klein

澳门威斯尼人平台登陆 1

source:Stephen Kenwright ’s blog

3.响应快很好,但回复准确更重要

虽然在线咨询中,快速响应是体验的加分项,但更重要的回复的准确。在小蜜中通过语料我们发现用户在描述问题时,比较喜欢半句半句的描述,而我们的回答是单轮回答,描述一出来,只要我们能匹配到解决方案,就会立即吐出解决方案,这样导致用户刚说了半句,解决方案就出来了,再补充描述一句,上下文理解如果做得不够的话,用户的问题就很难回答正确了。

这种情况我们除了去引导用户以正确的方式描述问题外,也在考虑当识别到用户正在输入时,等一等再回复,等用户输入完了,把已经描述的内容联系起来看一看再回复。

░ 语音的未来 ░

所以未来会是怎样的呢?其实有许多产品在不远的将来会发生巨大改变。

语音识别早已不是专属于某些特定的行业了,可以预见,未来随着智能手机和智能可穿戴设备的普及,越来越多的公司会加入其中。某天我用我的智能手表通过语音在亚马逊下单,这必要么?不必要,但这会是未来趋势么,当然。这会让我失业么?有可能哦~

大数据和语音识别技术的进步可能很快就能让我们和电脑进行真正意义上的对话。但真正有价值的是,让人们与那些屏幕、键盘效果不佳的设备进行自然的交流。

Tony Sheeder认为语音交互将被更多的用在虚拟现实和增强现实方面:

人们沉浸在游戏环境中时就不应该只能靠点击按钮来进行交互。语音可以为你的产品提供更为细腻和多样的操作可能性。

Rebecca Nowlin Green预测会有更多的虚拟助手、一对一的交互硬件作为各种公司的代表出现。

大数据会追踪用户的行为信息并利用这些数据影响体验,你最喜欢的咖啡馆可能会通过虚拟咖啡助理来叫你起床。

Abi Jones认为未来界面会变得无处不在,当你需要他们时他们就在那,她还认为接入语音会让体验变得完全不同。

但就像任何新科技在开始使用时,公司和设计师在尝试何时使用语音以及怎样使用语音时会做出很多错误的尝试,就像Marco Iacono指出的:

就像苹果的智能手表刚推出时,开发者很快就将他们原有的业务移植到了这个新产品上,其中很多都是原有手机应用的缩小版或删减版。不过不久他们就发现自己的核心功能是否真的适合这个在手腕上又小交互流程又短的设备了。

在本篇文章中采访的这些VUI设计师一般都在这个领域工作了15~20年,所以说他们仍处于起步中显然有点搞笑,但有一点是清楚的,在这个技术成为主流之前,我们仍处于早期状态。

就像As Thomas Hebner说的,“现在是语音设计的好时代,虽然当前语音设计师大多从事设计IVR系统,但随着各种API接口的开放和更多消费类电子产品的使用,我们即将迎来爆发式增长。世界还没有意识到他们需要语音设计。正如许多IVR APP在早期设计的并不好,但他们随后都变得很成熟。现在我们正处于自然语音的开始阶段,再过些年,人们一定会更加关注语音设计的。

在初期,我们的选择是液晶屏幕,这个是最基础的承载硬件,也是成本最低的硬件。而其它选择的硬件也有优劣之分,透明玻璃屏适合导购的场景,背后是否有商品的出现,是从传统的触觉互动进行了更多承载信息的进化。非透明玻璃屏适合更沉浸的助理场景,全息投影会更接近真人的感受,也是智能感受最强的一类,每一种硬件方式都有适合的场景,这个是我们需要去权衡的。

style="font-size: 16px;">诞生 style="font-size: 16px;">——纯语音交互

2.是否选用语音作为第一输入方式,需要结合场景考虑对话双方的需求

对于查看接收内容来说文字的效率更高,但对于表达来说语音效率更高。所以在考虑是否用语音作为第一输入方式时,需要考虑对会话双方的影响。

目前技术上语音的识别准确率已经很高了,但是识别一长段话或者连续几句短话连起来理解还是有困难,尤其是面对各种口音的普通话。所以如果你所在的业务场景用户比较偏向于长段长段和机器人对话,那要慎用语音,如果识别不准,带来的体验就很可能是先语音说一遍再去修改,会大大降低使用语音的体验感受。

澳门威斯尼人平台登陆 2

例如知乎live选择的输入方式,考虑比较偏向于讲师的便捷性。对于提问者选用文本,方便在整个过程中,需要浏览众多不同用户问题的live讲师浏览效率更高,对于讲师提供语音和文本两种,一般讲师都会选择表达的比较有效率语音。

****大量的输入和输出

在大量数据的输入和输出时,语音要比打字慢很多。比如搜索你想要去的餐馆,你可以比较容易的用语音描述出你的筛选条件,但将搜索的结果用语音读出来显然相当麻烦。因此,当你可以浏览列表并通过点击选择时,就没有必要通过语音来操作了。

当需要处理大量的输入和输出时,可视化界面要比语音界面高效很多。虽然有些人很擅长口述他们的想法,但要流利且准确的说出整个email的内容还是需要一定训练的。短句子和简短的邮件回复比较适合语音输入,不过打字还是更容易让大多数人接受。

在有了这个想法后,5号小蜜进行了1.0版本的研究和设计,在项目初期我们的承载硬件主要是以55寸,比例为16:9的液晶屏幕为主,用机器人的虚拟形象进行语音的互动,其中的场景设定也是在访客进入到5号行政楼进行互动的能力。

比如,当系统问用户,你的主要症状是什么?若用户说的是发烧和感冒,系统就要理解用户说的是两个症状,针对这个事情,系统需要进行回复两种不同的症状解决方式。

三、结论

对话式交互在在线服务咨询中的应用,让服务更直接,更面向个人,更面向个性化的case,也让服务资源得到更合理的调配;随着智能技术的进一步发展,相信智能客服能为用户提供更快、更好的服务;但同时智能服务体验是重依赖智能技术的,在技术还不太成熟之前,设计在思考更完美的体验时,也需要更多的考虑各种方法来弥补智能不足对体验的影响。小蜜现在也有很多体验不太好的地方,还有很多可以尝试的空间,但相信只要在正确的方向上,就会越走越近。

****纯语音——有限状态**

有限状态,纯语音的操作系统更像经典的IVR系统。那是一种当你拨通电话会听到诸如以下的系统提示音:“请问有什么可以帮忙,您可以尝试说查询账户、开通账户、申请清算或者人工服务。”在这个系统流程中的每个节点上,系统只能理解特定的命令。

虽然这个系统很傻,但它仍被那些需要降低客服中心运营费用的公司使用。因为该系统可以处理一系列常见的简单任务并在需要处理复杂任务时将电话进行转接。

用户从行政楼走进,一般会有几种意图:开会(查找会议室)、来访(了解阿里文化等)、参观(闲聊)根据这些场景我们进行了两个关键节点的设定:吸引、交流。由于结束对话属于弱互动,所以暂不列入重点。

各大公司都推出了自己的语音助手,例如微软的cortana,谷歌的Google OK和苹果的Siri。这些语音助手结合视觉和听觉,同时使用语音和屏幕进行人机交互。发展到这个阶段,就打破了原先IVR仅能用于单轮任务的局限性,使得语音交互有了多轮对话的可能性。

4.结合用户心智和最短路径来设计会话内容

在对话式交互体验里,问答是用户和产品的最关键的接触点,用户通过对话的轮次来判断获得服务的便捷性,通过收到的回复内容来感知服务质量,所以对话的路径和回复的内容决定了体验的好坏。

对话相对于界面表单等,一次获取的信息少,但对话轮次太长,每一步都有可能导致用户的流失,所以巧妙的问法是对话式交互里非常主要的功课。记得小冰在微博之前有个玩法,6个问题问出你心里想的是谁,就是一个通过会话路径设计来改变体验的例子。

在小蜜里,我们针对服务问题都是一个个场景的深耕,我们会和业务一起设计每种情况下应该走哪条路径,尽可能缩短用户到达解决方案的路径,以便用户更快的获得解决方案。虽然在用户端只有2-3步,但背后的信息收集和过滤有n多步,正式因为这些不同分支的设计,才带来结果个性化呈现,让用户得到一个基于自己当下情况的专属方案。改变了以前咨询帮助中不论你问什么,都是给你一长段各种情况下的完整解决方案,然后用户再从中找到自己当前情况下要做的。

澳门威斯尼人平台登陆 3

另外,除了最短路径也要考虑到用户心智,一个问题一般有多种问法,我们需要挑选其中让用户感受更好的路径,以降低用户的流失。这个可以通过一个相亲对话例子来感受,“你有房有车吗?”和“你家车库多少钱一平?"。

当然,经过用户允许,记住用户的信息,下次直接提供服务,甚至代办是更好路径设计。

▼可发现性和可预见性

可发现性和可预见性在以语音为主要输入方式的系统中相当重要,尤其是在使用自然语言系统时。在这点上图形用户界面和语音用户界面会有很大不同。

自然语言系统将大部分发起询问的负担都给了用户,相反的,图形界面可以给用户上下文线索,比如提示、询问,甚至是明确的选项。当你登录你的网上银行时,网站通常会给你几个选项,例如你是否想登录或者学习如何新开一个账户。

想象下如果银行像谷歌的语音系统一样。你进入网站然后系统提示你问一个问题。有时会很顺利,如果你恰好是要查询余额,对话就会变得很简单:“查询我的账户余额。”“好的,你的账户密码是多少?”

但如果你想开通一个新的业务帐号,并且与你的储蓄账户绑定,并且有许多选项需要选择,每个选项都有不同的收费方式。这个对话会很难开始,因为你不知道要从何说起,先问什么。甚至很多新功能你都不知道它是否存在,就更不用说去问了。

这类可发现性的问题在设计开放式语音系统时是一个很重要的问题。当Abi Jones第一次设计语音时,她把一个录音设备假设成一个什么都能听懂并回答的机器,“这让我第一次意识到想要说出自己想要什么是多么难的一件事,”她说。

即使在限制输入内容且功能完全外显的语音交互中(例如一些只能让用户说特定词的应答系统),设计师还是要处理一系列无法预测的用户应答。在可视化产品中,我们所做出的大部分选择被用户界面限制。有能点击的按钮,供选择的选项,可拖动的滑块。当然也会有开放式的文本输入框,但他的出现一定会有上下文提示它的作用。当你在谷歌搜索框中输入时,即使输入这个行为本身不可预知,但上下文的信息也能让用户按照设计者的意图进行操作。

与此相反的,siri需要根据你的输入来确定做出什么响应。是打开一个app?搜索网络?还是给某个联系人发短信?输入的不可预测性对设计师而言是个棘手的事情,如果我们想要限制用户输入或让用户知道他们能做什么,设计师就需要预测更多的使用情景来尽可能多的覆盖用户可能的应答。

澳门威斯尼人平台登陆 4

语音交互中建立人机之间的亲密关系才是抓住用户的关键,语音中包含了音量以及语调、语速、语气,这些因素可以更好地传达人的情绪,使得情感的传递更为直接。同时,如果智能设备有着一个令人着迷的个性,相信人们会更愿意与它进行互动并建立关系。

1.通过快捷标签和情景感知,引导用户描述需求

在我们做v1.0时,虽然对话界面已经很清楚,但是来自己描述问题的人很少。后来了解原因,因为在文字描述问题时,需要思考怎么组织才能被理解,语音输入识别不太准,文本输入不像“搜索”那样大家比较习惯输入的方式是关键词,也不像“电话沟通”那么直接和随意,所以有的人就直接放弃了。

澳门威斯尼人平台登陆 5

去年4月份在第2版对话式设计中,我们通过快捷标签外化小蜜主要可以处理的事情,让用户可以知道在这里问什么,可以怎么问,也可以把相似的问题引导到我们设定的路径下,避免问题得不到解决,这个也给我们产品带来了明显的转化,在拉取用户咨询语料观察时,也发现用户描述问题的方式和我们引导的很接近,这样做同时也降低了语意识别的压力。去年10月google allo在过程中根据每次对话的内容也加入了关联的问题引导用户走下去;其他产品也都在探索快捷的方式降低用户成本,引导用户走下去。

另外一个重要的部分是情景感知,在服务场景里主要是依据用户的来源和订单等情况猜测用户可能遇到的问题,通过去接近用户遇到的问题来让引导用户提问。

****一些适合使用语音的情景****

澳门威斯尼人平台登陆 6

Voice User Interface Insights -Prototypr返回搜狐,查看更多

我所参与的淘宝服务咨询产品阿里小蜜(找到路径:手机淘宝>我的淘宝>我的小蜜)的设计也经历了从对话式交互到界面交互再到对话式交互的发展,本文结合阿里小蜜的设计谈谈在真实的对话式交互应用(主要集中于在线对话场景,不包括电话对话、智能终端对话)体验设计中的一些思考和大家交流。

▼人们可以表达的复杂信息

实际上,当用户有复杂的命令需要说时,语音的优势就体现出来了。假设你今晚想要看一部电影,你可以在电影列表页翻页或依据应用给出的有限个分类进行筛选,或者,你可以选择说:“给我找一部没有黄晓明出演的电影,这个电影要四星以上且有免费资源。”

对于由多个关键词和过滤条件混合的复杂搜索请求,用户通常很容易用词语描述出来,谷歌在这方面做的很好,无论用户是用键盘还是语音输入的。试想如果将支持语音的搜索引擎植入到诸如电视机这种只有简单遥控器的设备上会带来多大的方便。

在小蜜与用户交流的部分做了标记,也是语音交互的核心内容区。为了方便整个流程连贯起来,还是从最初的部分开始,讲述一个完整的剧本。

style="font-size: 16px;">目标:易用——对话准确高效且相关

5.考虑回复的针对性

会话输入具有开放性,所以人在会话的描术可能很随意,有可能前面说的是事情A,下一句就变成了事情B,下一句又回到了A,在人与人的对话里很常见,有时也会出现理解歧义,然后就很随意的补充一句“我说的是事情A哈,我再说一下事情B”,多个事情是可以并行聊的。但出现在机器人里就是一个很大的挑战,机器人会不知道当前处在哪件事情里。

当出现这种情况时,在会话回复时指明所指对的对象可以让会话逻辑更清晰。知乎live的引用回复、微信、钉钉里的@功能都是在解决会话针对性的问题,可以借鉴。

**▼在需要释放双手或双眼的操作环境中确保安全**

在车中语音交互已经被应用。不管用户是否喜欢,他们不得不在开车时需要与设备进行交互,比如导航、开车途中接电话或者需要回复短信的情况。这时候用户需要让他们的双手握在方向盘上而眼睛目视着道路。语音交互在这种情况下可以保证用户安全的操作,虽然不能避免分散用户注意,但至少用户不用低头看手机了。

不只是在车上,比方说在手术室,我们也不希望医生在需要查找某些信息时还需要用手打字。

因此,当我们需要快速获取信息或做出回复但我们的双手和双眼又无法使用时,语音输入和语音应答可以保证安全性和效率性。

而且服务的视觉概念也从我们常常感知到的二维变成了多维的角度,从单一的界面变成了人设、服装、肢体语言、面部表情等多方结合的综合体。因此这两个关键词延展出来的部分就有了各自的分工:智能感更多的体现在界面氛围上;服务感更多体现在人物上,两者结合的会更加润滑。

在与系统的交互过程中,如果出现了失误,用户只能挂断重来,这使得整个交互过程极不流畅,而用户也一直处于相当拘谨的状态下,与如今语音交互轻松自然的氛围相去甚远。

7.关联场景串联让服务更完整

主动服务是服务咨询行业经常提到的词,无论是在线,还是电话,客服都会在一个问题结束时询问是否还有其他的问题,而场景串联即是主动服务的表现,关联场景串联能让用户在一次会话中解决一系列的问题,会让服务更完整。小蜜去年从到周末去哪、机票、充值等各种生活场景也一直在做各种尝试,让这样的场景更多的发生。

随着科技的发展,人机交互发生着巨大的变化,智能家居,智能车等智能硬件的普及,人们越来越需要一种不依赖于键盘鼠标显示器的交互方式。同时,语音输入技术上的重大进步也使得人们可以用更为自然直观的方式和设备进行“交流”。因此,设计师也需要具备一些语音交互的设计方法来设计出更为可用的语音交互方式。

下图为核心的Flow:

VUI简史

一、在线服务适合对话式交互吗?

很多谈对话式交互的文章都在讨论对话式交互的效率问题,以前点几下就解决的问题在对话式交互里需要好几次会话才能输入完信息,这算更好的体验吗?当然不算,我们也不能为了对话式而对话,更多的需要考虑实际的应用场景。所以,我想先来说说为什么觉得在线服务适合对话式交互。

澳门威斯尼人平台登陆 7

淘宝在线服务先后经历了2次对话式交互的尝试。第一次是阿里all in无线的背景下,客服产品也开始考虑无线端的布点,因为考虑到无线上用户区别于pc上可以方便看到更详细、更全的解决方案,无线上的用户可能更需精准和自己更相关的回复;再加上淘宝上找客服的入口一直叫“联系客服”,用户也已经习惯了这个入口代表的是联系淘宝的客服,当时考虑到“联系客服”给人的预期也更偏向于有人可以沟通,而不是有页面可以搜索或查询,所以首次提出了使用对话式的交互的方案v1.0;上线了半年后,因为机器人回复不准、内容运营慢、流失率高等因素,再加上即将到来的双十一服务压力增长,在大概2014年11月的时候我们改成了界面交互v2.0。v2.0界面交互的首要目标是提升无线端服务的承载量,所以基于top问题,设计了第二版的“帮助”首页,首页涵盖约70%的用户问题,有效转化提升很多,解决率也提升了很多,后面也看到很多“帮助”产品来借鉴我们的方式,现在在线的依然很多;基本稳定后,我们又开始考虑怎么结合个人的情况,做到首页个性化,来降低流失,提升服务承载量,于是就有了我们的v3.0,但因为技术瓶颈,个性化最后也没持续做下去。然后,就是2015年,ai技术的发展,经过一长段时间的灰度,诞生v4.0。

不过,虽然第一版的对话式版本最后下线了,但积累了很多经验比如交易问题沟通的逻辑树、订单选择、自助流程等在小蜜中得以延续。最后在有一定技术基础的情况下,版本回归到对话式的方式,在大家看来是非常正确的决定,在我看来主要有三点:

首先,用户进入的场景都是有明确诉求的,都是带着自己的问题的,也只是想知道具体问题的解决方案;开放性的输入利于用户表达自己的诉求,而对于问题的解决,用户对自己问题描述的越具体,就越利于自己问题的解决;

其次,因为每个人的问题又具有个性化,而对话式正好非常利于这种个性化的表达,用户可以发送自己的订单,发送自己的截图等所有相关信息提供给客服处理,基于这些个性化的描述,我们才能给出用户想要的针对性的解决方案;

第三,对话能在符合用户寻求服务心智的基础上,很好地承载调用不同服务角色的功能。在线服务单靠目前的智能技术一定是解决不了的,需要将复杂问题通过服务路由,分配给对应的人工处理。以前的服务咨询提供给用户的是服务渠道,如电话客服、在线客服、客服机器人,用户想打电话沟通但打不通,想咨询在线人工要排队,在用户还没把问题表达给客服之前,用户就会因为电话忙、在线忙,而降级为机器人;最后,用哪个渠道服务用户变成用户对渠道的坚持差异。而且这样的情况下,服务资源分配不是按照问题和服务能力在匹配,也就不是最优配置。而事实上,渠道并不是用户最关注的,用户最关注的还是问题的解决方案。对话式的方式把服务的开启方式定义成用户问题的描述,然后基于用户问题来给用户分配对应的服务资源,而用户不需要区分处理渠道,只需要把问题说出来,剩下的谁能解决就交给对话去处理就好了。

综上,判断一个产品是否适用对话式交互,除了一般用户和服务资源视角的思考,更多的也要了解目前你所在产品团队ai技术、业务运营能力是否到位;在服务咨询行业全部用人工基本不太可能,如果ai识别不够,用户描述的再详细也理解不了用户的问题;业务运营能力不够,后面回复的解决方案也会受影响;所以在考虑对话式交互时要考虑在现有的技术是否足够,不够的地方设计是否能做对应的补充,保证对应的体验损失。

**▼保持简短,但不能太短**

当系统太过于健谈时,体验会变得相当糟糕,尤其是在无输入系统中,语言要相当简明并使用户始终主导交互的节奏。简言之,在设计对话时要保证简洁但也不要过于简短。

书面语言完全不同于口语。当你开始写一段会话时,你会发现它读起来很生硬或者让机器读起来过于冗长。这其实很常见,你需要保持所有的会话比你想象的要短的多。如果不这样,用户很容易失去耐心听完从而可能错过重要信息。

另一方面,你同时需要注意不要省略重要的信息。sheeder谈到了早期的语音自动应答中心的设计,设计的核心目标是让所有东西尽量简短。“有一个理念是:若在一次通话中减少750毫秒就可以提高效率,但通过剔除连接词和过渡短语反而会增加用户的认知压力从而使效率降低。”当反馈太快时会对听者造成很大压力,他们会因为无法及时处理信息而变得挫败,最终使得自动应答中心的整体效率降低。

责任编辑:

无论是何种设计原则,都需要建立在语音交互的意义之上,而语音交互的意义,便在于距离感

8.明确区分人和机器即可,不需要让用户混淆

在当前技术背景下,一般聊几句用户都会知道对方是人还是机器人,所以没必要去假装是人。之前在小蜜里看到的现象是因为人和人工的区分不是很明显,用户进入人工之后也在问:你是真人吗?说明用户被搞蒙了,反而降低了用户对产品的信赖。

****纯语音——基于自然语义识别**

随着技术的进步,很多IVR系统升级成了NLP(自然语意识别)系统,这意味着当你向某公司打电话寻求帮助时系统会问你“请问你需要什么帮助”,接下来只要你能准确的描述出你的需求它就可以识别并执行。

如果说选择使用纯语音系统取决于你的产品是否具有屏幕,那么选择支持自然语意识别的纯语音系统的决定因素就不止这些了。

Rebecca Nowlin Green的主要工作是帮助公司选择适合他们的语音系统,她推荐将自然语义识别的IVR系统用在需要支持大量呼叫及流程复杂的系统。如果系统中有大量用户可能会需要的功能,设计一个可以跳过一些不必要层级直接让用户获得他们所要服务的流程可以避免用户的中途放弃以及其他错误。

当然,如果用户需要获得诸如医疗保险或银行相关的帮助时,他们通常不知道说什么能让系统给出他们想要的结果。他们很难向电脑询问“我想要知道你是不是能回复我关于我的医嘱的问题。”但是,如果你先给出一个明确的选项来帮助用户做一个选择,例如“开通一项医疗程序”,他们会意识到这就是他们想问的事。在这个例子中,你可能需要给用户一些有针对性的对话来提示他们向系统问什么。因为虽然你允许用户用自然语义来交谈,但不代表不需要给用户以提示。

澳门威斯尼人平台登陆 8

但在目前的语音交互中,却多数会出现这样的情况:

****很难形容的内容

在上一节中,我们看到了一些容易口述但比较难打的字、符号和行业术语。但同时也有一些很难大声说出来却很容易用屏幕显示出来的内容。

虽然在智能电视上语音交互已经被用来控制很多功能,但例如白平衡调节这种功能还是很难用语言形容。同样的,在控制智能汽车时,像调节后视镜角度这种操作用语音控制也比较麻烦。之所以这样是因为语音录入在一些有上下文语境的场景中较为有效,但不能适用于所有的场景。

澳门威斯尼人平台登陆 9

我思故我在,一件事物只有当拥有本身的意义之后,才能被人发掘出后续存在的价值,而对于语音交互来说,而要找到这种距离感,需要对人们的每一个生活场景和日常行为进行细致的观察和深入的思考。

最近在做的VR项目里需要用到语音交互(其实是因为只靠头控的操作太反人类,手势的精度又低到没法用,所以只能求助万能的语音了),于是在网上找了些关于语音交互的资料,不过可能是语音交互的应用范围并没有图形界面那么广,其设计的原则和方法也并不系统,更多的是一些经验之谈,言归正传,接下来就看看语音设计都有哪些设计要点需要注意。

澳门威斯尼人平台登陆 10

近来,智能语音交互市场的热度可谓一路飙升。

****语音输入/视觉输出**

n近些年,市面上有许多产品合入了语音输入,其中有很多是有显示屏的产品。在这些产品上,我们允许用户语音输入,而用界面显示输出的信息。

用智能手表发短信就是这种组合的一个很好的例子。手表的界面很小使得其他形式的文字输入方式都很难使用,但这个尺寸的界面完全足够显示语音输入的单词,以便用户检查拼写和格式的错误。

智能电视也是一个很好的例子。它们没有能够支持复杂输入的硬件设备,而本身又有足够多的功能足以支撑自然语义查询。比如直接说“显示本周三生三世十里桃花播放的所有时间,”要比用遥控器上的十字箭头方便多了。

Thomas Hebner说他最喜欢的一款语音界面是一款订披萨的app,用户只用大声说出他们的要求,比如“两份小披萨,其中一个只放奶酪,另一个放香肠和蘑菇,”这些都不需要用户手动输入。app会将识别出的订单在屏幕上显示以便用户确认,这比用语音将识别结果读出来方便多了。

实际上,那些有复杂功能,需要复杂输入,而这些输入都可以用语音命令代替,同时返回的结果不适合机读出来的系统,都适合使用语音作为输入方式,而用视觉作为输出方式。

澳门威斯尼人平台登陆 11

在Gartner总结的2017年几大趋势中,virtual assistants处于热点的最高位,在2018年也是居高不下。

**语音交互(VUI)和图形交互(GUI):相同和不同**

对语音交互设计师而言,以上的这些科技进步相当重要,因为它们可以让我们以一种20年前科幻小说中的方式来与机器“对话”。但我们还需要找到有效的设计方法来最大程度的利用这种科技进步。幸运的是,图形界面设计中的以用户为中心的设计理念很多可以复用到语音设计中,我们不需要完全从头开始,但也要知道有哪些新的模式需要注意。

交互设计(ux)中最重要的角色是用户,一切流程都是围绕用户为中心展开的,这点在语音设计中是相同的。Thomas Hebner作为一个从事了16年语音设计的设计师,他认为语音设计中最重大的错误往往发生在用户目标和业务目标不一致的情况下。

优秀的产品通常都是能快速解决真正的用户需求,同时很适合他们的使用场景。我们需要的是能感知上下文的设计,比如我在家说“温度升高点”,系统要知道我指的是暖气还是烤面包机。这种感知上下文的能力与语音识别技术无关,主要看设计师对系统对话的设计是否巧妙。

以上这些很重要,理解用户、使用中对上下文的感知、可用性与易用性这些通常用在评判GUI的设计标准同样适用于语音交互(VUI),所以传统的交互设计师可以很好的将自己在GUI方面的设计经验移植到VUI上。

但也有一些关于VUI的特殊设计要点需要特别注意。

澳门威斯尼人平台登陆 12

澳门威斯尼人平台登陆 13

什么时候会用到

在有限状态下,纯语音的系统在特定场景下还是很有用的。由于只能通过语音进行输入输出,所以适用于那些没有屏幕的设备,包括IVR电话系统,当然也包括一些没有屏幕的可穿戴设备。

通常,使用有限状态系统意味着你的产品足够简单以至于不必使用自然语言处理方法(NLP)。用户被训练着做少量的简单任务,例如一个只能定闹铃的闹钟不需要一整套自然语义系统来支持,它只需要理解几个用户能记住的简单命令,比如“设置闹钟”。

有限状态系统的一个最大的问题,也是一些人之所以很讨厌使用IVR的原因,系统通常需要用户回答一长串特定的选项才能最终得到用户想要的结果。如果系统包含更多内容,就会要求用户回答更多的筛选选项,这会很容易让用户切到人工服务或挂掉电话。

一些只包含几个特定任务且可以通过简短命令操作的系统比较适合纯语音的交互。例如汽车内的语音控制系统。用户一般只有特定的几个需求,如:播放音乐、打开空调一类的。用户每天都会重复这些交互,而且每次都会用到相同或相似的命令。每个命令都很简单并且相互不会产生影响,所以用户不会迷惑,系统也很好识别和纠错。

其次界面关键词的分配方面也会有考量,在氛围中我们更希望带来智能感受、在对话中我们更希望是亲切的服务感,因此真人的形象出现是一个比较合适的策略。

“我想吃麻辣烫”

style="font-size: 16px;">“为您推荐XXX,销量XXX,价格XXX,是否购买”

“有没有更便宜的”

不识别

▼为隐私和易用性而设计

好的隐私设计的关键是理解用户会在什么情况下需要信息以更加私人的方式呈现,且这些信息出现时的上下文是什么。没有人愿意在地铁上喊出自己的社保密码,但在某些情况下甚至连短信的发送人这种信息都会牵扯到隐私。

让设备能够轻松的切换到无声模式并且支持多种输入和输出方法对保证隐私至关重要。而一个反应灵敏的应答系统也会对隐私有所帮助。例如生活中,当你小声对一个人说话时,对方也会小声的回应。我们通过周围的人的反应及时调整自己,可是机器不会,它只会用同样的音量做出应答。所以在设计语音系统时将环境噪音、位置、接收到的音量考虑在内并做出处理可以大大改善隐私问题。

对上下文的理解可以改善易用性。例如一个叫做TRNQL的致力于开发便于语音输入输出SDK的初创项目。其中有一个设计是当系统检测到用户是坐着的时候,输入方式是键盘输入,而当感知到用户在走路时,默认输入会切换到语音。这样就会避免在行走中看手机而发生事故。

当我们的设备对我们越来越了解——我们住在哪,在哪工作,我们什么时间在听歌或看电影——系统可以更好的判断什么时候以何种方式与我们交互。但易用性和隐私之间需要有一个度,我们可能会希望我们的系统知道我们在走路但不希望它知道我们在哪走。这些问题在手机和私人设备的设计中需要着重考虑。

记住,隐私和易用性问题是严肃且不好解决的问题,了解用户介意哪些信息以及信息所处的上下文可以帮助你知道如何做能既保护了用户的隐私又能给用户提供便利。

设计也需要在每个场景中分别做出判断,行业通用的部分沉淀,以及行业特性的个性化设计思考,都是需要不断的去尝试和打磨的。而智能互动设备作为一种趋势,也是设计师去发挥所长的沃土。

澳门威斯尼人平台登陆 14

**▼纯语音系统和混合式操作系统**

早期的语音设备常见于大公司针对个人用户开通的电话自动应答系统。现在的语音系统多用在智能家居、手机和可穿戴设备上。有趣的是,这些设备都具有多种输入输出方式,比如屏幕、灯光甚至物理键盘。这些混合式交互系统给了设计极大的可能性。

不幸的是,很多公司只是因为语音比较酷而将语音引入他们的设备。他们认为用户更喜欢直接发问而不是根据系统给出的结构进行会话,因此他们更喜欢引入自然语意系统。同时,为了减少干扰而去掉屏幕或物理按键。

但只有当某些特殊场景下需要引入语音才能解决某些需求时,语音的引入才有意义,否则随意的使用语音只会适得其反。

你需要考虑的是一个语音对话能够如何改善某个用例的体验。比如在输入中,有些信息很容易说出来,但很难手动输入;而有些则容易“写”出来,却不容易“说出口”,语音输出存在同样的问题。

例如这则对话:“siri,告诉我旧金山北部市场中提供午餐且还没关门的所有餐厅。”但你肯定不希望siri将全部760家符合条件的餐厅都念给你,所以这个场景适合语音输入,屏幕输出。

但如果在我们平时用百度地图导航时,我们更习惯于输入目的地进行路线查询,在确认好路线时用语音进行导航。所以这个场景适合屏幕输入,语音输出。

所以,作为设计师,如何决定何时何地使用什么输入输出方式需要我们根据设备、任务和上下文来做特殊处理,但也存在一些通用的原则可以参考。

(年会亮相图)

下面,小线菌结合各路资料总结了语音交互设计的三条基本原则:

****一些我们面对的问题**

“所有这些都不容易。还有很多很基础问题存在的挑战,比如对错的识别能力”Rebecca Nowlin Green说,不过一切都在不断改进。

1999年的产品的识别率大概在65%,而如今的识别率接近92%,但仍然意味着有8%的情况下系统不知道我们在说什么,这会让我们在完成任务的过程中受到挫败。毕竟,如果没能把这些问题解决,人们是不会使用这个技术的。

系统和人类都很难处理诸如“插嘴”这种情况,例如当系统在做简介时用户想要跳过简介而说话。人们很难打断别人说话,因为打断说话的人会觉得不自然。而设备却会遇上这个问题,他们可能并不能很好的理解前一段话的内容,所以会经常看到系统不断重复“对不起,我没听懂”来打断用户讲话。

随着语音交互的普及,我们会看到更多的冲突和混乱。以语音触发控制为例,我在家里说:“把室温升高到24度”时,我所指的是空调,而不是我的声控烤箱或是别的什么设备。所以,我们不能像现在这样,每个设备都有一个完全独立的交互系统。

智能手表和可穿戴设备也有同样问题。我说“OK,Google”时,我想让我的手表回答,而不是房间里的另外四个,这不是完全能通过技术手段解决的问题。未来当我们有更多出现在同一环境下的语音控制设备时,设计师就需要考虑指令冲突的问题了。

但我们面对的最大的问题还是人本身。所有的领域专家都认为人类是很反感语音交互的。Abi Jones说:

当人们彼此交谈时,由于我们通过对话创造了一个共同的价值观,所以我们愿意以更加宽容的方式进行彼此交流。当人与机器进行交流时,起初人们还是会以同样的宽容态度对待,但一旦发现系统缺乏“人性”时,人们就会转变成对待机器的态度。

澳门威斯尼人平台登陆 15

下面小线菌将从语音交互中的VUI开始,为大家扒一扒语音交互那些事儿。

****混合模式**

许多设备都在朝着混合模式的方向发展,它们会将语音、物理输入和屏幕、语音输出结合。导航app就是一个将这些交互手段结合的典型例子。

用户能够触控拖动地图来查看,用物理按键或虚拟键盘输入。当驾车时,可以通过直接说目的地名称来开启导航。用这种方式用户可以不用将目光移向屏幕或用手来操作。语音输出可以输出导航的命令指示,而例如周围道路拥堵状况等较为难以描述的信息可以使用屏幕显示。

这是一种很好的输入输出结合方式,每种交互方式都将自己的优势发挥出来。整个导航系统会根据用户需求和信息的复杂程度来选择信息的呈现方式,一方面,用户在特定场景下可以不用手眼就能操作,而同时用户也能选择在另一些场景下使用屏幕。

但这种方式的设计还很少见,因为上述的方式是基于对用户的使用方式有深刻理解的基础上的。导航系统在汽车内使用语音还是一个比较明显的场景,但不是所有的产品都有一个明确的使用环境,所以判断什么情况下使用语音交互是比较困难的。

在尝试过程中,画面一步步清晰了起来,智能+服务也能更多体现出来,最终通过提炼过程中的视觉语言,形成了最终的画面。

同时,VUI无需暗指用户需要学习如何发出命令,诸如“如果需要XXX,请说/做XXX”此类提示。这种提示带有一些按键语音客服的痕迹,类似10086的“业务查询请按1;手机充值请按2;业务办理请按3;人工服务请按4”。这些提示模拟了典型的按键界面(按键语音客服),以一种老师的姿态教育用户应该如何交流。

▼设计更好的可发现性和可预见性

想要让你的语音系统的功能更为可见,首先你需要让系统积极主动,先发制人。与其让用户自己想起来他们要干什么,不如系统先发起对话,问问用户他们需要干啥。

Karen Kaushansky认为这方面cortana做的很好,如果你在开车并带着蓝牙耳机,此时你接到一条短信,cortana会知道你正在开车,它会询问是否需要帮你阅读短信内容,但如果蓝牙耳机关着他就不会这么做,因为外放音读短信可能牵扯隐私。以上可以看出,cortana已经可以联系上下文并且主动发起会话。通过触发基于上下文的提示,可以帮助用户发现隐藏功能,上面的例子中用户就知道了cortana可以读短信。

另一个选择是向用户解释他们应该说什么。许多使用自然语言的系统开始像早期应答系统一样给用户各种提示。例如,他们不会再问“你需要什么帮助?”,取而代之的是“你需要什么帮助么?你可以说:查询银行收支、申请支票、汇款等。”虽然对用户而言,即便科技已经很发达了,但提示用户“你可以尝试说。。。”仍是比较好的启发用户发问的方式。

最后的思考

语音交互界面VUI (Voice User Interface) 并不是全新的概念,它的前身是交互式语音应答IVR (Interractive Voice Response) 。二十世纪九十年代,交互模式的语音应答IVR正式诞生,代表了VUI发展的第一个重要时期。用户可直接通过电话进入服务中心,利用数字对内部系统进行命令操作。

**▼任何需要谈判或拥有很多变量的情况**

虽然语音技术不断的进步,但离我们能够和一个设备自然对话还差很远。最成功的语音系统只能支持识别一个(至多两个)句子的长度。Abi Jones 指出,亚马逊的Alexa可以支持简单的自然对话,但仍然有所局限,她说:如果你要求它打开一个不存在的电台,它会问你你是否想要创建一个。但如果你想要跳过一首歌并且增大音量,这是两个完全分开的动作,所以只能完全分开执行。

这就意味着包含有几个不同的请求或谈判的长对话并不适合语音输入。比如,当安排与一个人的会面可以用语音,但要安排一系列相互依赖的会议时,语音就不会那么有效了,反而是找出日历来一个个选择比较容易。

澳门威斯尼人平台登陆 16

语音交互设计的流程及方法 -阿里TXD

**▼隐私和易用性**

一个在语音,尤其是纯语音的交互中很显然的问题是:一切都会被他人听到。当然,让系统播放歌曲这种命令没什么问题,但假如在一个开放的办公室里系统朗读了你的健康记录,事情就会比较糟糕。所以上下文仍然相当重要。

Rebecca Nowlin Green,一名在Nuance通信公司工作的商业总顾问,她解释道好的语音系统应该在敏感信息方面设置撤回输入的方式,包括使用其他方式展示。

易用性也是一个问题,虽然语音识别技术已经发展的很好了,但在非母语用户、嘈杂环境下或者网络不畅通的环境下识别精度仍会大大降低。所以使用环境会对系统的可用性和适用性产生很大影响。

抽出智能感受类的关键词,可以是抽象或者具象的描述。

近两年,各大公司都推出了自己的智能家居音箱,例如Amazon echo和Google home这类的纯语音设备。在未来的生活和工作场景中,此种语音交互是一个新的入口,提供了更灵活的交互方式。在未来的某一天,人们必然会放弃屏幕和手势的操作,直接通过语音进行远距离的设备控制,而这正是各大公司抢占语音市场的原因。

这是第9次的白日梦,预计阅读时间15分钟

举个例子:人与人在交流中不止是语言传递的互动,可以从面部表情、传递出喜怒哀乐;肢体语言传递出兴奋度和性格特质。综合起来,我们的交流才会更顺畅。

  • 通常用于单轮任务
  • 交互方式较为单一
  • 不能进行中途打断

**▼自我测试**

为了确保会话的自然和高效(不是恼人的),你需要做很多测试。可用性测试是当然要做的,但在这之前,你可以通过以下方法开始提高自己的VUI交互能力。自己扮演你要设计的系统去和其他人对话,将对话录下来然后播放,看是否合适。再让机器读这段会话,以此来测试。

当然所有这些方法与界面设计中用的方法差不多,我们写界面上的文案也需要考虑文风和语气,同时也要保证高效简洁,当然也要进行可用性测试。然而,在以语音为主要交互方式的设计过程中,这些方法套路也需要做如下相应的调整:

从这次的项目来看,我们在做事情的初期就需要有一个完整的目标定义,Lot设备的应用场景考量等等,这次综合升级只是考虑了单一的行政场景,解决的是咨询类的问题,因此设计的链路也是单一且浅薄的。但是产品的发展一定是要向商业化迈步的,比如:热门的导购场景,与淘系新零售的战役契合,结合淘宝生态配合多种垂直行业,机器人作为智能客服出现在售前、售中、售后的服务等等。

要解决上述交互层面的认知问题,关键在于两点,一是语音识别准确率,另一个则是自然语言处理水平。

****不要使用语音交互的场景****

在这些技术背景下,语音的互动更多的是考虑如何在与真人的对话中,体验更加顺畅。

“语音交互将改变我们的生活。”

**░ 语音识别技术简介  **

在做语音交互之前,我们需要知道语音识别技术的实现原理以便知道现有技术存在的几个重要限制。

当我们在设计语音交互时,我们需要对语音输入及(系统的)语音反馈进行设计。这就好比在设计对话,作为设计师,我们必须确保“对话”的双方都能很好的理解对方。

那么相应的,语音输入也存在两个技术关键点:语音识别和语义理解。早期的语音设备只是对语音进行听写,而对语义的理解远比识别语音要难。

在过去的20年中,对语音的识别、理解、自动回复方面有了重大的发展,在90年代,工程师和语言学家花费了大量时间来训练系统识别特殊词语。

这些被称作“有限状态语法”(finite state grammars),既系统只能识别一系列有限的词和短语。现在很多自动语音应答系统还在使用,例如一些自动回复的电信业务(银行业务查询等)。

随着技术的进步,“统计语言模型”(statistical language models)被用在更多的产品上。系统不再限定在识别特定的词和短语,而是可以将声音对应到特定的字符串。换句话说,你不用直接教siri“纽约明天天气怎么样?”这个短语,siri可以通过将你的发音听写成单词然后将这些单词匹配出相应的意思。

这一系列的识别,加上机器学习方面的进步,使得自然语言的交互成为可能。随着自然语言交互的发展,机器不止能识别我们说的话,还能够理解话的内容并做出正确的答复。这点虽然对人来说很简单,但对一台机器来说已经相当科幻。

最终画面(其中一款服装是考虑之后场景的拓展性,整个以智能感受为主)。

谈VUi前,我们得先说到GUI。图像用户界面GUI(Graphical User Interface)是60年代「人机交互」奇才道格·恩格尔巴特提出的概念,自从80年代苹果推出第一款应用GUI的电脑后,GUI一直是人机交互的典型代表。后来,随着越来越多的语音控制设备,如苹果HomePod和亚马逊Echo席卷市场,VUI正在帮助改进各种不同的用户体验。

**▼创造性格**

人们会把能与他们交谈的东西当做人类对待,而每个“人类”都是具有性格的。在VUI中同样是这样,苹果的siri,微软的cortana和亚马逊的a'lexa都分别具有完全不同的性格。

成功的语音系统拥有性格不只是为了好玩,同时也是目标导向的,冷静正式的性格可以提高效率,而亲切的性格可以让用户更愿意交流。

拥有个性也可以帮助你设计会话。在某方面,个性就像是在GUI设计中的风格指南,可以帮助你确定应该用什么词汇和语气来组织会话。而决定运用什么性格是由你的产品目标和用户特征决定的。但无论如何要记住,你的语音系统可能会被用户长时间多次使用,所以你选取的性格不能是那种随着时间推移会让人厌烦的,比如过多的冷笑话或者喋喋不休的重复。

还有一个地方需要注意,当你将系统设计的带有性格时,系统会变得更加拟人化,而用户也会把系统当做一个“人”来对待。这时用户对系统的智能化要求也会相应提高,当发现系统并不是很智能时,反而会增大挫败感,这也是为什么用户会对siri要求的格外严格。

澳门威斯尼人平台登陆 17

语音交互呈现给用户的主要是听和说,提供给用户的大多为瞬时不长久存在的信息,这导致用户没有可能去回顾设备的输出。声音对于人类来说更多是短暂的记忆,人们不可能一下子记住很多新信息,所以VUI的设计原则之一便是不能让用户有认知负荷,配合人类的短时记忆功能

▼智能家庭共享终端

语音经常被用在一些没有屏幕的设备上。智能家居设备,例如nest thermostat,只有一个小屏幕或者干脆没有屏幕,用户通过手机app进行控制。显然语音控制要比app更加合适。比如飞利浦的智能照明系统已经可以用Amazon Alexa控制了。

Abi Jones解释道“语音系统的操作门槛相对较低,且不会区分使用者身份(在隐私保护方面是劣势),这使得家庭中的各个年龄层成员都能很顺场的控制智能家居系统,而且语音的控制可以省去手持遥控器(可能是你的手机),更便于家庭轻松随意的使用场景。”

语音系统还可以让用户“隔空”控制设备,比如你可以在客厅中控制厨房中烤箱的温度,或躺在床上控制整个房间的灯,前提是接收器能听到你的声音。

在以设计师的身份参与过程中,我们更多的是以设计的视角和硬件、场景、技术等进行搭配合作,所以在过程中,会参考多方面的因素,影响最后落地的结果。

VUi设计原则

****多久才能达到星际迷航上的水平?****

正如Abi Jones所说,你研究语音交互越久,越会发现和人类简单流畅的交流是一件多么不同凡响的事情。

可悲的是,要实现像星际迷航的电脑那种能力还是遥遥无期。

有一些关键因素制约着我们,其中一些是可以随着科技的进步逐步解决的,另一些只能等到人类适应了科技的变化才能得到改善。

澳门威斯尼人平台登陆 18

如果说快捷高效、轻松自然是语音交互的独特优势,那么任务导向型功能就是这些优势的完美落点。一个良好的语音交互产品,自然是技多不压身,能覆盖的范围越多越好,提供的功能越强大越好。

****比较复杂的事务列表

另一个语音系统不能很好兼容的是相对复杂的项目列表。想像基于传统网格系统设计的电脑或手机界面,现在需要将上面的内容用机器“读”出来,画面将会相当的“美丽”。

即使没有那么巨量的数据,语音界面仍然需要用户在同一时间记住几个不同的选项,尤其是在完全没有视觉的前提下,这是很难做到的。就像是超市在配备销售员的同时,仍会附上商品标签。有些信息很容易通过视觉获取就不需要被迫通过对话,尤其是跟不太智能的电脑。

接着整理出服务相关的视觉属性。

  • 澳门威斯尼人平台登陆 ,“帮我看一下明天的天气“
  • "给我订一辆出租车"
  • “替我放一些爵士乐”

▼会话能力

内容和调性对于每个设计都很重要,但在设计语音输出时尤为重要。好的语音设计可以让用户在使用时感觉像在进行正常的对话,但对于电脑而言,像人类一样会话相当困难。

Tony Sheeder一位从事超过14年语音设计的设计师解释道:

每段语音交互都好比一个简短的记叙文,有开头、过程和结尾。人类对这些会话规则了如指掌,所以当你参加一个聚会,你会很快发现哪些人比较容易交流。现在的大多数语音系统就好比那个在聚会上说什么都是错的,别人都不喜欢和他交流的“人”。

早期的语音设计师大多有语言学的背景,Tony Sheeder最初是为互动游戏编写对话的,这也帮助他能够很好的编写出自然顺畅的会话。但设计语音交流并不总是一帆风顺的,早期的语音交互会让用户感到不舒服,因为设计师认为用户需要系统给出明确的指示,系统一般会说“是否需要查询你的账户余额?请回答是或否”这违反了会话的基本原则。Sheeder认为互动式语音应答系统(IVR)希望自己像人类一样说话,但同时希望你像狗一样回答,这点是用户感到不舒服的主要原因。

在描述完视觉设定后,来看一下听觉的方面,也就是语音的互动。

style="font-size: 16px;">普及 style="font-size: 16px;">——语音和屏幕结合交互

▼一些很难输入的内容

比如数学公式、化学方程式和曲谱等都是容易念出来,但由于包含很多特殊符号使得输入十分困难。这时语音输入就会很有必要。

智能互动设备的框架拆解

VUI设计是一个以用户心理模型为中心的设计过程,目的是满足用户喜欢快餐的心理,只有创建出用户习惯的,适应的并且便捷的方式,这种设计才有可能被大众接受,赢得消费者的信赖。

**▼设计更好的交流技巧**

许多设计师强调文案在体验中的重要性,如果你希望在产品中加入语音功能,那么你需要学习以下一些重要的规则让你的语音交互体验更好。

根据关键词的延展,得到了视觉语言的方向,但是在推导中我们发现智能和服务有些画面更像是互补色之间的关系,有一定的对立面,所以要从中调和每个关键词在界面中的占比。同时要考虑是不是有减少两者冲突的办法,所以在多次尝试后决定将1.0版本中的机器形象换成真人。

前提:能用 style="font-size: 16px;">——切勿让用户有认知负荷

在硬件组装完毕后,会进行收音的测试,在实际使用场景 – 公共环境(嘈杂环境)下用录音(ASR识别)的方式来收集不同位置的收音状况(保证同等条件下,比如分贝相同)来收集数据,最后判定这个MIC的硬件是不是最合适的。

随着智能音箱ALEXA接入超过2万种设备,亚马逊在人工智能领域实现了一次跨界奇迹,离实现“speaking to future”的梦想又更近了一步。另外,据ComScore报道称:苹果iOS 和HomePod 设备的Siri每月拥有超过4000万用户,美国家庭中更是将近1/10已拥有了一位智能语音助手,并且由于屏幕疲劳这个无法避免的问题,智能语音越来越被人们接受,语音交互技术也正变得越来越普遍。

在阿里小蜜语音助手的形态下,延伸出了很多智能相关的研究和探索,其中智能硬件也是我们想要去发展的一部分。在这种情况下,以“5号小蜜”为名称的智能互动硬件设备应势而生。

澳门威斯尼人平台登陆 19

澳门威斯尼人平台登陆 20

智能音响初体验和语音交互深思考 -李洺宇

在2.0初期,我们先整理了最直接的感官层的一部分——视觉感受,以此为基础为产品定调,以最直接的表现层为手段帮助产品建立视觉体系。

新一代的VUI更多指的是人通过自然语言与计算机进行交互,所以可认为VUI是人工智能时代下的人机交互代表

在有了初步的进展之后,我们以设计师的视角总结了智能互动类设备的基础框架,为我们之后的升级和完善进行了整体的方向指导。

VUI是用户通过语音与计算机进行人机交互来启动自动化服务或流程的工具,是直接面向用户的界面,所以是否能满足用户需求是判断其成功与否的决定性因素之一。VUI的发展过程主要可以分为以下两个时期:

在考虑界面语音互动的同时,也要考虑硬件方面待给体验的影响,比如设备的主要构成,MIC、音响、支架、外观显示器等主要硬件。

要求:可用——赋予人格化,切勿好为人师

经过综合多方位设计后,设备才能见到雏形,本身智能互动领域就是多维度的综合体,设计师参与在其中也会从单一的视觉、交互维度去向更全面的维度思考,使每一个环节串联起来,打造更好的UX体验。

原标题:「语音交互设计」之 VUI简析| L-insights

澳门威斯尼人平台登陆 21

source:gartner. com

澳门威斯尼人平台登陆 22

物理层面策略:硬件、场景

责任编辑:

下图是关键词占比的界面尝试过程灰机稿。

语音交互的主要特点在于开放式聊天功能和任务导向型功能

首先智能互动设备的核心支撑能力一定是算法的能力,而当前市面上的智能硬件大多数是以语音助理的形态出现的,因此对于设计师来说,VUI是重要的一环,5号小蜜不单单是语音的交互,也是视觉上的交互。因此在感知层面的设计上来说,是“VUI+GUI”也就是听觉和视觉的互动(但在硬件多样发展的今天,触觉类也应该是要考虑到感知层面的一部分)。

参考资料:

澳门威斯尼人平台登陆 23

我思故我在

在如今智能硬件设备,语音互动的大趋势下,我们针对实体智能互动的硬件,从想法 – 设备 – 技术 – 设计 – 场景,总结沉淀了部分探索经验。

IVR存在的主要缺点有:

在关键词的引导下,先建立情绪版,整合出表现层的特性。

相反,只有我们有了距离感,才能真正发掘出语音交互给我们带来的便利。所以如果想让人们恰如其分地使用这些智能硬件,一定要在他们有这种距离感的前提下,比如一键唤醒,“我要打车”,“订一份凉拌面”,“看一下我快递在哪”,这样既利用了手机随身携带的优势,又发挥了语音的价值。

其中,为获取原始数据,需要进行数据的采集,主要是在采集室里对语音、图像进行收录,大致技术的流程如下所示:

或是...这样的:

以上为语音互动的核心部分,其余还有用户结束对话的声音动作反馈——“再见”+挥手等;未知问题的回复处理——进行多种兜底话术的配置;中途离场的用户——小蜜15S内回复初始状态等。

本文由 @喵了个汪 原创发布于人人都是产品经理。未经许可,禁止转载

首先,语音互动的核心能力还是在算法上面,因此语音交互也是和技术能力相辅相成,5号小蜜的技术手段也比较丰富,主要是以下几种:ASR、TTS、QA、面部跟踪、面部重塑面部跟踪渲染等AI技术模块。理论上只要获得充足的人物视频+语音数据,技术可模拟任意指定人物。数据越多,面部和语音的还原度越逼真。

5号小蜜:智能互动设备的初期准备

澳门威斯尼人平台登陆 24

VUI+GUI对比传统语音交互会有一些优势体现:在互动方面,语音可以理解为面,单一面传递信息是有限的,如果语音和界面结合起来,就是从两个单一面形成了空间,可以承载更多的信息。

澳门威斯尼人平台登陆 25

在整体视觉感受设计的同时,人物的视觉点也在同步进行,我们对人物进行了性别、着装、动作、面部表情的设定,整体目标以之前服务感中总结出的友善、轻松为关键词。

设计也需要在每个场景中分别做出判断,行业通用的部分沉淀,以及行业特性的个性化设计思考,都是需要不断的去尝试和打磨的。而智能互动设备作为一种趋势,也是设计师去发挥所长的沃土。

澳门威斯尼人平台登陆 26

首先我们内部脑暴统一同步了本次升级的目标:让小蜜更智能,更有服务感。一个是本身我们在做的事情就是智能相关的研究,另外在落地的场景访客中心承载的也是服务的属性,所以在设计方面就抓取了两个心智方向的关键词:智能、服务。

澳门威斯尼人平台登陆 27

感知层面的设计策略:听觉层

澳门威斯尼人平台登陆 28

题图来自 Pixabay,基于 CC0 协议返回搜狐,查看更多

MIC的技术手段是单轨拾音,因此需要保证在有效距离内收音(机器前会张贴最佳距离的脚印贴纸,以保证对话收音)。显示器会制作可调整的15°角倾斜,考虑反光、身高视角等情况。机器总高度控制在1.8M,用户眼睛与小蜜眼睛保持平视,最佳观看高度在1.7M左右的平均值,以覆盖大部分用户的使用感受。

原标题:阿里 AI——智能互动设备的探索设计

感知层面的设计策略:视觉层

澳门威斯尼人平台登陆 29

在物理层面而言,是硬件设备的选择:液晶屏幕、玻璃屏幕(透明、非透明)、全息投影等。

澳门威斯尼人平台登陆 30

澳门威斯尼人平台登陆 31

澳门威斯尼人平台登陆 32

首先在行政楼场景中,真人会带来更多的亲切感,与服务场景更契合;

澳门威斯尼人平台登陆 33

澳门威斯尼人平台登陆 34

本文由澳门威斯尼人平台登陆发布于智能科技,转载请注明出处:语音交互设计,面对智能化的未来

关键词:

上一篇:华为首发7nm麒麟980,性能超骁龙845

下一篇:没有了