首页
行业动态
培训频道
嘉宾分享
原创征文
人才招聘
热门活动
技术服务
智慧运营赋能智能客服
作者:admin     来源:未知     更新时间:2018-08-16
 
2018(第三届)中国客户联络中心行业华东峰会 互联网金融新服务与新营销论坛(平行论坛)主题分享

分享嘉宾:中国科学院语言声学与内容理解重点实验室研究员-郁飞
分享主题:智慧运营赋能智能客服


 
各位互金的领导同仁,大家好,我是来自声学与内容理解重点实验室研究院的郁飞。下面介绍一下我的一些心得和体验。介绍一下我们单位,中国科学院声学研究所成立于1964年,是从事声学和信息处理技术研究的综合性机构。声学所大家听到得会比较少一点。我们这个实验室是语音领域唯一一个省部级的。我们这个实验室现在总人数大概在二百多人,副研究员有19人,研究员10人,三个人是海外留学归国的。我们还有一家产业化的公司叫中科信利技术有限公司,成立于2002年。跟我们这个实验室的关系是两套牌子,实验室做的成果得做产业化的成果转换。它是专门做产业化的出口转换。我们这个实验室学历也比较高,语音学科的纵深领域每年毕业20个博士,十五六个都是从我们所出来的。这个领域来说,互联网BAT几乎都是我们走出去的人。70%以上都是硕士博士学历。
 
我们的研究方向其实从2002年开始一直在研究声学,从最早的音频的感知到认知,声学领域,深度学习究竟什么是深度学习,之后会细说一下。我们研究领域从事听觉感知到自动语音识别再到社会计算,我们是覆盖了端到端的学科。这次的互联网金融论坛,我会说一下现在在智能客服领域对于互联网金融的新的变革和体验,因为大数据时代已经到来,AI已经到来。在智能客服中实际的应用是如何呢?人工智能跟AI的智能增强,从人的听感知来说,一般利用这种深度的语音识别技术,两个方向。一个方向是语音交互、语音识别,但是怎么样人去感知,更多是在建模这一块,包括声学模型和语言模型建模。我们这边是做了一整套的智慧运营的体系,智能营销开始。首先是这种机器的自然语言交互,智能音箱,连上机器做一些有意向的判断做智能审核,做一些问答类的问题。再通过这种深度的大数据分析做一些智能化运营的人机协同。在这种交互过程当中去捕捉客户的行为轨迹,再到自动终端的处理,还有这种海量的数据,做一个深度的质检做一个深度的数据分析,形成了三维一体的体系。前端是实体机器人、客服机器人,免予座席端的是中段智慧响应与协同。上面说的更多是智能客服在智慧运营体系的运用。而这种运用现在来都源于AI人工智能,AI人工智能更多来源是深度学习。深度学习是什么?

深度学是来源于计算机神经网络,它来源于生物圣经网络,人的大脑有无数的神经元结构构成的,人有自学习的能力,而计算机神经网络模仿的就是这种生物的神经网络,能让机器人跟人一样有自学习的能力,掌握这种自学习的能力。我举个例子,咱们去买芒果,但是不知道什么口味的芒果好吃,会把所有的芒果都尝一遍,得出一个结论,又大又软又硬的芒果好吃,下次去就会买这个芒果。机器学习是什么呢?我要让机器去把芒果尝一遍,最后得出一个结论,机器的这种感知,这种芒果是好吃的。但是具体怎么去操作呢?首先给机器定一个规则,软硬程度是什么样,大小是什么样,怎么样好吃。这个就是神经网络。在学习方法这一块,现在一般来说一种是有监督学习,一种是无监督学习。从CNN到DBN。有监督学习是有规则地去学习,语音识别来说,在纵深领域,现在为什么说我弱智能时代。机器人它需要人去教,而这个教的前提下是怎么能让它听得懂。这种是有监督的学习。举个例子,在呼机领域有很多专有化的名词和服务,知道这种专有化的服务要体现出来。这种是固定化的场景,教机器去学习,这种就是有监督的学习。什么是无监督的学习呢?可以这样来说,机器没有一套限定的规则,通过这种语料,通过这种深度学习建模的基数去抓一些规则。无监督的学习是有效的,但是实际来说,现在深度学习慢慢地偏向无监督的学习。只有把无监督的学习做好了人工智能才能真正变成强智能的时代。

 

 
我经常在外面跟人讲PPT的时候,经常开玩笑说,我从来不认为人工智能,因为人工智能还有很长的路要走。现在是弱智能时代。怎么能让它变成强智能时代。那是一个很长很遥远的路。举个例子,你带孩子去,第一天看见一只哈巴狗,你告诉他这是狗。第二天看见一只波斯猫,孩子说这是狗。你说这不是狗。第三天,孩子看见一只金毛狗,这是狗,这是对的。孩子有一天能完全辨识这是狗还是猫,这就是弱智能到强智能的过程。这个道路任重而道远。其实语音识别是从2002年就开始研究的方向。大家对科达讯飞了解得比较深,它是2009年开始做的。真正从端到端的学科是中国科学院声学研究所。

现在主流的技术是深度网络学习包括混合架构的深度学习,具体想了解的话咱们私下聊。这是BLSTM的架构,更多用于在这种实时的语音流,这样的话更好地可以去在深度学习的层面来说,底层的架构更好地去训练一些学习模型。TDNN+LSTM也是大家研究的方向,现在主流的都是BLSTM,现在在做一个深层次的研究。声学模型的自适应,可能很多人经常问我,语音识别到底难点在哪儿。有四个。第一个,方言能不能解决?其实这是一个很矛盾的问题。现在能解决的问题就是普通话或者是带口音的普通话,方言可以去支持但是产出和付出是不成正比的。我见过很多互金行业,不知道今天有没有宜信的,在互金领域肯定有很多专业名词,但是也可能存在方言问题,现在机器人在识别层面能解决的就是普通话或者带口音的普通话。而且要去训练。

所谓的声学模型一方面是训练客户的口音,一方面关键是一些业务词汇。它需要大量的成本投入,这是后续要做,如果在智能客服这一块要深挖的话,这是非常重中之重的点。而语音合成来说,这个技术层面来说,现在来说可能国内做得比较好的是科达讯飞,5.0是接近人声了,科达讯飞是4.4。一个是海量的音库,讯飞有一个强大的音库,还有底层算法改进。但是在整个智能语音体系来说,能用录音的还是要尽量用录音。因为合成的音色还是有机器人的感觉。特别是外呼机器人,我一听到是机器人给我打电话,立马就挂了。这是一种体验。现在都是录音或者和录音结合的一种形式。语音理解后续会说。大家可能更多地对于语音理解就是字面上。其实自然语言处理到自然语言理解,再到认知语言学再到社会语言学,这是一个过程。

中文的NLP、NLU难,它的难点是在什么地方?第一个其实更多地是中文分词。我举个例子,老板有意见他,老板对他有意见,这就是中文的分词的博大精深。要解决这个问题怎么解决?基于统计学去解决。第二个词性的标注,更多是在于我对他有感觉,我真的感觉到了。这个其实就是同音词,在词性标注这一块也是比较难的点。第三个是句法分析,它是剖析句法,比如说我永远28岁,永远是副词,28岁是时间节点。比如说银行欠我多少钱,这个钱50万元或者50万、元就是在句法剖析方面要做更深层次的解决。第四个是重意合而不重形式。

比如说苹果多少钱一斤。可能有很多种说法,一斤苹果多少钱,这个就是在于汉语文化的博大精深。从NLP到NLU从处理到理解的难度,怎么去理解它,怎么把NLP处理的东西更好地去理解,从而能让机器人能听得懂,这个就是很难的一个点。NLU的出现对NLP有一个很大的促进作用。因为NLP结合认知语言学其实能解决一些初级的问题,但是很多复杂的问题还是解决不了的。我举个例子,比如说我想去吃饭,可能它的说法是我想去下馆子,这就是一个层级的说法。这是在NLU层级应该去做的。比如说我的心情不好或者说心情拨凉拨凉的。这是一个很难的点。我们要做好语言理解更多是基于规则和统计学去做。规则学的成本很大,统计学成本很低,怎么样去结合是一个不断完善的过程。

关键词检索这一块没有什么可说的,一些热词、敏感词包括VC用语。这种场景分割现在来说又叫话的分离,把客服,在一个声道里,怎么样去给它分成A角和B角。我说一下情绪分析,这个有一个笑话正好在上个月。更多地是负面信息,比如说你的情绪有波动。上上周给一个大客户去讲一个方案,客户说行业内有一家竞争对手跟我说,他们家的机器人能根据这个人的声音判断他是高兴还是兴奋。机器人是做不到主观情绪的判断。比如说我没有见到你,我电话跟你在沟通。通过电话沟通没有看到你面部表情,人都不能判断你这个人是什么样的情绪。机器人肯定做不到。如果机器人哪天把这个问题解决了,那么机器人就真的有感情了。

语音交互的技术难点,大家对于语音交互来说,在智能外呼和呼入,更多是ASR、NLP、TTS。其实它的难点不在于这三块。现在语音识别分朗读式和口读式,它的难点在于对话管理,要解决这两个问题是非常非常重要的。我重点说一下在智能语音行业的一些应用,就是结合刚才说的整体引擎有哪些应用。首先在呼入这一块,更多的是导航,还有一块是外呼。呼入来说,结合我的经验,后面会有很多做过的实际案例项目的经验,包括我们呼入的现在能解决的问题。实际就是银行类、查询类的。咨询某个理财产品的功能,比如移动查花费、流量,目前就是能解决的就是咨询类。其实我是在2016年的时候听过一段话,下面坐了一群人,我问一个问题,你们三秒内给我一个答案,答案是一致的,这绝对是机器人可以解决的。

如果一致不了的,这就是深度学习。在呼机这一块,催收来说是一块,还有保险保单回访还有满意度调查,现在在回访类来说固定类的场景,而且我跟你是平级的。咱们的车,我是车检人员,给你做一个满意度回访,这是可以做的。而在营销类的,你指望机器人帮你卖东西,那纯属扯淡。人都卖不明白,机器人怎么干。我告诉你有一个东西,你有没有意向去买。催收能做的就是M1到M1的过渡。提醒你你的信用卡帐单到期了,问你是不是有意向还款。只能做这两点。我讲的更偏技术,这个是一个数据的处理流程,在于智能语音交互处理流程。因为你要考虑你的数据流怎么给我们,一般要做一个语音平台的对接。大的平台商是支持MRCP协议,它是连接的一个中间协议层。如果不支持MRCP协议,我们通过API去接,当然工作量会大一点。遇到过很多瓶颈在对接的时候,像华为这些大的平台厂商,有时候不太愿意支持你。就会存在一定的局限。像现在搞出来一种新的思路。比如说我在做语音网关,我只需要介入语音流。后续要考虑语音交互这一块,重点是对接这一块。其次是语音理解。

VUI的设计是整个语音交互非常重要的点,首先是智能打断,第二个是能不能处理的清就应该拒识、超时、按键错误。这是一般的设计三遍的流程。包括超时,你长时间没说话,我就提醒一下。还有按键错误,对于银行包括互金,涉及到敏感的信息,建议都用按键,不要语音输入。还有全局命令,语音交互来说,其实更多的时候客户是不知道怎么去问的。不知道怎么问的前提下应该怎么样引导客户。比如说转人工帮助。包括这种标准和明确的提示语,自由跳转的跨层。这一块是一个重中之重,其实就是刚才说的,这其实是一个非常难的点。在语音交互来说怎么样提高语音交互的效率各家都有深度的深挖,更多是做了可视化的界面。比如说我想查话费,想查一下话费多少钱,什么状态,主谓宾的状态,挖掘出一套整体的逻辑思维。有些银行跟我反应,用它的东西比人干这个东西还累。就是因为技术的局限性。

在主动营销这一块,这是我大概的思路,大家可以大概地看一下。其实在外呼这一块,首先是呼不通的情况下,挂断的情况下,还有通过机器人筛选做一个记录,再及时回拨。当然还存在一种情况下,初步意向转人工,然后由人工去筛选。我们可以结合前端和后端去做这样一个整体化的运营体系。你光靠机器人肯定是做不好的。多轮交互也是非常难的点,如何结合上下文。

比如说前不久接触一个二手车,这个人去买一辆二手车,第一通电话刚开始因为什么原因没买。第二次交流的时候又是一个什么原因没买,如何更好地结合上下文解决多轮交互的问题,这也是一个技术难点。多渠道接入,现在炒的比较热的话题是全媒体智能语音客服,到后端变成语音质检。什么是智能客服,语音理解加知识库。质检分析这一块可以和呼金的同仁们分享一下。

这是直接在后端应用的,分三个层级。重点是在第一个层级和第二个层级。我需要把非结构化的数据转成结构化的数据。首先是话的分离,然后关键词检索、情绪分析。怎么能去做好它,是重中之重,是在第二个层级。如果要做质检和分析,质检的建模和分析的建模,这是非常重要的。如果这一块做不好,后端的东西没法用。通用功能和定制化的问题,没有通用的智能化客服,只有特定的业务做很层次的深挖才能产生一定的商业价值。这是对于智能化体系来说可能了解得比较浅的地方。大家后面要做这个东西,这是一个高成本的投入。分四个层级重点是在数据分析,还有数据建模,这其实是第三个和第四个层级是现在最难做的一个点。全媒体呼叫中心智能语音在线辅助,这是今年以来需求比较高的。

因为它对软硬件要求比较高,通过语音转文字,结合上下文的问题,顺序地调取一下。其实它的解决力很低,得考虑它的产出和它成不成正比。特别是多轮对话,其实已经剖析这么多层面,人的说话行为有多种,可能分很多个层次。有些人并不是很固定的,打电话过来说想查话费,如果他去投诉你或者对这个问题有意见,可能不会一下子提一个问题。可能一段话当中同时描述几个问题,这时候机器人就傻了。这五六个问题怎么去做一个深层次的解挖,前不久接触一个质检分析的项目有一点就是未能解决客户的问题。这就是要把客户的数据、客户的画像都整理出来,数据当中怎么体现它的价值。

完成80%就算解决客户的问题了。这是非常难的一个营销点。还有在线辅助这一块还难在对接这一块,现在华为的平台厂商,一般不做支持。这一般是做一个外挂。这是我们做过的一些商用案例,其实在整个民用市场来说,我们相对而言合作伙伴比较多。一号互联就是我们的合作伙伴包括光发银行等等一系列的应用。

 
阿里在2013年以前是没有语音识别的,现在阿里的处理器都跟我很熟。2013年以前是我们给它搭的95188的客服系统。我们每年都要去几个人,阿里的很大技术出口是我们的部门。这是我们去年做的比较典型的案例,是河北高速智能客服系统首创的。其实它的呼叫中心基础率将近有93%。它解决的就是ETC查询、路况查询,因为河北高速只有30个座席人员,三班倒。没有上线这个系统之前,平均一天要接七个小时电话。去年的9月份和10月份统计了一下每个月几乎有百万人次。质检分析的案件做的第一个案例是广发银行信用卡中心的。这个项目至今来说还是我们典型的宣传项目。

当然互联网BAT最早都是我们做的,百度其实在2010年到2015年是用我们的技术。第一个语音是百度,同期才可以做语音。第一个语音并不是科达讯飞。腾讯其实也是用的我们技术,2011年,我们给腾讯提供的语音识别。最早的语音交互的记事本都是我们机构,当然腾讯也是2011年底开始初创这个团队的。平安用的是平安科技,我们给它输送了能力,供它去使用。中国移动用我们的服务上线了20个省。智能硬件这一块,其实现在来说,因为去年去了全球机器人的展会,现在还是一个很难的点。因为各家都在烧钱。我们一直之前最早做硬件的是我们,2014年做了海信的第一个原厂交付。

大家平常应该都开车吧,车上的语音交互我相信大家都不怎么用。可能更多地说应用于家庭安静环境下,这又是一个大的问题。因为国外的芯片成本很高。前两天一直在研究电风扇,看了一下智能声控的电风扇,最便宜的小米350。如果有一天有人把它做成二百块钱,很快就能走了。未来随着智能语音技术的深度学习的技术提升,包括硬件处理的提升。现在大家了解的都是CPU,现在上升到另外一个层级,GPU。再往后50年看可能就是量子了。随着软件和硬件自身技术实力的提升,人工智能在不断发展。语音不仅仅可以对音频进行处理,也可以对视频里面的音频可以处理。

我的分享就到这儿,感谢大家!
(0)
上一篇:智能语音助力金融行业新生态
下一篇:没有了
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
用户名: 验证码:点击我更换图片