智能语音行业应用的机会，看这篇近万字文就解了

2016-11-19 11:14　出处：互联网　人气：　评论（）

名片王欢迎您替身庶女爱上帅总裁天才小捣蛋中文版天才小捣蛋中文字幕天才之樱花盛开时天罚之音联盟天降奇女之网王卷天降神龙天赐天龙缘飞刀情

主页（http://www.cnwulian.net）：智能语音行业应用的机会，看这篇近万字文就解了

然后我们的重点会放在通过对用户消费数据的迭代，不停地提升我们语音和语义能力，让产品的体验更好。当我们的产品体验能够形成行业口碑的时候，快速的铺量自然不会是问题。当然，作为新加入智能语音行业2B市场的我们来说，能有各行业巨头优秀合作伙伴进行深度紧密的合作，赢得这些我们尊敬的公司的认可，已经是一种“成功”。[愉快]

-如何看待亚马逊echo、google home的切入点以及前景呢？

提问1

-智能语音的行业应用的爆发取决于哪三个因素？

语音语义识别如何利用到智能汽车的场景中？

-基于语音识别的智能客服产品如何市场化？

张青涛大疆创新工程师

王砚峰：目前开源软件普遍重训练，这部分对实时性要求不高，实时性更多体现在解码或者inference上，这部分想实用化还需深度优化，而且解码的过程也一定要结合识别本身的任务还有计算平台来深度定制，实时性（时间复杂度）和模型复杂度要做综合考虑，目前我们团队快速训练小规模数据时会考虑tensorflow，inference阶段我们是自己开发的解码器，但是tensorflow的inference在跨平台上的工作还是很不错，适合快速验证能力模型。但是一旦到了训练几万小时的线上模型的时候，并行训练平台也都是我们自己的，也并不采用tensorflow。

-为何语音交互没有在智能手机上快速普及？

-为什么聊天机器人不停地被大家遗弃？

不过这几个场景爆发的顺序有先后。我认为是先是车，然后是智能家居，然后是可穿戴。车的场景最明确，需求也最明确，产品定位也最明确，所以语音的目标也最明确，从产业步伐上来看，目前车内导航语音普及率也是最高的。智能家居目前围绕电视和音响，具体的需求就是搜片和听歌（以及FM等），加上echo的带动，这方面的需求也比较明确。但是目前有些过热，比如一个以听歌为主要产品场景的音箱，已经被大家定位成了未来家庭智能的入口。可目前产品本身做得不够好，所以其实用户消费还是比较惨淡。不过长期的价值我是看好的，只要大家产品观正确，先打造一个好产品，再考虑入口的事情，最终还是能够有一个更高的普及率。可穿戴我认为是最晚的，因为市场上产品还没有成为刚需，比如智能手表，给用户带来的价值，其实是远小于我们内心中的预期的。语音的价值更不可能在产品就产生价值之前呈现出来。

刘雄中金研究员

第二，语音的鲁棒性的问题需要进一步的解决，比如远场，噪声，多说话人等问题。当然这个过程是一个渐进式的。

这是智东西创课第24期课程实录，分为主讲+问答二部分。主讲嘉宾是王砚峰，搜狗公司桌面事业部高级总监，桌面研究部和语音交互技术中心负责人。读完近万字全文，你可以掌握到：

所以我们会更务实一些，第一个目标是在导航，以及用户在路上产生的常见问题比如顺便加油、听FM，回微信消息等做到良好稳定的用户体验，把这方面的用户价值做起来，然后再去考虑服务延伸的事情。

徐凯百度云计算事业部高级产品经理

这是我认为一个好产品所具备的最基本要素。我们回到机器人这个产品上。当前的聊天机器人只是解决的产品金字塔最顶层的“有趣”的要素，但是更底层的“刚需”以及中间层的“稳定”都远远不足。这也是为什么聊天机器人不停地被大家遗弃的原因。为了不被人遗弃，我们的小冰MM只好每两周都升级一个新技能，让大家持续保持新鲜感。否则很容易7日之痒。

语音交互界面设计一直有一个术语叫 VUI，就是讲述怎么来设计语音交互的界面，这是一门科学。有兴趣的的话可以在网上搜一下看看，病毒方面，我觉得目前是不需要的考虑的。因为病毒能够流行起来因为PC和手机都是应用程序的平台，病毒的存在方式exe和app，病毒就是程序。当前语音分发的是内容，不是程序。所以暂时不需要为这些问题担心

提问10

-Mor、三角兽等自然语义处理引擎初创公司的前景几何？

王砚峰：当然对网络有要求。除非像导航这种特殊的需求。其实导航上对于离线语音的需求，也是因为存量市场很多导航都是离线的，以及一些偏远公路网络信号差，所以不得不使用离线的语音。但是从识别的品质来看，在线的识别能力一定会比离线的强很多，计算力的差距摆在那里。更好的识别能力，就能够带来更好的语义理解以及内容返回。而且所谓智能语音，绝大部分后面要接一个搜索，可能是垂直的搜索，也可能是通用搜索。如果没有网络，搜索和服务的能力也不能接入，那又何谈智能。

王砚峰：任何新的产品，都是先有一些喜欢接受新事物的用户来体验。这部分的用户的容忍度比较高，可以忍受产品的不完善。如果你的产品体验最终不能满足大众傻瓜的需求，那也只能停留在极客层面。但如果产品体验足够流畅到大众能接受的时候，那么就会普及。我觉得普及是我们的价值追求。当然如果想追求情怀，那是个人选择问题。但是把技术带给更多的大众使用，提升大家生活品质，我觉得才是最有价值的。

王砚峰：目前的产品设计这块普遍是没有包含这个逻辑的。就像我之前说的，其实当前这方面的产品还没有解决好实用性的问题，因此更高层次的人性化更是无从谈起。

第三我们有丰富的产品经验，会想办法通过产品设计，对话的设计来提升语音交互的体验，就像之前给大家看到的语音修改。这里我再举一个智能导航的例子，如果我们更清楚的了解用户在导航时候的习惯以及问路的方式，就有机会让导航的交互体验更好。

毛杨华为业务规划

具体而言就是CPU已经不够了，你要用高性能GPU或者FPGA作为线上服务器的计算模块。而如果是离线端，想要保证达到和在线接近的效果，也只能是利用嵌入式GPU以及FPGA的方式去做。这方面随着模型复杂度的提升，专用芯片可能是个趋势。比如在线服务下并发量很高的情况下，可以用并行化的算法跑在GPU上面。但是离线端都是本地处理，谈不上高并发，所以可能FPGA就会更经济更合适。当然，具体情况具体讨论了，没有一个完全统一的准则。

所谓智能语音其实就是给语音加了大脑，能够理解用户通过语音表达出来的意图和需求，并且可以把对应的内容返回给用户。所以已经不仅仅是语音本身的范畴了，而是结合了自然语音理解，搜索等多种技术，最后通过语音的形式表达出来。一个典型的例子就是siri的语音助手。在这里面强调的是一种自然交互的方式，越自然越智能。在siri之前也会有一些语音交互的研究以及产品，但是都是单纯的基于命令菜单式的，这都不能算是智能语音。

-三五年后语音识别市场会形成什么格局？

提问3

智能语音作为入口这件事情实际上已经发生了，比如在目前车内的后装导航，出货有很大一部分比例都是智能导航，通过语音来进行交互。尽管用户体验以及效果还存在一些问题，但是已经具有一定的可用程度了。

黄力博汇科技 BD

想问下现在语言交互方面，AI对于对话环境的识别做到了什么程度？比如当我们晚上睡觉前和它对话时，它会不会就温柔一点，声音轻一点？而在开家庭聚会时它会不会就欢快一些，声音大一些（如果聚会时环境比较嘈杂）？

大家好，我08年进入互联网行业，之前在搜狗负责输入法后端的研发，然后又支持了多个搜狗号码通，手机助手，浏览器等用户产品，所以我是一个彻头彻尾的互联网从业者，今天会站在互联网公司的角度谈谈我的观点。从2012年开始，搜狗开始做自己的语音识别引擎。智能语音这两年成为了一个热点产业，吸引了国内外广大公司以及投资者的关注。同时这方面吸引眼球的新产品层出不穷，巨头们也在不停地布局。因此今天我不讲具体的技术或者产品，而是站在产业以及市场的角度给大家做一些不成体系的分享。为了具有一些针对性，我拜托智东西的同事们收集了一些大家普遍关注的问题，针对这些问题做一些具体的解读，把我个人包括搜狗公司的观点带进去。希望大家可以从我的片言只句中，看到我们背后的思考以及逻辑，甚至是技术观产品观和价值观，给大家带来一点点的启发。

问答环节实录

3、当事实语音交互时，除了数据通讯加密，信息安全是否也需要杀毒？

提问6

韩云飞 e道伴侣语音交互设计师

机器的视觉和感知能力还远远达不到这个水平。所以即使做出来，也是很生硬的规则，你会发现放到真实环境中效果也会很一般。

于小利缤特力声学工程师

提问13

智能语音处理对硬件平台有什么要求？例如延迟、精度、实时性。

王砚峰：首先解释一下97%的问题。搜狗对外也宣称97%，这个数字实际上是人工评测得到的数据，确实我们和讯飞都是在97%这个数字上面。但是放到更真实复杂的环境，比如远场、方言、多个说话人等问题，准确率就会打折扣。所以语音识别的鲁棒性问题，还是一个从技术上需要进一步长期投入需要持续解决的一个问题。

王砚峰：目前已经有一些应用，但是还是不够成熟，只是刚刚开始。一方面语音识别的效果需要更准，电话信道语音质量较差，另外用户说话的方式会更加随意，而不是像对着机器这样去讲，因此识别的效果都会打折扣。另一方面用户的复杂查询理解上机器还做不到，机器可以做到的就是来一个知识库中能够匹配的用户问题，然后给答案。但是替代人工客服解决用户多轮来回复杂交谈的问题，还处于非常弱的阶段，这块需要智能对话技术的进一步突破。

陈楷煌广东工业大学工业设计专业

第一借助于搜狗输入法垄断的市场地位，我们每天能收集到的用户真实语音数据有十几万小时，里面包含了各种用户真实场景下的噪音，口音等，这帮助我们极大的优化了我们的鲁棒性，因此我们的语音在真实环境下表现非常出色；

-智能语音在车内，客厅内，以及可穿戴三个场景会快速规模化应用，但如何做呢？

科大讯飞的语音输入宣称准确率达97%，应用到智能机器人等设备，需要怎么做，才能达到理想的智能对话？

王砚峰：这几个指标其实最终统一到一个描述，就是“计算力”。在当前深度学习的背景下，网络结构的复杂和参数的增加带来的就是精度的提升和实时性的下降。想要解决这个问题，只能是计算能力更强的硬件。

最后谈谈搜狗在智能语音的应用上的布局。搜狗的主要产品是输入法+搜索引擎。面向未来的人工智能而言，搜狗的核心战略就是：自然交互+知识计算。自然交互完成人和机器之间的环节，知识计算完成机器和信息之间的环节。其中智能语音其实就是这一技术路线的入口，主要完成的是自然交互的部分。所以可以看到，智能语音是搜狗当前发展战略上的核心能力之一。所以一方面我们会不断地投入更大的研发力量，让我们在语音交互方面的能力具有技术上的制高点，另一方面我们也看重能力的在产品中的使用和落地，让我们的技术尽可能的给用户带来更多的价值。目前在用户产品上，我们的语音输入每天用户使用次数已经到达了1.8个亿，是互联网上最大的语音输入产品（当然这一点得益于搜狗输入法在移动互联网上的垄断的市场份额）。语音搜索目前也是仅次于百度处于第二的位置。同时在今年7月份我们发布了“知音语音引擎”，旨在和产业界中优秀的的产品和合作伙伴共同打造更好的语音交互产品。在车载方面我们和自己的地图合作，推出了车机版全语音交互的导航；同时我们和四维图新强强联合，能力互补，一起把我们的语音方案推到车载设备中，这一方案已经在一些顶级导航设备厂商（比如飞歌）的产品中上线。客厅场景中，我们已经跟魅族合作并在其盒子产品中上线了语音搜索功能，在谈的还有一些优秀的电视以及互联网硬件产品公司，由于产品还没有发布出来我暂时这里不提名字，大家应该可以在年内以及明年初看到我们与其他巨头公司更多的合作产品出来。

但实际上目前不管是科大讯飞还是其他大的互联网公司，大家的技术基本没什么质的差别，所以你很难从单纯的技术上建立成熟可靠的商业模式。所以要么你就往上游去走，和搜索引擎结合起来，语音和内容服务结合起来，要么你就往下游走，和硬件产品结合起来。如果只看语音技术本身，那是不足以产生竞争力的。在未来和互联网巨头的竞争中也会很被动。

语音交互目前在手机端比起文字交互来讲，确实算不上普及。比如目前每天会使用语音输入的用户占到8-10%左右，这仅仅是UV比例，如果是PV比例那就更低。另外从前阵子老罗在锤子发布会上给讯飞做了一把宣传以后，当时讯飞语音输入着实火了一阵，这也说一般用户对于语音功能的认知是远远不够的。惊奇于当前语音输入能有这么流畅的效果，说明大家的印象还是停留在久远的过去。那手机上目前认知度和普及程度还不够的原因主要都有什么呢？

讯飞是我们非常尊敬的技术创新的公司，这里也没有任何观点的偏向性在里面，只是从技术普遍发展规律下的一个看法。

提问14

所以爆发不仅仅简单是技术层面的事情，而是从产品设计到技术能力，都要比现在有一个更好的提升。

提问8

你拿一个语音输入法，用非常自然的方式和他说话，或者在一个很嘈杂的环境中，一定是达不到97%的。所以要达到理想的对话，一方面像我之前提到的技术制高点，是需要不断去努力让技术更加得到本质性的改进的。这个技术包括语音增强、阵列以及说话人分离等多个领域，目前确实也是研究界的大热，以及工业界新的增长点。另一方面，可能要从产品设计上进行优化，在承认语音识别有错误的情况下，怎么能够通过进一步的交互来让语音识别变得更准。比如搜狗在今年上半年推出的语音修改功能。实际上这个功能对于车内、音箱上甚至“机器人”都是非常实用的。

王砚峰：搜狗语音服务的优势主要有三个：

提问9

王砚峰：搜狗是互联网公司，因此目前太重的行业（内容上的重或者商务上的重）我们还没有涉足，比如教育。但是只要是面向用户消费类的产品，哪怕最一开始模式是2B的，我们也会涉足，因为实际上这是一个B2B2C的模式，最终使用你能力的还是互联网用户本身。比如车内导航以及智能电视等。

另一条路是帮助其他公司提供能力，做一些2B的服务。这个能从阶段上弥补产业界各个环节上的薄弱，就像最早很多互联网公司也会使用语音公司的引擎一样。但是长久来看，从趋势上来讲，越大越成功的产品，越能给这些2B公司带来价值的产品，都越有走向平台性通用性的倾向，一旦定位成了平台，那就离不开搜索的资源支持了。

主讲环节实录

从技术上来讲，因为客服的问题都是聚焦在产品或者某一个垂直领域的，而不是一个通用机器人，所以目前自然语言理解能力，辅以整理的较好的知识库，是可以能够对较高比例的用户问题提供答案的，剩下解决不了的再通过人工的方式来close掉。

至于行业问题，我在之前的分享中已经多次提到了。车载、智能家居和可穿戴。坐在什么位置，取决于你在产品中带来的价值。比如对于车载导航，那就是非常关键的位置，是入口，在你手和眼睛被占用的时候，就是你的唯一解决方案。但如果是抽油烟机，语音只负责控制开启和停止，那价值就很小，我随便一抬手就可以替代掉，而且我既不会在客厅里面喊抽油烟机让它开关，也不会无聊到让抽油烟机跟我唱歌或者说话。所以本质上抽油烟机是不需要对话上的智能性的，所以语音在其中的价值最大程度上也只能是噱头，只能利用市场的不理性时机打一个时间差。

提问7

请帮问一下王总，如何看待自然语义处理引擎创业公司比如Mor、三角兽，以及搜狗引擎和他们是否有合作。

想了解一下基于语音识别的智能客服产品是否可以市场化？

现在科大讯飞在中文语音识别领域具有很突出的技术优势。同时，我们看到，国内外的互联网巨头和创业公司都在技术上加大力度研发，有不错的成绩，您怎么看三五年后语音识别市场的格局？

大家可以看到，“我要去紫竹桥那个”这样的描述方式，是当前市面上任何语音导航方案都不具备的。这也得益于数据层面的打通，以及用户行为更好的产品理解。

2、我觉得语音是趋势，但也只局限在某些行业，哪些行业将受益，我们这些技术、交互能坐在哪个位置？

2、语音交互是否像界面交互一样，需要傻瓜式引导？

陈彩可乐视车联网产品经理

另外，机器能知道的信息主要是环境是否安静，以及时间。但是光有这两个维度的信息是不足以判断周围环境适合用什么音高的。人是怎么判断的呢，可能是靠眼睛看周围的环境，也可能是靠对方一个动作“嘘”。

相对于其他语音服务，搜狗语音服务有哪些优势和劣势？

语音市场的规模，引用一下工信部以及语音产业联盟的数据。自己没有做过太多细节的考证，贴出来给大家参考一下。根据中国工业和信息化部电子科技信息情报研究所数据显示，2013年，全球智能语音产业规模整体达33.7亿美元，同比增长38.1%；2014年较2013年同比增长41.0%；2015年较2014年同比增长35.7%。预计2016年语音产业规模可达82.3亿美元以上，到2017年，全球智能语音产业规模将达112.4亿美元，复合年均增长率达35.1%。

所以目前在车上，我们和四维联合做了飞歌导航的一款产品，后面也会有几款后视镜以及车机导航产品面世；在智能电视方面，我们和魅族联合在魅族盒子上做了语音交互和搜片，另外也有几家好的合作伙伴处于产品即将上线状态。

1、抛开语音技术程度，语音目前的智能程度大概在几岁，在国内未来会有哪些行业

分享给小伙伴们：

本文标签：

物联网资讯

智慧城市

智能建筑

智能家居

智能医疗

智能交通

智能电网

智能物流

智能语音行业应用的机会，看这篇近万字文就解了

更多文章

相关文章