慧聪电子网首页 > 行业资讯 > 十大每日报 > 正文

云知声康恒:AI已来 未来已来

http://www.ec.hc360.com2016年10月22日22:20 来源:慧聪电子网T|T

    2016年10月21-22日,由慧聪电子网、慧聪LED网、慧聪智能硬件网主办的“第三届HCFT智能硬件供应链大会暨品牌盛会”在深圳大中华喜来登酒店隆重举行,本次大会主题“未来已来”,探寻电子与智能,传统制造业与互联网科技跨界共生的未来前景,电子硬件上下游产业链创新发展模式。第三届HCFT智能硬件供应链大会盛大开启,亮点颇多精彩纷呈。

    慧聪网HCFT智能硬件供应链大会是电子行业智能硬件领域一年一度的行业大事,来自智能硬件全产业链上下游的150家大咖企业参会,涵盖了电子、IT、智能硬件、物联网、云计算、金融、电商等领域,更有来自政府、专业协会学会、学术科研单位、企业、的领导人与管理高层近2000人参会,与50位国内外电子及智能领域顶尖演讲嘉宾同场分享,共鉴璀璨时刻,成就行业盛事。

    在会上,云知声IoT副总裁兼联合创始人康恒发表了题为《AI已来,未来已来》,他表示,他谈到人机交互的趋势是从感知智能到认知智能,智能语音在交互上具有得天独厚的优势。智能语音识别通过与物联网和大数据相结合,将拥有更加广阔的应用领域。 

康恒

云知声IoT副总裁兼联合创始人康恒

    以下是演讲实录:(以下内容根据现场速记整理,未经发言嘉宾确认,仅供参考)

    自我介绍一下,我是来自云知声的康恒,云知声是一家致力于物联网人工智能的一个技术和服务商。

    今天说到智能硬件,其实和物联网的概念是深深的联系在一起的。在物联网IOT领域,人工智能是非常好的一种人体交互方式。结合现阶段人工智能和智能硬件,或者是物联网发展情况来说,目前也是从人机交互的切入点进行合作的最好时机。我们可以简单的了解一下,从人机交互的趋势中看到人工智能的发展趋势。

    现在的人工智能,虽然说概念比较火,但仍处于比较早期的阶段。比如说三位感知,从人的智能的角度来说,人的智能可能分为感知、认知,以及更深入的通用理解。所谓的感知,其实对应着人的听、说、读、写能力,比如说我在和朋友交流的过程中,可以听得清朋友在说什么,听得到我说话的内容,可以看得到外面的车、人,可以通过摄像头监视到旁边有没有其他不合理的活动,这都是感知智能,所以说目前仍是人工智能早期的阶段。

    感知智能涉及到的是类似于语音识别、图象识别,或者是手势识别、体感识别等。随着人工智能的进一步发展,现在也慢慢的从感知智能向认知智能过渡。

    所谓的认知智能,就是前面说的在感知的基础上进一步分析,比如说把我们听到的内容或声音做理解,进一步进行分析、推理,甚至是决策。这是基于我们看到和听到的内容而进行的分析,比之前的感知有更进一步了。

    最后是人工智能发展的终极目标,希望能够达到类似于人这样的学习和思考能力,也就是说最终会达到通用性的状态。

    这是智能硬件和物联网发展的一个终极目标。

    根据第三方给我们的统计数据,从2014年开始,人工智能逐渐进入大家关注的阶段,比如说平常听到的深度学习,今年看到google的AlphaGo等一些新的技术和算法,或者是云计算给整个人工智能行业带来的计算能力的增加以及数据的增加,这些其实都是非常好的现象,促进了行业的发展。

    资本层面也看到了行业发展的大趋势,所以从2014年开始,整个资本行业对人工智能也有很大的深入关注。比如说2015年,人工智能公司获得了差不多12亿美金的投资。我们知道人工智能是一个特别小的行业,它的准入门槛现在还比较高,在这样一个小的行业下,公司的数量是非常少的。从2014年、2015年一直到2016年,我们看到更多的是巨头,或者是国内BAT等上市公司,为人工智能投入了很大的关注。这也是这个行业能够获得飞速发展的一个重要的依赖作用。

    人工智能和物联网其实是相辅相成的过程。为什么我不断强调人工智能和物联网这两个概念?或者说我们之前很少把这两个强概念关联在一起,这两个概念确实是有着非常深刻的联系,甚至具有互相的推动作用。

    第一,无论是产品形态,还是设备的数量,物联网都非常快的在增加和增长。但是物联网的设备与传统的PC、PAD,或者是手机的产品形态有非常大区别的,最大的区别就是他的交互方式。很多新的物联网的设备,它在人机交互方面没有现在经常使用的键盘、触摸屏,也没有传统家电中的摇控器,这些设备都不存在。我们希望设备的交互方式能够更简单、自然。

    现在经常使用的交互方式还是通过手机进行间接操作,使用APP连接到设备,然后在这个APP上进行操作,这个是我们经常看到的,也是物联网交互的方式。但是对于广大的最终用户来说,这个还是非常繁琐的,而且也不是最终用户期待的方便的方式。基于物联网的产品形态以及数量,其实是对人机交互这样一个方式产生了非常强的技术革新的诉求。也就是说在这样一个大的环境下,人们期待通过一些新的技术的产生,能够推动人和物联网设备的更自然的交互。我们可以看到,随着物联网的爆发,这种新的交互方式就发展起来了,人工智能发展到现在,很大程度上依赖于物联网的发展。

    第二个因素是在于物联网设备和传统PC,或者是传统的家电数量,其实是远远的存在着差距。物联网可能是一个千亿、万亿级市场,可能每一个用户的身边都会有超过1个亿以上的模式,无论是日常的家电、电视、空调,包括机顶盒,或者是手上的手表、眼镜、可穿戴的设备,都是我们日常使用的。每个人都会有超过1个或者是多个设备在使用。所以我们看到数量非常大,同时这些大规模的数据源源不断的通过连接的方式传达到云端,这些数据通过一些新的人工智能的算法,又反向的促进了人工智能进行本身的发展。

    所以基于刚才所说的几个因素,可以看到人工智能和物联网确实是深深的结合在一起,一方面满足物联网行业的人机交互的新的需求;第二个,反过来也促进了人工智能技术本身的发展,这个是我们这个行业的现状。

    现在这个阶段物联网设备的形态,比较多的还是电视、手环,路由器、智能空调、手表,包括今年特别火的扫地机器人,还有一些新的形态。虽然说传统形态还是占据主要地位,但是可以看到新的产品形态,发展速度已经是越来越快了。

    回到刚才所说的话题,人工智能在物联网的行业,主要有这么几个应用方式,或者是技术:

    第一个是语音识别。很简单,就是让机器可以通过麦克风收集到人的声音,知道人在说什么,人可以通过语音的方式直接和这个设备交流,进行语音控制,甚至是语音搜索。

    手势识别。这在一些特定的应用上也发挥了非常大的作用,比如说在一些特殊的行业中,比如说医疗,做手术的时候,还有一些娱乐的游戏。

    图象识别。比如说电子监控,比如说平时交通出行的时候遇到的车牌识别,进入停车场的收费,包括电子监控,我们的摄像头可以适时探测到哪一个场景里面有异常的人,包括车辆以及一些行为。

    体感交互。比较多的是娱乐的范围内应用。

    在所有的刚才提到的感知的交互方式里面,我们可以说把语音方式去除之后。

    第一点,因为语音本身在现在的阶段,它的发展已经到了一定程度了,在当前的技术条件下,在更加典型的应用上,比如说智能电视,语音识别的识别率可以达到95%的准确率。这个数字意味着什么?也就是对于一个正常的人来说,我们的准确率基本上是95%到96%之间的识别率。我们知道人的识别率一定不是100%的,经过综合的统计或者是研究,人的自然语言的识别率是95%到96%左右。现在的自然语音处理系统,在相对比较安定的环境下,比如说家庭环境,可以达到95%的准确率,距离人只有一点点差距,或者说我们认为这样的差距是可以忽略不计的。

    在相对嘈杂的环境中,语音识别的准确率超过93%,这个技术到今天为止已经进入到非常可用的状态,而且也已经看到在很多的场景下正进入使用阶段,比如说家庭场景下的一些娱乐控制,车载条件下的导航、信息的搜索,包括很多人经常会使用到的语音输入法,这些都是通用的。

    另外,语音识别里面有一个非常好的特性,对于产品设计来说大家都知道,就是成本。语音识别只需要增加一个软件,非常便宜,可能是一块钱,或者是最多两块钱的成本,在一些比较复杂的场景下,我们需要支持超过3到5米的条件下,可能他对语音识别的麦克风的要求会更高一些,需要有一些麦克风阵列的支持,但是整体来说相比其他的交付方式,比如说图像或者是手势,它的成本要低得多,因为图像或手势还需要一些摄像头等等光学的设备。

    所以在自然交互方面,语音有他非常独特的优势。

    语音对广大用户来说,它的学习成本也是非常低的。因为是日常的人和语音的交互,比如说一些老人或者是小孩,都是不太需要教的,就可以很自然的学习到,这也是非常重要的一点。

    在物联网的人工智能大环境下,不仅仅是技术本身和应用结合起来,更需要把它放在大数据或者是基础架构中和应用结合起来,特别强调的是人工智能、物联网和大数据这三个特别重要和尖端的应用场景的结合,在大的环境中进行分析。

    物联网可以给人工智能提供一个特别好的环境,就是我们有很多的设备可以源源不断地给我们提供一些数据。这些数据通过人工智能的算法,反过来就可以给我们的技术,或者是一些基础的框架提供一些支持;另外,这些大的数据在特定的应用场景下,可以使得我们的应用不断了解我们用户的使用习惯,这也是我们的应用体验大幅度提高的非常重要的一个支撑点。

    语音交互是人工智能应用的比较成熟的一个产品,拿语音识别或者是智能语音交互这样一个应用点给大家做一个简单的介绍,因为本身这个技术框架是比较枯燥的,所以我来做一个介绍。

    对于一个自然语音的人机交互来说,主要是分成四个主要的阶段,包括听到、听懂、思考和反馈,这个是类比人的交互方式,或者是类比了人的交互机制。

    所谓的听到,就是在用户和设备进行交互的时候,用户所说的每一句话,我的设备都可以准确的捕捉到,拾取信号的声音。

    在听到之后,设备可以听懂,类比人和人的交流,需要人的智商,而不是过耳就忘。

    听到之后要能够理解刚才所说的用户的意思。

    然后是思考,在理解了用户表达的意思之后,还要知道怎么样做一些动作,甚至是反馈。比如用户问今天的天气怎么样,他既要听懂,还需要把用户刚才提到的问题做一个反馈,无论是上网也好,还是通过其他的手段查询也好,这个对机器来说还是一个思考的作用。

    最后一个是把思考的结果反馈给用户。

    自然语音的反馈就是云的播报,也就是最终大家提到的查询天气的结果,在用户层面就是通过语音的方式来播报“今天的天气是台风,大风10级到12级”通过这样的播报。

    整体来说语音的交互是这样一个过程。

    相对来说在行业里面,云知声在人工智能和感知智能方面确实是取得了比较大的进展,在这个行业中也获得了很好的口碑。比如说识别的字错误率在逐年的下降,现在主流的语音识别,国内一线的厂商几乎都能够达到95%以上,这个还是在不断的降低的,有可能在明年96%,后年97%,到某一个阶段之后,机器的语言识别的准确率就会超过人的语言识别的准确率。

    识别速度也进一步提升。人机交互非常重要的一个特点,就是对反馈时间的要求是比较严格的,如果说一个系统对语言识别,用户说了一句话之后,他需要很长的时间才能反馈,即使他的准确率再高,对客户来说也没有任何意义。

    另外是在语义的理解上,刚才提到的整个语音交互领域非常重要的一点,就是要能够听得懂,要能够思考,所谓的语义就是听懂和思考。所以还是以刚才为例,语义的过程就是对用户所说的指令能够进行分析,把这样的分析进行结构化的表达,再把这个结构化的表达送到搜索的引擎里,再把这个结果进行反馈,这个是语义的价值。

    云知声在语义领域有一个非常重要的突破,最早提出了语用计算的架构和概念,所谓的语用计算,和传统的语义理解有一个区别,语义理解是基于单句话的理解,语用的计算是需要基于语境来给出分析的。

    假设我的一个用户说“太冷了”,这是一个非常简单的,而且容易理解的一个用户语言。在不同的环境中,可能对于用户这句话的理解会有非常大的区别。假设户外的情况下,我说“太冷了”,希望机器给我反馈的可能是“今天的天气是多少度”“下午最高温度是多少”“今天出门应该多穿一点衣服”,需要得到这样的反馈。

    但是如果我在开车的时候,我说“太冷了”,我希望机器给我的反馈是什么?比如说“关闭车窗”或者是“打开暖风”,或者是“升高温度”,类似于这样的反馈。

    到室内,比如说在房间内如果说太冷的话,希望是“打开空调的加热功能”,或者是“关窗”等。

    通过这样的例子,可以非常简明的告诉大家,语用计算给大家带来的价值,就是让我们的设备或者是物联网的装置,在应对自然人机交互的时候可以更加的自然,更加容易在一个语境或者环境的条件下理解用户的用意,这是一个非常重要的点。

    这是一个基于语境的语用计算的框架,我们刚才所说的语用计算在用户环境中了解用户意图依赖于一些因素,除了我刚才所说的所在位置、环境之外,有可能还要基于一些上下楼,你现在是在一个什么样的条件下说这个话。还是基于特定的任务,基于什么样的情感因素等等,所有的这些条件都对语用的结果产生比较重要的影响。

    最后简单的介绍一下云知声,云知声是基于物联网人工智能的一个服务商,我们的产品形态比较体系,云端,终端和芯片,三个方式给客户提供服务。

    云端:所谓的云端就是提供了一些基础的接口,语音识别的能力、语音理解的能力以及语音播报的技术能力。

    终端:把终端能力以及用户的需求,包括用户的交互的方式,进行全面的设计。以及在用户上感受到的界面的设计需求,结合起来变成一整套的完整的产品解决方案,在一些车联网、机器人、智能电视这样的设备上提供给客户。

    芯片解决方案:在当前的阶段,我们以一种模组的形态把语音交互的方式内置在硬件的模组上,以软硬件的方式一起提供给客户。刚才说的主要是一些家电,比如说空调类,格力空调或者是美的空调的厂商就是我们的客户。我想在这个方面和在座的很多供应链伙伴会有很深的合作关系。比如说现在和格力、海尔、海信都有比较多的合作。

    应用领域:

    车联网。主要是在后装市场,车载后视镜,车机等等。在这方面我们有非常重要的亮点,就是在后装的市场上,云知声的市场份额,现在是占据了超过50%以上的市场份额。

    在医疗领域。目前在医疗领域已经有了很多的成功案例,比如说北京的协和医院、人民医院,是通过语音输入的方式帮医生解决写病例,输入处方,包括云操作等的功能,来解放医生的双手,为医生节约时间。

    教育。通过语音识别的方式去评测用户学习外语的情况,这也是一个非常有意思的应用。

    总的来说,云知声在物联网和人工智能的方向上,一直在不断的探索,不断的给用户提供一些新的价值。

    今天特别感谢慧聪网给我们这样一个机会,给我们这样一个平台,向大家介绍、传达云知声、人工智能行业跟智能硬件行业如何能够深刻的结合。今天也算是抛砖引玉,希望今后能够得到大家更多的支持,谢谢大家。    

责任编辑:李嘉

热门活动更多>>

第三届HCFT智能硬件供应链大会

时间:2016年10月21-22日

地点:深圳大中华喜来登酒店6F大宴会厅