寒武纪副总裁钱诚带来《深度学习处理器》

2019-03-31 10:11　出处：互联网　人气：　评论（）

冰冻三尺非一日之寒的意思并重打一成语并重打一成语不不的成语不必花力气打的东西是什么不假思索的读音不见泰山不情之请

主页（http://www.cnwulian.net）：寒武纪副总裁钱诚带来《深度学习处理器》

3月21日，清华大学《人工智能前沿与产业趋势》系列讲座二讲，由寒武纪副总裁钱诚博士为大家介绍了目前芯片行业的发展状况、遭遇的瓶颈、打破瓶颈的思路以及急需解决的三个科学问题。最后由清华大学电子工程系教授汪玉以及贝塔斯曼副总裁侯晓林分别站在学术和投资者的角度，分享了有价值的观点。

首先由清华大学海峡研究院大数据AI中心专家委员、百度七剑客之一、酷我音乐创始人雷鸣老师做开场，简单回顾了一下上一讲的内容。

接下来，寒武纪科技副总裁、上海市脑科学与类脑研究中心研究员、钱诚博士，为大家讲解《人工智能前沿与产业趋势》。

集成电路不缺人才，千亿级别的市场规模

钱诚提到这几年国内已经培养起来非常专业的团队，现在具备二三十年设计经验的行业人才很多。芯片设计已经不再困难。

钱诚认为智能芯片对整个社会的重要性，好比工业时代的发动机，是一个门槛非常高的核心部件。一旦掌握，你就构建起了一座坚深的护城河，甩开别人几年的技术差距。

智能芯片是一个千亿级别以上的市场行业，现在很多的资本对未来智能芯片生态已经提前做布局，一个典型的例子就是由于被看好物联网终端芯片生态ARM被以上千亿人民币的价值收购。

芯片是人机物三元融合智能计算系统的基石

钱诚提到随着计算能力的发展，未来终端能力越来越强，会逐渐走向多元具象。比如未来可以用汽车去点外卖、智能眼镜去开这种视频会议；而当你切换到家里的场景，家里面的主控电脑会取代眼镜和汽车完成对视频会议场景的无缝切换。

而要实现多元具象，就需要一个人机物三元融合智能计算系统，中间需要非常多的智能芯片做相应的计算处理。

智能流：自动提取信息中最有价值的部分

如果传感器的信息在整个计算系统之间进行流动，那么这些做智能处理的硬件设备会自动把最有价值的一部分提炼出来，这种处理方式被称为智能流。

未来十年大家希望是把智能芯片的速度和性能功耗比至少提升1万倍以上，才能把现在相当于人脑规模的计算能力浓缩到类似手机大小的终端设备里。

智能芯片目前的瓶颈

第一个瓶颈是摩尔定律等规律渐达极限,芯片性能不会再像摩尔定律那样快的提升。目前即使晶体管数量提上去了，但同一时刻很多晶体管无法同时供上电，芯片能力的提升被各种问题如散热等束缚。

第二个瓶颈是架构。指令集并行和多核并行逐渐走向极限。大型计算系统的并行效率目前大约50%上下，浪费非常明显。而我们希望新型的智能芯片既能通用，性能功耗比又能达到每瓦每秒1万亿次以上，这一点是目前已有的芯片很难满足。

第三个瓶颈是应用场景的变化。原先的桌面平台能帮处理很多应用场景。现在应用场景发生了变化，集中在端和云，端和云的需求不一样，对芯片的定义也完全不一样。

打破芯片瓶颈的思路

如何解决这些瓶颈，目前的主流观点是做领域专用计算架构，即针对某一种领域中的一大类的应用，把性能功耗比提升上去。另一方面还可以考虑利用整个计算系统里的规律性，例如对数据进行分发，根据内容做压缩算法。

做智能芯片目前有三种主要的路线，第一种希望能够通过在半导体介质里实现真正的智能，比如说采用高密度CMOS工艺，把人类的智能用电路给模拟出来，像IBM的"真北"芯片，做了一个简化的神经脉冲模型。但因为我们现在对人类智能产生的真正的原理不是很清楚，所以往往这些模型的识别效果一般，比如上面提到的IBM模型的图象识别精度不到90%。

第二种是GPU，目前在业界占统治地位。GPU是一个并行结构，有非常多的流处理核心，并行计算能力非常强。但是GPU也面临着两个问题，第一个是功耗。目前最强大的深度学习GPU普遍功耗是在300到400瓦，未来很难进一步降低。第二个是性能提升曲线不再陡峭。现在深度学习处理器计算性每年能有2到4倍以上的提升，而GPU则越来越难以达到这样的提升。

第三种，也是目前绝大多数做智能芯片的公司在做的，叫做"深度学习处理器"，应用领域集中在深度学习处理的范围内。寒武纪就是在做这类芯片，包括谷歌的TPU、地平线、深鉴科技等，基本都是做这类芯片。

计算智能远不如人类智能那么"智能"

钱诚认为，目前的智能算法，深度学习和机器学习，本质上是计算智能，从原理上和真正的人类智能不一样，只是最终输出的结果类似。它可以被针对性的欺骗，比如把一幅猫的图像改一个像素点，机器可能就识别成一艘游艇；计算智能同时也会在复杂的人工智能应用边界条件下失效，比如目前真正上路的全自动驾驶算法都已经出现过致命的事故。

那么这种情况下就要求智能芯片必须能对多种传感器来源的数据都做到智能处理，最后进行智能融合，从而有可能做到一秒钟完成百次以上的智能控制判断的循环，这样才能最大限度避免人工智能应用出现问题。

像电影头号玩家里面描述的场景那样的VR技术实现起来不难，难的是应用/游戏内容跟人产生很好的互动，比如通过无人机对整个城市做3D建模，然后移植到虚拟环境中，再通过人工智能和人进行互动。

急需解决的三个科学问题

第一个问题：如何用有限规模的硬件支持现在规模越来越大的神经网络类型的算法。因为就算500平方毫米的芯片，也就一百多亿个晶体管，但是现在神经网络的算法规模却越来越大。

第二个问题：如何用一个结构固定的芯片，去支持千变万化的算法。

第三个问题：如何在降低芯片功耗的前提下尽可能提高算法的精准度。

钱诚讲到，寒武纪主要通过三个方面来解决上述3个问题。首先是对硬件神经元的虚拟化，把算法拆成最基本的深度学习加速计算算子（约200多种），然后将算法在芯片上能够分块分批进行计算，最后完成对整个算法的加速计算，以此来突破硬件规模的限制。

其次定义指令集。指令集只是电路定义的外显形式，其对应的底层电路能够拼接成不同种类的神经网络算法。通过指令来灵活的支持不同类型的算法就解决了第二个问题。

分享给小伙伴们：

本文标签：

物联网资讯

智慧城市

智能建筑

智能家居

智能医疗

智能交通

智能电网

智能物流

寒武纪副总裁钱诚带来《深度学习处理器》

更多文章

相关文章