主页(http://www.cnwulian.net):数字视网膜:让智慧城市从“看清”向“看懂”进化
数字视网膜的定义,包括八个基本要素,这八个基本要素包括有统一的时间戳,有全局的位置信息,有高效的视频编码功能,有高效的特征编码功能、联合优化等,要有机制和软件可定义的一些功能,这样就比较容易进行升级。这八个基本的功能要求我们分成了三组。第一组叫作全局统一的时空ID,作为一个“城市大脑”,一个全局的视觉系统来说,全局统一的时空ID非常关键。第二组特征把高效视频编码、高效特征编码和连接优化,这三个定义成第二组功能,把它叫作多层次视网膜表示,包括视频编码、特征编码、联合优化三大块。第三组特征,是把高效的模型可定义功能组合到一起。这三个组合在一起,就不会像以前的摄像头,一个硬件做进去之后改变不了什么了,按照这种数字视网膜设计出来的摄像头,可以与时俱进,可以进行一些新功能的更新。
2.数字视网膜和传统云视觉计算系统不一样
第四个技术,现在用的不是脉冲神经网络,用的还是卷积神经网络,现在可以做到在摄像头这一端可以模型更新,这里涉及了一些模型的重用技术、模型的压缩技术。
创新是引领发展的第一动力。今年两会,科技创新成为高频热词。近年来,我国科技创新成果不断涌现,高铁、5G、人工智能等一些高新技术产业进入世界前列,智慧城市建设加快推进,应用成果惠及更多老百姓。
视觉通道是把视网膜上看到的东西,通过视觉通道送到脑的视觉,最后形成认知和感知。中间的网络传输通道是非常重要的,整个视网膜大概有1.2亿个感官细胞,包括锥状细胞和感知细胞,最后通过神经连接到了大脑。从视网膜到大脑之间的连通通道,并不是每一个感光细胞直接连接到了大脑,而是通过视神经连接过去,视神经的个数和视网膜本身的个数有一个比,大概126∶1,也就是说从视网膜每个感光细胞往大脑送的视觉连接通道大概有126∶1左右的压缩率,这个压缩不是简单的视频压缩,它是特征抽取,这个过程是今天的“城市大脑”要好好学习的。
数字视网膜并非真的要做一种仿生视网膜的硬件,而是希望能够改变目前摄像头只能看或者单一链路识别的功能。让摄像头本身拥有一定的AI处理能力,对识别到的车、人、场景主动进行特征提取。从而让摄像头上传到云端的视频数据,一路通过高效编码作为数据存储;另一路经过特征提取直接作为智能大脑的“可读物”。“云大脑”与摄像头的结合,就像是给智慧城市安装了一层新的“数字视网膜”。
过去两三年,在数字视网膜领域,很多技术在推进,希望这些技术能够落地。第一个叫高效视频编码,要做出全世界最好的视频编码放到数字视网膜里,才能叫作高效。过去二十年主要在做视频编码,在这个领域做了大量的工作,把视频里面按照帧处理的场景下,包括空间、时间、编码的冗余,用各种各样的数学工具去处理,包括使用滤波器做预测编码工具,利用熵编码去除冗余的工具,构造出一代又一代的视频编码的标准,这个工具对整个编码的效率提高是很大的,可以使编码的效率提升差不多40%左右。
数字视网膜和传统的云视觉计算系统是不一样的,传统的视觉系统一个摄像机只能输出一个流,要么是视频编码流,要么是结果流。新的视网膜系统,每个摄像头可能会有三个流,会有视频编码流、特征编码流、模型编码流,这三个流混合在一起就可以对整个系统更优化。