雷锋网 (大众号:雷锋网) 按:2018 全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,失掉了深圳市政府的鼎力指点,是国际人工智能和机器人学术界、工业界及投资界三大范畴的顶级交流盛会,旨在打造国际人工智能范畴最具实力的跨界交流协作平台。
6月30日,2018 全球人工智能与机器人峰会(CCF-GAIR)持续停止。在上午的计算机视觉专场中,臻识科技结合开创人兼CEO任鹏开展了主题为《 边缘计算赋能智慧城市 》的主题演讲。
依托本身在嵌入式成像零碎设计技术上的优势经历以及多年在AI算法的耕耘积聚,经过边缘计算技术的产品转化(智能相机),臻识科技努力于为智慧城市体系中的各大垂直使用范畴:智能交通(ITS)、智能安防(IVS)、智慧商业、智能制造(FA)提供愈加智能化的前端成像设备及处理方案。
在演讲中,任鹏引见了臻识科技的智能相机。什么是全智能相机?任鹏以为,不同行业关于智能相机的要求多种多样,满足一个场景使用感知需求的相机才是全智能的相机。为了可以打造全智能相机,这其中也会遇到很多的困难,任鹏概括为 成像、算法、制造 三小气面。
在成像方面,任鹏以为,比拟难的成绩是智能相机的成像评测缺乏规范,但是成像一定要满足算法的需求,其次再来满足人的感官需求。
在算法方面,臻识科技的做法是先明白需求,确定数据集、功能目标、本钱目标,同时停止嵌入式平台的方案选型和评价,接上去停止PC的仿真、算法的完成,最初是嵌入式平台的移植优化以及算法落地。
在制造方面,臻识科技经过视觉和控制的结合,用“智能”制造“智能相机”。如今,臻识科技的相机消费线上曾经完成局部自动化,任鹏表示,今后将会在这方面持续投入精神。
以下为任鹏的现场演讲文稿,雷锋网作了不改动原意的整理和编辑:
任鹏:大家上午好!明天次要跟大家讨论我们在做一款智能相机的进程中碰到的困难以及尝试。
我们的产品很复杂,就是智能相机。能够在座的都用过我们的产品。我们的产品虽然很小,但是散布在整个城市的各个区域,改善了人们停车的体验,让整个停车的进程变得愈加便捷,这也契合智慧城市的理念,就是以人为本。
但是如何从一个概念变成落地的东西呢?这就需求感知才能的提升,这也就有了云计算和边缘计算的概念。前端的智能相机是边缘计算外面的一个重要存在。
什么才是智能相机呢?有一个提法是我们的相机在不同的场景里都可以用,在我们的了解里,这能够是理想的形态,它并不契合整个行业途径开展的需求。
比方说在智能交通范畴,停车场需求的相机是什么样的?它能够需求对车辆身份接近伴随着互联网和移动生活的日趋成熟,芝麻信用高分和良好的个人征信记录,不仅可以办理贷款、申请信用卡延伸你的财富,更能大大便利我们的生活。99.9%的精确度,由于它触及到领取,所以对辨认率的要求比拟高,对车速限制比拟高。卡口则相反,对辨认率的要求要低一点,而对车速限制比拟低。对交通的流量控制、信号灯的规划等等,这些范畴对车辆的辨认又有另外的需求。所以单从交通范畴,它就曾经细分出很多场景。
再比方说安防范畴,像安全城市、雪亮工程、社区楼宇、工地、校园、医院等等场景,其实每一个场景关于相机的需求是不一样的。所以我们的定义外面, 满足一个场景使用感知需求的相机才是全智能的相机,这里的感知次要描绘的是它能去到达或许逾越人的需求。
这里有一个金字塔的描绘,最底层是像素,两头层是对象,再上一层是行为。
目前在智慧城市范畴,大局部的使用都还停留在两头这一层,就是对象层,而且很多场景外面底层的使用(像素层)成绩都还没有完全处理。 以后面几位嘉宾举的例子来说,比方说一团体脸前端抓拍、云端辨认的使用,假如我们前端抓到了人脸,它是不清楚的、模糊的,其实对这个零碎的辨认是十分有压力的。比方说有的使用是前端的人脸辨认,云端依据辨认的后果再来做决策,假如前端的辨认老是出成绩、有误报,也会影响整个智慧城市运作的效率以及决策的精确度。
当然要完成这样一个全智能的相机有很多难点,从我们的经历动身,从上面三个点展开: 成像、算法、制造。
成像方面,比拟难的成绩是智能相机的成像评测是没有规范的,假如有规范的话,大家任务的方式就是朝这个规范努力,比方说手机相机有一些专业的评测机构定下了一些规范,安防相机也会有一些目标,比方说解析度、灰阶、白均衡等等。但是智能相机的规范是什么呢?我们的成像什么样才算好的?最初我们定出了一个规范,首先 我的成像要满足算法的需求,其次再来满足人的感官需求。 这是一个很客观的概念。
在做一款相机的时分,我们先要处理它的硬件、构造、热设计、光学等等成绩,当处理完这些之后,相机的ISP是一个中心的成绩,普通场景的ISP的中心是拍照或许摄影时,感知这个场景是什么就可以了,包括最近有一些手机厂家,他们的相机里参加了一些场景的辨认功用。目的就是辨认场景之后,能选择一组更合适这个场景的ISP参数,然后让成像更好。
但是智能相机的目的是把这个场景里我一切关注的物体拍清楚,它基于的东西就是物体,所以智能相机的ISP的中心是基于物体的感知。这又变成了一个是先有鸡还是先有蛋的成绩。一个场景里只要一个物体还好,但假如有多个物体,对以后很多ISP的架构设计是需求有推翻性的。
在安防场景下,很多使用需求低快门的完成,由于有运动模糊的呈现,我们要拍出更明晰的目的,所以我们的快门限得比拟低,很多时分会限定在5毫秒以下,有的场景甚至会采用全局快门的相机。在这种场景下,我们还要面对场景照度比拟低,反差的场景比拟大。其实这是很困难的,比方说我站在这里,我看门口,由于有强光打着我,其实我是看不到里面的状况,在相机上也是一样。
所以我们如今处理这些成绩的时分更多地是采用场景的细分、物体的辨认,然后再经过经历上的东西指点ISP的设计,以到达理想的效果,这也是一个阶段性均衡的效果。
下面一排是同一个场景,不同的相机不同的ISP调整出来的效果,上面这个是一个宽静态的场景抓拍的效果,这两个场景快门都是在5毫秒以下,其实是很有应战的。
这是一团体脸抓拍的场景,人脸抓拍辨认的难度是很大的。当然方才旷视和云从都讲到了,他们的辨认算法很凶猛,但是对这种只要20到30像素,不同的光照下、不同姿势的辨认是十分有应战的,整个零碎的辨认率其实并不高。这还是在白昼,到了早晨,对这个场景的要求会更高一些。
假如我们的人脸抓拍的相机抓拍到的人脸图片都像一寸规范证件照的图片,其实这个辨认成绩会变得比拟复杂。
这下面两幅图,大家觉得哪幅图会好辨认一些?能够大家以为是右边的图好识一些,的确也是这样,右边的图是我们产品的效果,经过我们的努力,我们在很多场景外面,经过我们相机抓拍的图片,直接把人脸辨认零碎的辨认率提升了5%到10%。当然我们的相机也是全帧率、全画幅。
讲完了成像,再讲讲算法。算法不是面对一切场景的不同算法,我明天讲的次要是在嵌入式设备上,智能相机的开发进程中算法要处理的一些成绩。
首先是一个根本流程,我们在做智能相机的时分,首先会明白需求,确定数据集、功能目标、本钱目标,同时我们会做嵌入式平台的方案选型和评价,接上去我们会做PC的仿真、算法的完成,最初才是做嵌入式平台的移植优化以及算法落地,根本上都是这样的套路。
难点有很多,首先是数据,数据下面我们吃过的亏比拟多。举个例子,事先我们在一款相机产品晋级换代的时分,由于传感器停产了,我们停止了晋级,传感器的变卦形成了ISP的变卦,最初形成成像作风的变化,最初形成整个零碎辨认率的下降,其实这也可以了解为是网络过拟合形成的成绩。
数据的多样性、平衡性以及顺应场景的才能,以及它和硬件自身传感器成像的关联都是十分关键的。我们也提出一个结论,一个公司自身的数据管理程度直接反映了算法程度,也反映了对场景的了解程度。
比方说像学术界的一些测试,数据集是定义清楚的,做起来比拟容易,但是理想场景外面数据集是不确定的,在项目施行进程中它是在不时变化的,因而也提出了更高的要求。
第二件事是方案选型。我们团队评测了市面上大约80%的芯片方案,我们对芯片方案的定义做了两个界定:
一个是要满足5瓦以下的功耗,功耗太高了不行,它对整个零碎的热设计有很大的应战。
第二,我们做的是实时的业务。往年市面上主流的芯片方案的算力大约是50到150GFLOPS,到明年我们预估这个目标会到达200到500G。这和很多芯片厂家宣传的不太一样的,我们的研发同事也赞扬的会比拟多一些,由于芯片厂家宣传芯片算力很强,但是实践拿过去测试,发现效果并不令人称心,这外面的确存在很多成绩。
我们在做嵌入式落地的时分常用的套路,当一个算法完成之后,我们要做上板的优化,普通会先做算法的近似,然后做指令集的优化,内存、缓存的优化等等。但是在深度学习这个范畴,内存的带宽瓶颈是一个十分大的成绩,假如没有反动性的打破,芯片的开展还是契合一个摩尔定律简单来说,创业有四步:一创意、二技术、三产品、四市场。对于停留在‘创意’阶段的团队,你们的难点不在于找钱,而在于找人。”结合自身微软背景及创业经验。规律的,才能不会一年翻10倍、20倍。
芯片厂家其实很难跟上算法厂家的节拍,比方算法厂家在做算法的时分,能够每个月算法都有一些变化,都有一些改造和尝试,但是芯片是很难的,消费一个芯片的周期到正式量产、成熟的产品化能够需求一年的工夫,周期是很长的,所以这是一个临时的瓶颈。
一个产品需求满足行业普世的需求,它不会专门为你这个产品来做,所以很多共同的网络构造上专门做优化,它的功能会提升很多,这种功能提升能够在50%甚至到100%,但是在以后的芯片上要完成这种灵敏性的顺应是很难的。
有的提法是说数据越来越多,芯片的算力越来越强,是不是产品做起来就越来越容易了?我们的判别不是这样。比方说当我们的产品在一个场景落地之后,客户的需求是在不时升华、不时细化的,当然这也比拟契合兽性。在很长的一段工夫内,算力还是不能满足需求的增长。所以我们就会关注网络,当然这里我不详细讨论网络的构造,我只提我们在做这种嵌入式产品时,对网络的了解。
由于算力不够,在无限的功能下,我们的假定有两点:一是更好地学习和充沛发掘功能特征,并且在一个产品上,我们对这些特征在不同的环节更好地复用,可以大大降低计算的复杂度;二是非端到端的架构,在产品外面我们对每一步、每一个环节是可控的,在这个可控的根底上一步步优化和发掘网络功能的边界。这是在算法上我们的一些尝试和心得。
第三是如何制造。我们光把这个东西设计出来不行,我们还得把它造出来。
供给链是一个比拟头疼的成绩,原来我们没有停止制造,做了之后我们也能深入了解如今很多手机厂家所谓的饥饿营销,其实也是身不由己。当处理了一些供给链的成绩,然后就是如何把产品制造出来。
我们如今经过视觉和控制的结合,用“智能”制造“智能相机”。这是我们如今的相机消费线上的自动化流程,当然整条流水线我们还没有全部完成自动化,但是这是我们要努力的方向。
最初提一提将来的方向。
我们的判别是,双目的视觉会是一个十分重要的方向,这是我们2017年10月份安防展推出的一款用于停车停车场行业的“瞾”系列产品。这款产品的特点是将深度信息和物体的检测结合,在停车场里到达了接近百分之百的车辆检出率,这对行业是有推翻意义的。
除了深度的使用,以后在安防上,我们也在尝试经过多个传感器的交融,来到达在很低照度下完成更好的成像效果,从而打破人的感知才能。
明天我的分享就到这里,谢谢大家。
。