中科院王亮：基于视觉大数据，我们下一步该做什么？

2025-08-04 13:16:39

导读4月8日，在北京航空航天大学新主楼会议中心，由北京图象图形学学会主办的“第十三届图像图形技术与使用学术会议”中，中国迷信院自动化所博导、研讨员、形式辨认国度重点实验室副主任王亮与我们分享的论坛报告《Analysis and Understanding of Big Visual Data》，对视觉大数据范畴有更为片面和透彻的剖析，也让我们对视觉大数据剖析有明晰地看法和理解。AI技术如今曾经进入了一

4月8日，在北京航空航天大学新主楼会议中心，由北京图象图形学学会主办的“第十三届图像图形技术与使用学术会议”中，中国迷信院自动化所博导、研讨员、形式辨认国度重点实验室副主任王亮与我们分享的论坛报告《Analysis and Understanding of Big Visual Data》，对视觉大数据范畴有更为片面和透彻的剖析，也让我们对视觉大数据剖析有明晰地看法和理解。

中科院王亮：基于视觉大数据，我们下一步该做什么？

AI技术如今曾经进入了一股热潮流，与AI相关的使用范畴也犹如雨后春笋般层出不穷。例如在实地使用场景方面，安防范畴是落地场景最早的使用范畴，除此之外，还有机器人、无人机、医疗、智能制造等方面，关于AI技术的使用落地，前期也会呈现过江之鲫的汛势。 在人工智能如此衰亡的时代，计算机视觉也是个可关注可完成的重要层面，它所触及到的视觉大数据剖析范畴十分具有研讨意义。

无处不在的视觉监控

从王亮的会议报告中理解到，我们在感知内部世界的时分，至多有70%的内部信息都是来自于视觉，所以计算机视觉是一个十分重要的研讨方向。从第一台光学成像设备发生的那一天开端，人们就在不时的改良成像零碎，包括如今的红外成像、RGB成像、深度成像和雷达成像等等。希望可以愈加真实的记载这种客观世界，同时也希望借由不同的成像零碎、从不同的角度、不同的时辰可以记载我们看到或许看不到的景象。

所以说，随着成像设备的不时更新，视觉大数据时代曾经悄然到来。在我们身边最分明的例子，就是无处不在的监控摄像机，四处都是CCTV camera零碎。与我们每团体毫不相关的，就是这样一个无处不在的视觉监控。

另外一个方面，视觉数据打造了一个爆炸性的时代。比方说我们每一天大约有300万左右的新图片发生，而每一分钟大约有50小时新的视频发生，再比方说，每一天，我们的监控视频有350TB这样发生的一个进程，每一天进进出出的任何一个交通平安的场所，都有不计其数的这样一个生活数据发生的进程。所以说，视觉大数据曾经到了这样一个迸发的时代。

当然，视觉大数据在很多范畴有十分重要的使用。有两个例子，一个是在监控范畴数据的一个增长，以及视频监控在以后一个工业输入的市场占有量的状况，再比方说，我们平常看爱奇艺这一类的在线网络视频。关于这样一个进程而言，它消费的规模也是随着逐年在增长的。虽然我们进入到了视觉大数据这样一个时代，而且视觉大数据在很多范畴都有它潜在的使用前景或市场。但是，真正来讲要做到从大规模的视觉大数据中无效的去采集去剖析或许去了解为我们所用的信息，还是比拟有应战性的研讨任务。

视觉大数据可以复杂归结成四个“大”：

一、在规模上的一个“大”数据集；

二、在视频数据的类型方面的变化“大”，比方说旧事视频、播送视频、体育视频、文娱视频等等；

三、在属性方面，能够具有多元和益智的特性，比方说红外线成像、RGB成像等；

四、在图像或许是视频质量上的千差万别、“大”不同，比方说光照的变化、姿态的变化等等。

正是由于这四“大”，所以给视觉大数据的剖析也带来了一些应战性的成绩。但是大数据剖析的使用前景十分普遍，比方视频监控、平安入口的平安反省、信息滤波、无人机无人车、机器视觉导航等等。可以说，视觉大数据的剖析和了解是十分重要的，在近年来也展开了许多与其相关的学术研讨会议，比方说《Big Vision 2012》、《BIG DATA COMPUTER VISION 2013》等等。

大数据时代的应战与时机

近年来，人工智能再次衰亡，而它的两个次要的驱动力辨别是高功能计算和大数据。大数据这个名词在前些年的运用是十分普遍的，而且很多中央都成立了大数据相关的科研机构或许学科。可以说，高功能计算和大数据时代也招致了深度学习的复苏。深度学习以前自身只是一个神经网络，而神经网络自身的两个缺陷：一个是皮层复杂度比拟高，另一个就是小规模的数据集容易招致模型的吻合成绩。大数据时代的到来，高功能计算的飞速开展，使得深度学习恰恰可以满足了那两个弊端的成绩。

所以深度学习是在高功能计算和大数据两个关键技术到来的状况下，得以复苏，而且驱动了很多范畴的疾速开展，包括计算机视觉、图形学、语音言语处置等等。视觉大数据在很多方面也获得了宏大的成功，包括语音、言语处置等，热点在表达学习，应用弱小的神经网络的深层次的分层级的表达学习的才能，来替代传统表达的一个进程。

2012年，ImageNet网络的运用使得精确度从74%浅层的网络模型，到85%深度学习模型这样一个极大的进步。所以在2012年当前，卷积信息网络在我们计算机视觉的图像与视频更一级的了解进程中发扬了重要的作用，比方说在人脸辨认方面，在目的检测方面等等都有很普遍的使用。但是CNN有一个宏大的特点就是，只可以无效的处置比拟有构造化的数据来源，比方说图像信号等，但是在时序建模方面，相比于其他的工夫模型来讲，还是有缺陷的，所以在2015年前后的时分，循环神经网络再次惹起大家的留意，所以RNN在不同的使用场景失掉了普遍使用，比方说行为辨认、看图说话的图像、视频描绘等等。

视觉大数据面对的应战：

一、难于读取或是检索无效数据

二、难于建模，多态和多元的噪声数据

三、难于计算，数据量的规模比拟大

四、难于运用，在一个视觉义务上学到的模型很难泛化到不同的视觉人物。

中科院王亮：基于视觉大数据，我们下一步该做什么？

目前，复杂的关于图像、视频方面的剖析任务也可以称作感知这个层面技术差不多曾经成熟，而初级复杂的视觉义务是十分难的一个进程。这外面会牵扯到认知这一方面的内容，所以基于视觉大数据来探究认知是很有意义的，这也是AI技术在将来世界能够取得的时机。

总体来说，视觉大数据在将来的使用范畴是十分普遍的，也是更易取得成功的。基于视觉大数据，下一步，就是认知范畴的开辟。

中科院王亮：基于视觉大数据，我们下一步该做什么？

5月25日，相约北京·千禧酒店，与安防大咖共话安防AI创新千人峰会，人脉、资源、投资人都在这里！亿欧呈献一场安防行业盛宴。

在安防、警务、刑侦、高端智能装备、新一代信息技术、新能源、新材料、新制造、新零售、新技术、生物制药等新的产业集群正在迸发活力;创新驱动、科技支撑、知识产权转化、技术转移等新的动能正在超越旧的动力，新经济成为支撑经济发展的重要力量。交通场景，AI无论在视频、图片、语音、文本等方向的打破，还是在资本和需求的推进下，都展现了创新改造者姿势。这次浪潮来得尤其猛烈，我们置信，AI正改动安防，AI正为安防带来创新。

点此理解概况： GIIS 2018·安防AI创新峰会

凡来源为亿欧网的内容，其版权均属北京亿欧网盟科技无限公司一切。文章内容系作者团体观念，不代表亿欧对观念赞同或支持。

免责声明：本文章由会员“李同明”发布如果文章侵权，请联系我们处理，本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系

标签：