雷锋网按: Buy more GPU,save more money!(买越多GPU,省越多钱!)下面这句话,英伟达CEO黄仁勋在整场GTC中足足反复了9次(能够还无数漏的)。
作为英伟达每年最重要的大会,一年一度在美国旧金山举行的GTC不断都是英伟达技术实力最集中的展现。这些技术实力往往掩盖多个方向,大家关注最多的无疑是“新核弹”,更浅显的说—— 全新的GPU架构、更弱小的GPU等等。
现实上,他们都“出席”了本次GTC 2018。或许是受此影响,再加上美股大盘全体下挫,英伟达股价在整场GTC停止时期不时下滑,截止发稿全体跌幅曾经超越7%。
这样的股价表现,不由得让人们心中显现一个成绩—— 这次GTC真的有那么糟么?(现实上,有局部友媒曾经开端发文看衰英伟达了,但这样的判别真的是对的么?) 为理解答这个成绩,我们首先有必要先重新一下黄仁勋在本次GTC Keynote中提及的各种内容。
看似槽点、其实亮点:“世界最大的GPU”
正如上文所提到的,本次GTC之上没有像之前大家预期的那样,发布全新的GPU架构,以及传统定义上的“核弹”(单颗GPU、或许单显卡封装的产品)。
但英伟达实践上拿出了一款被黄仁勋本人称为“全球最大的GPU”的新产品—— DGX-2 。
组件强的不像话的DGX-2
去年发布Volta架构之时,英伟随着中国经济向消费型模式的转型, 电子商务和移动电子商务的快速发展带来了支付行业强劲的增长。达实践上曾经将DGX-1中原有的P100 GPU换成了V100 GPU。原有的V100 GPU曾经很弱小了,那么想要更弱小就只剩一种“复杂而又粗犷”的办法了:再加几颗V100 GPU,这也是为啥在DGX-2效劳器减速器中你会看到有16颗V100 GPU。
16颗GPU中任何两颗都能以300GB/s停止数据交流
GPU数量是翻倍了,但要想将他们发扬出真正的威力,英伟达还祭出了一项晋级版的技术NVlink Switch(简称NV Switch)。这项技术的目的只要一个: 让DGX-2中的16颗V100 GPU可以化身为一颗宏大的“GPU”运作。
依据英伟达副总裁和DGX零碎产品经理Jim McHugh引见,由于NVswitch技术,DGX-2中的16颗GPU之间都可以直接1对1衔接传输,每颗GPU拥有高达50Gb/s的带宽,同时最多支持18颗GPU互相衔接,让整个零碎的吞吐功能到达惊人的900Gb/s。
现场减价“促销”
最初是整个零碎的售价,黄仁勋现场表示展现用的这套实验产品实践上价值250万美元,然后先放出了一个150万美元的售价,在最初一秒直接本人“砍到”了39.99万美元。
高举着两倍显存的Quadro GV100减速器的黄仁勋
值得一提的是,DGX-2中运用的虽然还是V100 GPU,但它发作了一点小变化——原有的4颗4GB HBM2显存,晋级为4颗8GB HBM2显存,也让V100 GPU的全体显存大小晋级为32GB。(GPU其他参数,包括显存位宽、带宽均没有改动。)而在DGX-2中,16个V100 GPU中各自拥有的32GB显存都将衔接到一同,你甚至可以将它看成一整个512GB的显存空间。
那么终究这关于用户来说有多大的影响呢?英伟达官方的原话是:“显存容量添加,让运转更深、更大的深度学习模型成为能够,同时也会提升深度学习的表现。关于内存大小比拟敏感的使用,最多可以提升50%的实践表现。”
黄仁勋:关于他这样的工程师来说,DGX-2太“sex”了
抛开DGX-2的功能自身、抛开DGX-2在各种深度学习处理方案的性价比等等,英伟达在DGX-2上所采取的新战略或许更值得考虑: 并行架构后天拥有优秀的扩展性,英伟达似乎在传统的GPU架构、芯片制程之外找到了一个延续性更强的功能增长道路。
当然从另外一个方面来讲,经过数量的叠加,设备的功能确实可以疾速增长,但如何完成数块GPU之间的少量数据吞吐、同时保证这些新添加的数据传输才能不会形成太高的本钱、以及更多的功耗,将会是这一种道路的应战。
高速、高效,让自动驾驶路测走向VR时代
Drive Constellation的实践零碎组成(下图)
在众多的人工智能使用当中,自动驾驶相对是英伟达最坚决的一个方向。在往年GTC大会的演讲上,英伟达开创人兼CEO黄仁勋又为自动驾驶行业带来了一个全新的处理方案—— Drive Constellation。
Drive Constellation是一种运用虚拟理想(VR)技术的自动驾驶的模仿器,它让自动驾驶的开发者们在数据中心打造一个虚拟世界,并对自动驾驶车辆的算法停止数十亿英里的测试。英伟达方面希望,经过本身弱小的图像渲染和虚拟理想技术,让算法在虚拟环境中的测试有限接近于真实场景。
在Drive Constellation中模仿夜间自动驾驶
它的组成构造也十分复杂,外观看上去就是两台DGX-1效劳器。不过两台效劳器中的内容不太一样: 一台配置了数张英伟达的专业显卡,另外一台则装着和自动驾驶车辆相反的英伟达DRIVE PX平台。
整个零碎的任务方式也十分复杂,配置了专业显卡的效劳器结合高清地图、车辆行驶模仿算法、以及天气、光照等一系列条件,经由专业渲染构成虚拟的驾驶环境。然后这些数据以相似于真实传感器的格式被直接发送到装载着Drive PX平台的效劳器中,Drive PX平台依据这些数据,执行相应的自动驾驶算法,并且最终将车辆的操纵输入前往到虚拟化的效劳器中,构成循环。
依据英伟达官方的阐明,两台效劳器在1秒的工夫内可以停止30次这样的循环。英伟达还表示,这套零碎可以模仿不同的天气,如暴风雨雪天气、一天中不同时辰致盲的炫光、夜晚无限的视野以及不同类型的路况和地形。同时,它也可以模仿风险的路况以测试自动驾驶汽车的反响才能。然后开发者可以对自动驾驶的算法停止改良和完善。
英伟达汽车部门初级主管Danny Shapiro对此表示:“ 这关于行业来说是一个十分有价值的工具,它可以减速自动驾驶的研发进程。 ”黄仁勋在演讲中也说了一个数字: 10000套Drive Constellation零碎,一年就可以路测30亿英里。
据雷锋网理解,Drive Constellation将在往年第三季度推向市场,并为英伟达的晚期客户提供效劳。
在英伟达的生态零碎中,目前曾经聚集了超越370个不同的公司。大家将合力开发自动驾驶技术。虽然这个数字反映了英伟达阵营的庞大,但这个生态中的 370 个协作同伴并不都是汽车厂商。详细来说,这些协作同伴包括乘用车,卡车、物流车和自动驾驶出租车等,一级供给商,自动驾驶初创公司、激光雷达公司、地图公司等等。
经过这套虚拟理想的驾驶模仿器,英伟达完全可以将数量众多的协作同伴放到一个平台当中,减速自动驾驶技术研发、落地的进程,反过去稳固英伟达本身硬件在自动驾驶范畴的不可替代性。
继续浸透的TensorRT,不时减速的AI幅员
TensorRT也是一项英伟达去年发布的新技术,它的目的是将各种人工智能架构的算法,与英伟达各种架构的GPU相适配,经过二次优化算法提升全体算法在英伟达GPU下面运转的效率。
而在本次GTC之上,英伟达也拿出了最新版本的TensorRT 4,它最重要的特点就是更高的效率,依据英伟达官方的测试在多种人工智能算法在同一个效劳器上运转的时分,TensorRT 4可以增加70%的硬件需求,同时还能在延迟方面提升190倍。
得益于软硬件的提升,英伟达在AlexNet的训练速度上5年间提升了500倍
相比功能方面的提升,此次TensorRT在业界支持方面的新停顿其实愈加值得关注。由于在去年TensorRT某种水平上曾经是一个英伟达本人的人工智能架构,而且是凌驾于简直一切人工智能架构的终极架构。这关于之前希望经过培育人工架构、打造自在人工智能生态的公司来说并不是坏事我们也正在做着心目中属于未来的事业,那就是通过互联网金融创新,不断完善人与金融、货币之间的关系,让所有人都能享受到最好的金融服务 。。
令人惊喜的是,英伟达官方表示曾经和Google达成协作,将在最新的TensorFlow 1.7版本中直接内嵌TensorRT,进而进一步增强TensorFlow架构在GPU中的表现。Goolge的工程总监Rajat Monga还特别表示,Google的TensorFlow团队不断和英伟达坚持着严密的协作关系。
其他“一局部”重点内容:光线追踪、医疗平台、自家GPU云技术、自动驾驶道路图、近程VR驾驶
-
英伟达RTX技术
RTX技术是目前市面上最弱小的光线追踪技术,可以对多种材质停止最接近真实的实时渲染,现场演示中还包括了比拟复杂的静态场景。
-
医疗平台Clara
由人工智能驱动的医疗平台Clara是英伟达的一次全新尝试,现场的展现中,英伟达经过对一个二维的超声波探测实时后果停止处置,直接精准复原患者体内脏器的活动,甚至可以直接算出心脏的容积、以及每次跳动的体积差别。
-
将来自动驾驶平台道路图
Roadmap是半导体厂商罕见的一种产品规划手腕,最知名的要数Intel曾经生效的“Tick-Tock”。在本次GTC上,黄仁勋也分享了英伟达DRIVE系列产品的RoadMap战略——小尺寸的单芯片平台,然后经过芯片数量和GPU的添加取得更强的功能,然后应用技术将更强的功能再次紧缩为小尺寸的单芯片平台,一次类推。
现场泄漏下一代单芯片平台代号为Orin。
-
基于Holodeck的近程虚拟驾驶零碎
计划用VR来做近程驾驶的初创公司能够很解体。
雷锋网 (大众号:雷锋网) 总结:GPU的动力照旧微弱,英伟达不只是一家“功能驱动公司”
回忆完现场的次要内容,自然也是时分再反过头来看上文开篇的成绩了。首先不得不提的就是人们关于GPU的等待,虽然在前几年的历程中,英伟达简直源源不时地拿出更新、更弱小的GPU芯片。但它终究也是半导体的芯片,异样会遭到制程的物理限制,单颗芯片的提升难度还将不时提升。
但由于并行运算的缘由,GPU实践上很容易停止横向的拓展,此次GTC上发布的全新16颗V100 GPU的DGX-2减速器就是最好的证明。在应用适宜的数据传输技术的前提下,GPU将来的动力增长照旧会“很微弱”。
另外一个要点实践上是英伟达在硬件之外所做的诸多任务,从针对各种人工智能架构、算法的继续优化,到完全VR化的自动驾驶路测,英伟达实践上在不时为整个生态赋能,扫除一些关键性的妨碍。这种才能,放眼人工智能、自动驾驶这样的范畴,都是无人能及的。
毫无疑问,在2018接上去的日子里,教主和他的英伟达,还将给我们带来更多惊喜。
。