首页 >养生

那么我们是如何到达这里的谁是大玩家呢2019iyiou

2019-05-14 19:36:59 | 来源: 养生

本文作者Chris Wiltz,经Debra编译,发于AI前线。

2017年,当Intel在洛杉矶举行的Automobility LA贸易展上发布了的AI硬件,但它并不是什么里程碑式的产品,而只是若干科技巨头接连发布的一系列技术之中的其中一个——所有这些产品都是为了在AI硬件领域的地位奠定基础。因为拿下人工智能领域的一方,将会成为制造业、汽车、物联、医疗,甚至娱乐业在内的众多行业中的主导力量之一。

在硬件方面,人工智能领域正在进行一场“权力的游戏”,不同公司都在不遗余力地争夺霸主地位,并希望自己的产品可以成为人工智能技术(特别是深度学习和神经络)芯片架构的标准。

Research and Markets和TechNavio的分析师预测,全球AI芯片市场在2017年至2021年,将以年均54%的速度增长。

Technavio嵌入式系统研究首席分析师Raghu Raj Singh表示,市场对于能够满足深度学习需求的高功率硬件的需求,是推动这一发展的关键因素。“硬件市场的高增长率,反映出市场对高计算能力的硬件平台的需求不断增长,这有助于深度学习算法的进步。创业公司和老牌公司之间日益激烈的竞争正在引领新的AI产品发展的潮流,无论是硬件还是软件平台,都开始采用深度学习计划和算法。“

火药味越来越浓烈,AI芯片制造商之间的战争一触即发。人工智能将成为计算机硬件的下一个前沿领域,并且可能是自移动计算和互联出现以来,人工智能可能是计算机硬件重要的战场。

那么,我们是如何到达这里的,谁是大玩家呢?

CPU

当那些不需要人力操作的五级自动驾驶汽车上路后,我们会发现它们将是有史以来聪明、复杂的机器之一。当然,自动驾驶车辆已经成为人工智能的主要目标之一,而芯片制造商Intel想要在这一领域牢牢巩固自己的地位。

然而,Intel并没有把全部的精力放在内部研发上,而是通过收购来构建自身的AI能力。2016年8月,Intel收购了神经络处理器制造商Nervana Systems。

神经络能够非常有效地执行各种各样的任务,但为了完成这些任务,首先必须训练络如何执行任务。一个神经络执行任务前需要进行训练,例如在执行一个识别狗的图像的任务之前,需要先训练神经络认全所有物种的狗。这可能意味着络需要处理成千上万,甚至数百万张的狗的图像,如果没有足够强大的处理能力,这个任务会非常耗时。

2016年11月,在收购Nervana几个月后,Intel宣布推出一系列处理器——Nervana,一个直接针对人工智能相关应用,如训练神经络的平台。Intel数据中心事业部执行副总裁兼总经理Diane Bryant说道:“我们期望Intel的Nervana平台再性能上能够有所突破,并大大缩短训练复杂神经络所需的时间。预计十年之内,Intel的性能将提高100倍,加速新兴的深度学习领域创新的步伐。“

2017年3月,Intel又高调地收购深度学习ADAS开发商Mobileye,收购总额约为150亿美元。Intel的并购战略几乎立即产生重大意义。这家芯片制造商希望在自动驾驶车辆领域占有一席之地,而且这一战略也让其一跃成为机器学习硬件的关键供应商。

去年11月在洛杉矶举行的Automobility LA贸易展览会上,Intel CEO Brian Krzanich称,自动驾驶已成为如今的game changer,并宣称Intel在收购Mobileye公司后推出的新产品SoC和EyeQ5,比其的竞争对手——Nvidias Xavier的深度学习平台性能提高两倍。

每秒万亿次运算(TOPS)是高性能SoC的通用性能指标,TOPS效能功耗比(TOPS per watt)可用以扩展该指标来描述性能效率。TOPS效能功耗比越高,芯片的质量和效率越高。深度学习TOPS(DL)是指进行深度学习相关操作的效率。根据Intel的模拟测试,EyeQ5的TOPS效能功耗比为2.4DL,比Nvidia Xavier的效率提高了一倍以上,Xavier的TOPS效能功耗比为1DL。

Intel自动驾驶集团(ADG)高级副总裁兼总经理Doug Davis表示,Intel选择专注于DL TOPS,因为Intel希望把重点放在处理器的效率,而不是其他指标上。“DL TOPS是衡量电源消耗的一个很好的指标,但这也是一个重量、成本和散热的问题,所以我们认为效率是关注的重点。”Davis说道。

Davis补充道:“我们已经就性能进行过大量的讨论,但是当我们考虑这个问题时,希望可以从更实际的角度出发,考虑到不同类型的工作量。深度学习能够尽可能快速有效地识别对象,并做出决策。“

然而,Nvidia公司对Intel的数据提出了异议,认为EyeQ5的测试结果是基于模拟实验,尤其是SoC在未来两年之内都不会实际应用。Nvidia公司汽车高级总监Danny Shapiro在一份声明中表示:“我们无法评判一种不存在的产品,尤其是这种直到2020年才会面世的产品。但现在,我们了解的是我们去年推出,并将于2018年面世的Xavier,它的性能达到 30TOPS,比EyeQ5经过模拟测试得出的24TOPS性能更高。“

GPU是否为AI而设计?

偶然地,GPU制造商发现他们掌握着可能处于AI革命前沿的技术。当GPUs被当做CPU的补充时(许多CPU将GPU集成到GPU中进行图形处理),GPU已经扩展到以图形和视频为中心的领域之外,进入深度学习领域,GPU制造商纷纷表示他们的产品性能远优于CPU。

Nvidia表示,其Titan V GPU是有史以来强大的PC深度学习GPU。

虽然市场上有不少GPU公司,但没有哪家公司比Nvidia作为这个技术的代名词更贴切。根据Jon Peddie研究公司的报告,Nvidia2017年第三季度的GPU出货量增长了29.53%,主要竞争对手AMD和Intel在这方面均败下阵来。AMD的出货量增加了7.63%,而Intel的出货量增加了5.01%。当然,这主要是由于视频游戏市场的推动,但Jon Peddie Research的分析师认为,与加密货币挖掘有关的应用程序对高端性能的需求,也对出货量增长做出贡献。

对于高性能任务处理器(如加密货币挖掘和AI应用程序)的需求,将GPU推向了AI硬件的前沿。GPU包含数百个可同时执行数千个软件线程的内核,而且比CPU更节能。CPU比较泛化,且更具有跳跃性,可以执行很多任务,并擅长对大批量数据进行重复操作。GPU之所以被称为GPU,就是因为这一关键区别,它更擅长处理图形——因为图形处理涉及一次性处理数以千计的小计算。同时,这样的性能也使得GPU成为理解上述神经络训练等任务时的理想选择。

就在今年12月,Nvidia宣布推出了一款专为深度学习而设计的PC GPU——Titan V。这款GPU基于Nvidia的Volta架构,使用了Nvidia称之为Tensor Cores的新型核心技术。在数学术语中,张量(tensor)的定义为“与矢量相似,但更泛化的数学对象,用一组空间坐标函数表示。”Nvidia 所做的,是针对处理深度学习和神经络计算的需求,开发具有复杂架构的内核。

Titan V包含210亿个晶体管,具有110浮点运算的深度学习能力,专为从事AI和深入学习的开发人员设计。公司创始人兼CEO Jensen Huang在发布会上表示,Titan V是有史以来为个人电脑开发的强大的GPU。“我们对Volta的愿景是其能打破高性能计算和人工智能的外部极限,用新的处理器架构、指令、数字格式、内存架构和处理器链接打开了新的局面。通过Titan V,我们把Volta交给了世界各地的研究人员和科学家手中。

一个张量的世界

也许没有哪家公司比Google对张量概念的研究更加深入。2016年,这家搜索巨头发布了非常流行的深度学习开源框架TensorFlow。如Google所说,“TensorFlow是一个使用数据流图进行数值计算的开源软件库。图中的节点表示数学运算,而图像边缘表示在它们之间通信的多维数组(张量)。它灵活的体系结构让用户可以使用单个API将计算部署到桌面、服务器或移动设备中的一个或多个CPU或GPU。

Google的张量处理单元(TPU)运营公司所有基于云的深度学习应用程序,是AlphaGo AI的核心。

TensorFlow的机器学习应用程序库包括面部识别、计算机视觉,当然还有已经被证明非常流行的搜索和其他应用程序,以至于2016年Intel致力于优化其处理器来运行TensorFlow。2017年,谷歌还发布了针对移动和Android开发者的精简版TensorFlow。

但Google关于AI的目标不会止于软件。2016年,该公司发布了代被称为张量处理单元(TPU)的新处理器。Google的TPU是专为机器学习和TensorFlow而量身定制的ASIC。2017年5月,Google发布第二代TPU,并称其性能高达180teraflops。

2017年6月,在加拿大多伦多举行的第44届计算机体系结构国际研讨会(ISCA)上,Google发布了一项研究报告,将其部署在数据中心的TPU与Intel Haswell CPU,以及部署在同一数据中心的Nvidia K80 GPU进行了比较,结果发现,TPU比GPU和CPU运行速度平均快15到30倍。TPU的TOPS per watt也比后两者高约30到80倍。Google表示,现在,TPU已经用于该公司所有服务,如搜索、街景、Google相册和Google翻译服务中。

在一份详细介绍谷歌TPU的论文中,Google的工程师们说,早在六年前,当Google发现其将深度学习融入越来越多的产品时,市场对TPU的需求就出现了。“如果人们每天只使用三分钟Google语音搜索,使用我们现在用来处理语音识别系统的深度神经络处理器,那么我们必须将Google的数据中心扩大两倍!“Google工程师写道。

Google的工程师在设计TPU时表示,他们采用了所谓的“收缩性设计”。“这种设计之所以被称为“收缩性”,是因为数据通过芯片时的波浪形流动,让人想起心脏泵血的方式。MXU[matrix multiplier unit]中特殊的收缩阵列对执行矩阵乘法时的功率和面积效率进行了优化,但并不适用于一般计算。它做了一个工程上的折衷:以寄存器、控制和操作的灵活性,换取更高的效率和操作密度。“

在一些非常高端的AI应用中,TPU也已经证明了其价值。TPU是谷歌的AlphaGo AI背后的“大脑”,AlphaGo AI去年击败了围棋世界,而近,AlphaGo通过证明其能够在相对较短的时间内,通过自学成为围棋大师,从而实现了人工智能领域的巨大的飞跃。经过短短几个月的训练,AlphaGo的版本AlphaGo Zero的能力就远远超过人类专家。而战胜国际象棋(一个复杂的游戏,但是比Go计算量小得多)专家,也就是几个小时的事情。

FPGA——AI竞赛中的一匹黑马

如此看来,TPU就是AI的未来,是这样吗?事实上可能没那么快。虽然Nvidia、Google以及Intel在某种程度上都专注于为AI服务,但其芯片提供的服务处理过程均发生在设备上,而不是云端。微软声称,其FPGAs云端人工智能服务的性能与Nvidia、Google以及Intel相当,甚至更优。微软认为,这款代号为Project Brainwave,基于FPGA的云端解决方案,在可扩展性和灵活性方面将优于CPU、GPU和TPU。

微软的Project Brainwave在使用Intel Stratix 10 FPGA运行时,运行速度达39.5 teraflops,延迟不足1毫秒。

一般来说,基于处理器的解决方案在某种程度上会受到设计上的限制,仅能完成特定的任务。但是,由于FPGA具有灵活性和可重编程性,让升级更容易,处理器的性能更高。根据微软的说法,在Intel Stratix 10 FPGA上运行时,微软的Project Brainwave的运行速度达到39.5 teraflops,延时不足1毫秒。

FPGA是否能为人工智能提供解决方案,与其他议题一样是值得商榷的事情。微软认为,创造AI专用ASIC的生产成本太高,而另一些人则认为,FPGA永远无法完全实现专为AI设计的芯片性能。

3月份举行的International Symposium on Field Programmable Gate Arrays上,一些Intel加速器架构实验室的研究人员发表了一篇论文,称其对处理深度神经络算法的两代Intel FPGA(Arria10和Stratix 10)和Nvidia Titan X Pascal(Titan V处理器)进行了比较。

据Intel研究人员称:“研究结果显示,在pruned、Int6和二值化DNNs矩阵乘法运算方面,Stratix 10 FPGA的性能(TOP/秒)Titan X Pascal图形处理器的性能分别高10%、50%、5.4倍。在Ternary-ResNet方面上,Stratix 10 FPGA比Titan X Pascal GPU的性能高60%,而且性能功耗比高2.3倍。这表明,FPGA可能成为加速下一代DNN的平台。“

谁戴上皇冠?

在这个特定的时间点,就整体性能而言,很难不争论GPU在AI芯片上的表现。但是,这并不意味着像Nvidia和AMD这样的公司应该放下桂冠,相信他们拥有的解决方案。像微软这样的竞争对手有维持自身现状的既得利益(微软的数据中心都是基于FPGA的),并将AI消费者转向他们的观点。

更重要的是,出现在的公司可能不是那些硬件的硬件,而是的硬件。虽然自动驾驶汽车正在成为将AI分解为更广泛的公众意识的杀手级应用程序,但现在确定还为时过早。这可能是机器人,制造业,甚至娱乐领域的进步,真正推动AI的发展。而这并不是为了贬低甚至还没有被报道或开发的新兴应用。

当烟雾清除时,它可能不是一家公司,甚至是一家主宰AI景观的处理器。我们可以看到一个未来从AI硬件的一刀切式的方法转向,并且看到硬件因应用程序而异的更加分裂的市场。时间会告诉我们,但是一旦我们到达那里,我们所有的设备将会变得更加聪明。

首枚混战SpaceX光环下的中国商业火箭众生相
2018年烟台体育E轮企业
兰亭集势Q2净营收7850万美元同比增19.6%

猜你喜欢