Future Tech

[转贴] NVIDIA推出液冷A100 GPU,“掌上服务器”生产模块即将开售

Tan KW
Publish date: Tue, 24 May 2022, 05:46 PM
Tan KW
0 463,991
Future Tech
NVIDIA推出液冷A100 GPU,“掌上服务器”生产模块即将开售

芯东西(公众号:aichip001)
作者 |  ZeR0
编辑 |  漠影

芯东西5月24日报道,在2022年台北国际电脑展(Computex)上,英伟达宣布推出液冷A100 PCIe GPU,以满足客户对高性能碳中和数据中心的需求。这在主流服务器GPU中尚属首例。

同时,NVIDIA宣布多家领先厂商采用全球首批基于NVIDIA自研数据中心CPU的系统设计,并有30多家全球技术合作伙伴在Computex上发布首批基于NVIDIA Jetson AGX Orin的边缘AI与嵌入式计算系统。

当前NVIDIA正围绕CPU、GPU、DPU这数据中心三大芯片支柱全面发展,以辅助其合作伙伴构建实现新一波数据中心转型、构建现代AI工厂。其中,CPU管理整个系统的运行,GPU负责提供核心计算能力,DPU负责处理安全的网络通信并提供网络内置计算能力以优化整体性能。

NVIDIA推出液冷A100 GPU,“掌上服务器”生产模块即将开售

NVIDIA硬件工程高级副总裁Brian Kelleher透露说,NVIDIA将每种芯片架构的更新节奏设定为两年,一年将专注于x86平台,一年将专注于Arm平台,无论客户与市场偏好如何,NVIDIA体系架构和平台都将支持x86和Arm。

NVIDIA加速计算业务副总裁Ian Buck谈道,如果世界上所有的AI、高性能计算、数据分析工作负载都在GPU服务器上运行,NVIDIA预估每年可节省超过12万亿瓦时的电力,相当于每年减少200万辆汽车上路

一、液冷GPU:同等性能、更少耗电

液冷技术诞生于大型机时代,在AI时代日臻成熟。如今,液冷技术已经以直接芯片(Direct-to-Chip)冷却的形式广泛应用于全球高速超级计算机。NVIDIA GPU在AI推理和高性能计算方面的能效已比CPU高出20倍,而加速计算也顺理成章地将采用液冷技术。

NVIDIA估算,如果将全球所有运行AI和高性能计算的CPU服务器切换为GPU加速系统,每年可节省高达11万亿瓦时的能源。节约的能源量可供150多万套房屋使用1年。

今日,NVIDIA发布了率先采用直接芯片冷却技术的数据中心PCIe GPU。这款液冷GPU可在减少能耗的同时维持性能不变,现已进入试用阶段,预计将于今年夏季正式发布。

NVIDIA推出液冷A100 GPU,“掌上服务器”生产模块即将开售

旗下管理超过240个数据中心的全球服务提供商Equinix已在验证A100 80GB PCIe液冷GPU在其数据中心的应用,这也是该公司为实现可持续性冷却和热量捕获的综合性方案中的一部分。

在单独的测试中,Equinix和NVIDIA均发现:采用液冷技术的数据中心工作负载可与风冷设施持平,同时消耗的能源减少了约30%。NVIDIA估计,液冷数据中心的PUE可能达到1.15,远低于风冷的PUE 1.6。

NVIDIA推出液冷A100 GPU,“掌上服务器”生产模块即将开售

在空间相同的条件下,液冷数据中心可实现双倍的计算量。这是由于A100 GPU仅使用一个PCIe插槽,而风冷A100 GPU需使用两个PCIe插槽。

今年晚些时候,华硕、新华三、浪潮、宁畅、超微、超聚变等至少十几家系统制造商将在其产品中使用液冷GPU。

据悉,NVIDIA计划于明年推出的一版A100 PCIe卡中搭载基于NVIDIA Hopper架构的H100 Tensor Core GPU。近期内,NVIDIA计划将液冷技术应用于自有高性能数据中心GPU和NVIDIA HGX平台。

二、数十款基于NVIDIA Grace CPU的服务器将于明年出货

Grace是NVIDIA首款数据中心CPU,专为AI工作负载而打造。该芯片有望在明年出货,将提供两种外形规格。

NVIDIA推出液冷A100 GPU,“掌上服务器”生产模块即将开售

上图左侧Grace-Hopper是一种旨在加速大型AI、高性能计算、云和超大规模工作负载的单一超级芯片模组,在Grace CPU和Hopper GPU之间实现了芯片级直连,CPU与GPU通过带宽可高达900GB/s的互连技术NVLink-C2C进行通信。

Brian Kelleher说,Grace将以比任何其他CPU快15倍的速度,将数据传输到Hopper,并将Hopper的工作数据大小增至2TB。

同时,NVIDIA还提供将两个Grace CPU芯片通过NVLink-C2C互连在一起的Grace超级芯片。Grace超级芯片拥有144个高性能Armv9 CPU核心,内存带宽高达1TB/s,能效是现有服务器的2倍。包括1TB内存在内的整个模组,功耗仅为500W。

除了NVLink-C2C外,NVIDIA亦支持今年早些时候发布、仍在发展完善的chiplet标准UCIe。

NVIDIA推出液冷A100 GPU,“掌上服务器”生产模块即将开售

今天,NVIDIA发布4种面向标准数据中心工作负载的Grace参考设计:1、适用于云游戏的CGX;2、适用于数字孪生和Omniverse的OVX;3、适用于高性能计算和超级计算的HGX;4、适用于AI训练、推理和高性能计算的HGX

紧接着,NVIDIA宣布推出HGX Grace和HGX Grace Hopper系统,将提供Grace Hopper和Grace CPU超级芯片模组及其相应的PCB参考设计。两者均为OEM 2U高密度服务器机箱而设计,可供NVIDIA合作伙伴参考与修改。

NVIDIA推出液冷A100 GPU,“掌上服务器”生产模块即将开售

华硕、富士康工业互联网、GIGABYTE、QCT、Supermicro和Wiwynn的数十款服务器型号的Grace系统预计将于2023年上半年开始发货

三、首批Jetson AGX Orin服务器和设备发布

NVIDIA Isaac机器人平台有4个支柱:一是创建AI;二是在虚拟世界中仿真机器人的操作,然后在现实世界中进行尝试;三是构建实体机器人;四是管理已部署机器人队列的整个生命周期。

在构建现实世界的实体机器人并进行部署方面,NVIDIA Jetson已成为适用于边缘和机器人的AI平台,拥有超过100万开发者、超过150个合作伙伴,超过6000家公司使用Jetson用于量产

Jetson AGX Orin采用NVIDIA Ampere Tensor Core GPU、12个Arm Cortex-A78AE CPU、下一代深度学习和视觉加速器、高速接口、更快的内存带宽、多模态传感器,可提供每秒275万亿次运算性能,相当于一台“掌上服务器”

在针脚兼容性与外形尺寸相同的情况下,其处理能力超过前代产品NVIDIA AGX Xavier 8倍。

Jetson AGX Orin开发者套件自3月开始已通过经销商在全球发售,生产模块将于7月开始发售,起售价为399美元。Orin NX模块尺寸仅为70毫米x45毫米,将于9月上市。

面向边缘AI和嵌入式计算应用,研扬、凌华、研华等全球30多家NVIDIA合作伙伴在Computex上发布了首批基于NVIDIA Jetson AGX Orin的生产系统,覆盖服务器、边缘设备、工业PC、载板、AI软件等品类。

NVIDIA推出液冷A100 GPU,“掌上服务器”生产模块即将开售

这些产品将推出有风扇和无风扇配置并且提供多种连接和接口选项,并会加入适用于机器人、制造、零售、运输、智慧城市、医疗等重要经济部门或加固型应用的规格。

为了加速AMR的开发,NVIDIA还推出用于AMR的先进计算和传感器参考设计Isaac Nova Orin

Nova Orin由2个Jetson AGX Orin组成,支持2个立体摄像头、4个广角摄像头、2个2D激光雷达、1个3D激光雷达、8个超声波传感器等多种传感器,参考架构将于今年晚些时候推出。

NVIDIA推出液冷A100 GPU,“掌上服务器”生产模块即将开售

Jetson平台也拥有全方位的NVIDIA软件支持。为了满足特定用例的需求,NVIDIA软件平台加入了:用于机器人技术的NVIDIA Isaac Sim on Omniverse,用于构建语音AI应用的GPU加速SDK Riva,用于AI多传感器处理、视频、音频和图像理解的串流分析工具包DeepStream,以及通过整合视觉数据与AI提高行业运营效率和安全的应用框架、开发者工具组与合作伙伴生态系统Metropolis。

结语:极具前瞻性的AI时代硬件霸主

从今天的一系列新发布,我们可以看到NVIDIA正通过愈发全面的底层软硬件平台优化及端到端解决方案,与合作伙伴一起为从边缘到数据中心的AI应用提供多样化的技术及方案支持。

如今高性能数据中心的需求正在蓬勃生长,汽车等其他系统也愈发追求绿色低碳,能够显著节省能源消耗的液冷技术已经成为越来越多数据中心运营商迫切加码的方向。NVIDIA今日推出的液冷GPU,正切“双碳”大势下的数据中心建设刚需,为计划向液冷技术转型的厂商们提供了具有吸引力的硬件基础设施。

随着NVIDIA基于Arm架构研发的Grace CPU超级芯片和Grace Hopper超级芯片随着服务器产品进入数据中心,这些兼顾AI加速和节能需求、启用多重创新技术的新作不仅有助于拓展NVIDIA的收入来源,也将为Arm在数据中心市场的扩张起到关键的推动作用。

而面向边缘AI与机器人领域,首批Jetson AGX Orin生产系统落地后,开发者将能借助NVIDIA持续打磨的工具及平台,降低AI开发部署的时间和成本,从而加速3D感知、多传感器融合等应用在各行各业的广泛应用与创新。

 

https://zhidx.com/p/330797.html

Discussions
Be the first to like this. Showing 0 of 0 comments

Post a Comment