Future Tech

[转贴] 两大新技术打通网络瓶颈,英伟达专家亲述超算云方案

Tan KW
Publish date: Wed, 15 Dec 2021, 06:33 PM
Tan KW
0 464,796
Future Tech
两大新技术打通网络瓶颈,英伟达专家亲述超算云方案

芯东西(公众号:aichip001)
作者 |  高歌
编辑 |  Panken

芯东西12月15日报道,今天,英伟达网络事业部亚太区市场开发高级总监宋庆春和芯东西等媒体分享了英伟达在超算云环境下的两大新技术、3U一体(CPU+GPU+DPU)的数据中心战略以及其基于深度学习的网络安全框架。

宋庆春提到英伟达基于InfiniBand网络的Quantum-2平台通过动态路由、拥塞控制等新技术,能够在多租户环境下保障网络流畅性,使微软实例的多租户和单租户处理速率几乎一致。同时,其推出的Morpheus安全框架提供了一种用AI(人工智能)防护数据安全的新思路,可以有效识别、监测恶意行为。

一、两大新技术保证多任务云处理速率

英伟达在今年11月推出了Quantum-2平台,这是一个400Gbps的InfiniBand网络平台,包括NVIDIA Quantum-2交换机、ConnectX-7网卡、BlueField-3 DPU和相应软件等产品。

宋庆春谈道,Quantum-2平台的推出基于数据和计算量的爆发性增长。当前数据中心往往既要用云的灵活性处理很多小型任务,也要利用超算性能处理大型任务,其算力资远需求波动较大。

两大新技术打通网络瓶颈,英伟达专家亲述超算云方案▲Quantum-2平台

因此对于超算中心、云中心这样的供应商来说,将超算性能和云的灵活性进行整合十分重要,这也是当前很多超算中心筹备上云的原因。

宋庆春认为,目前InfiniBand网络可以说是一种天然最合适云原生超级计算中心的网络。

具体来说,InfiniBand网络共有四条优势,第一点InfiniBand网络是一种会计算的网络,可以在实现网卡计算、DPU计算和交换机计算;第二,InfiniBand网络具有可大规模扩展的特性,无网络死锁和网络风暴;第三点是InfiniBand网络是一种天然的SDN(软件定义网络),可以集中实现软件定义;最后,InfiniBand网络在业界具有IBTA标准规范,有着兼容、清晰的路线图。

因为InfiniBand网络具有种种优势,其正在被越来越多的算力供应商所采用。

英伟达基于InfiniBand网络的Quantum-2平台则具备多租户、性能隔离、拥塞控制、网络计算等功能。当超算系统实现高性能时,需要所有资源参与到计算中,实现数据在哪里、计算在哪里,这就是Quantum-2平台的目标。

对Quantum-2平台,英伟达针对点对点等通信模型进行了优化,提升了这些模型的通信效率。宋庆春着重强调了Quantum-2平台的两个新技术,分别是动态路由技术和拥塞控制技术,这两项新技术可以有效解决多任务影响云端任务处理效率的问题。

动态路由技术可以在传输数据时,根据网络的流量状况选择更为通畅的道路,将数据送到另一端。

宋庆春称,该技术对通信效率有着显著的提升,当前以太网最好的通信效率为76%,而基于InfiniBand网络的动态路由技术可以将通信效率提升到96%。具体到VASP、BSMench等业务场景,动态路由技术达到了很好的优化效果。

两大新技术打通网络瓶颈,英伟达专家亲述超算云方案▲动态路由技术对数据传输的优化

拥塞控制技术则是解决多任务时超算云性能降低问题的关键。此前,当多个任务运行在超算云时(多租户场景下),会出现互相干扰问题,影响了任务处理速率。

拥塞控制技术则可以识别不同业务,对那些会降低超算云性能的任务进行一定调整,将其处理速率降低,保证整个网络的任务处理速率。在Microsoft Azure实例中,通过Quantum的动态路由技术和拥塞控制技术,其多租户和单租户的任务处理速率几乎一致。

两大新技术打通网络瓶颈,英伟达专家亲述超算云方案▲拥塞控制技术

二、DPU同时进行通信与计算,优化数据中心架构

对于英伟达3U一体(CPU+GPU+DPU)的数据中心战略,宋庆春着重强调了Bluefield DPU的作用,他认为这是其云原生超级计算架构的基础。

英伟达的Bluefield DPU既可以用来作通信,也可以用来作计算,其特性为数据中心提供了一种新的思路:即将通信和计算叠加起来,用DPU直接对Host CPU进行操作,在Host CPU无感知的情况下读取其中的数据,通过智能识别数据包大小,DPU将选择不同的通信方式,提升数据通信、计算速度。

英伟达Bluefield DPU在无阻塞(NON-BLOCKING)通信环境下,其iAlltoall和iAllgather两个API(应用程序编程接口)的MPI通信性能分别提升了44%和36%。

宋庆春总结称,因为DPU的出现,使数据中心具备了从高层次进行优化的空间,在3U一体下为了新的计算单元,能够通过分工合作实现最优的性能。

两大新技术打通网络瓶颈,英伟达专家亲述超算云方案▲DPU在系统中如何加速通信

三、Morpheus安全框架提供AI数据防护新思路

当前零信任环境下的安全保障也是行业关注的焦点问题,随着数据量级的不断增加、非结构化的数据占比的提升,数据处理的复杂程度正在增加,网络安全已成为数据安全的最大威胁。

传统的方法和工具已经无法满足现代数据中心的安全需求。宋庆春给出了一组数据,如今发现一个漏洞大约需要200天,修复这个漏洞大约需要70天,这一速度远无法满足数据中心要求。

英伟达作为芯片、平台供应商,希望为网络安全供应商提供一个更有效、更注重数据安全的平台。在今年的GTC大会上,英伟达发布了DOCA 1.2,这是一款注重网络安全并支持零信任环境的软件。

两大新技术打通网络瓶颈,英伟达专家亲述超算云方案▲DOCA 1.2通过英伟达Bluefield支持零信任环境

此外,英伟达还发布了Morpheus安全框架,为未来的数据中心提供了一个AI技术进行安全信息和事件管理的方法。

传统方法应对恶意攻击的方法往往是先对恶意攻击进行识别,再进行安全防御。其问题在于恶意攻击行为在不断出新,无法识别100%的传统方法就无法实现100%的安全防御。

Morpheus安全框架的特别之处在于,其通过AI深度学习,对数据中心的人、行为、设备、流量等特征进行提取、分析、训练、推理,最终产生一套数字指纹模型。该安全框架可以在零监督、自学习的环境下,识别行为是否标准、存在恶意,对非标准行为进行监督,防护数据中心安全。

两大新技术打通网络瓶颈,英伟达专家亲述超算云方案▲英伟达Morpheus安全框架

结语:英伟达通过多产品布局扩充数据中心生态

自GPT-3推出以来,新的大模型不断涌现,其对于算力的需求越来越高,GPU数据并行和模型并行计算正在成为一个关键趋势。在这样的趋势下,云原生正成为保障算力和业务安全的必要技术。

对此,英伟达作为数据中心芯片行业的主要竞争者,其正在通过Quantum-2平台、DOCA 1.2、Morpheus安全框架等各类方案不断扩充自己的生态,在提升数据中心算力和安全性的同时稳固了市场地位。

 

https://zhidx.com/p/308813.html

Discussions
Be the first to like this. Showing 0 of 0 comments

Post a Comment