Future Tech

[转贴] 燧原推出云燧智算机,助攻打造高性能AI加速集群,最高支持E级算力

Tan KW
Publish date: Sat, 03 Sep 2022, 02:31 PM
Tan KW
0 463,410
Future Tech
燧原推出云燧智算机,助攻打造高性能AI加速集群,最高支持E级算力

芯东西(公众号:aichip001)
作者 |  ZeR0
编辑 |  漠影

芯东西9月3日报道,今日上午,上海云端AI芯片企业燧原科技推出针对大规模、集约化人工智能(AI)算力应用场景打造的高性能AI加速集群产品云燧智算机CloudBlazer POD)。

云燧智算机采用一体化设计,是专为AI场景下计算、存储、网络、软硬协同设计的标准化产品,通过一站式预集成AI加速硬件、一体化开发与管理平台及配套AI应用软件与服务,可广泛应用于数字政府、科研院所、科创平台等企事业单位。

依托于“邃思”芯片核心能力,在典型配置下,云燧智算机每单元可达到8PFLOPS的TF32浮点算力,并且支持按需横向扩容,可支持数千卡规模集群,突破E级算力。

同时,燧原科技还推出了全栈式AI开发服务平台和通用的大规模算力管理平台燧池智算平台CloudBlazer Station。它可以结合云燧AI算力集群和大规模算力资源调度,一站式满足复杂的AI业务场景对AI服务的需求。

一、云燧智算机:PUE可降至1.1,最高支持超千卡规模集群

据介绍,云燧智算机基于燧原科技过往多个大规模AI算力中心工程实践打造而成。

作为国内已落地超千卡规模液冷AI集群的AI算力企业,燧原科技的第一代和第二代“邃思”芯片均已实际应用于大规模AI集群工程中,支撑融媒体生成、城市智能感知等多样化场景。

从落地实践中,燧原科技发现,AI数据中心因其软件运维复杂,普遍具有方案选型难、各厂商产品兼容未知等痛点,而且数据中心部署交付周期长、沟通成本高、项目管理周期长。

针对这些问题,燧原打造了云燧智算机。

燧原推出云燧智算机,助攻打造高性能AI加速集群,最高支持E级算力

云燧智算机采用一体化设计,是专为AI场景下计算、存储、网络、软硬协同设计的标准化产品,提供高可用的整体安全设计,确保集群架构扩展性能符合预期,提供包括采购、安装、运维一体的交钥匙方案。

该产品对数据中心的环境和IT计算资源提供全面的监控和管理,能够提高集群部署、测试的质量和效率,辅助用户提升运营效益和降低运行成本,帮助用户提升运维价值,为用户实现AI算力中心从交付部署到后期上线及运维管理全生命周期中的优异总拥有成本(TCO)。

云燧智算机代表了燧原科技经过多个大规模工程实践所形成的计算、网络、存储的整体设计:以全局优化为目标,基于计算、存储、管理网络分离,全互联无阻塞的网络架构,结合高效的多级存储方式,在燧原“邃思”芯片与CPU的异构算力支撑下提供卓越的AI性能。

燧原推出云燧智算机,助攻打造高性能AI加速集群,最高支持E级算力

▲云燧智算机整体设计

云燧智算机采用一体化冷板式液冷技术,实现单节点8颗高性能AI芯片液冷散热,通过液冷板等高效热传导部件将被冷却对象的热量传递到自然冷媒中,采用先进流量控制系统,大幅提高流量变化范围、降低能耗,拥有架构简约、系统可靠、智能监控等特性,PUE可降至1.1及以下。

在典型配置下,云燧智算机每单元可达到8PFLOPS的TF32浮点算力,并且支持按需横向扩容,可支持数千卡规模集群,突破E级算力,打造业界领先的超级算力集群。

二、燧池智算平台:支持超千亿参数巨量模型的高效并行训练

目前算力构成复杂,呈现多CPU架构、多异构计算单元特征,并且考虑到集群本身一般服务于多用户、多场景的特性,如要能够对上层用户屏蔽底层算力异构性、赋能用户高效开发与部署上线AI应用,真正释放集群作为生产力工具的价值,软件是关键要素

今日燧原推出的燧池智算平台(CloudBlazer Station),是一款全栈式AI开发服务平台和通用的大规模算力管理平台。

燧原推出云燧智算机,助攻打造高性能AI加速集群,最高支持E级算力▲燧池智算平台

结合云燧AI算力集群和先进的大规模算力资源调度,燧池智算平台为用户提供AI模型生产及应用发布的全流程服务,能够一站式满足复杂的AI业务场景对AI服务的需求。

大规模数据训练超大参数量的巨量模型是AI的发展方向,“预训练大模型+下游任务微调”的模型开发方式将极大提升企业的AI应用开发效率,开发者只需要少量行业数据就可以快速开发出精度更高、泛化能力更强的AI模型。

而训练出一个大模型,除了算法和数据,还需要超大规模的算力支撑。

据悉,基于云燧智算机所构成的大规模集群解决方案,采用高带宽、全互联拓扑架构,计算、存储、管理网络全分离,计算节点内基于GCU-LARE2.0多芯互联技术提供近1TB/s的互联带宽,跨节点互联能力高达600Gb/s,可实现千卡级大规模集群高速互联,具备优异的线性加速比以支撑超千亿参数巨量模型的高效、并行训练。

结语:软硬协同,沿循绿色低碳数据中心所需

云燧智算机是结合了云燧训练和推理产品在行业落地的实践经验,以全方位降低AI算力中心部署和应用成本为目标所推出的系统一体化产品。

今日燧原推出的两款硬件和软件新品面向大规模、集约化、绿色低碳数据中心建设。燧原科技创始人兼COO张亚林说:“我们始终专注于客户的价值和体验,致力于为客户提供完备且易用的人工智能系统软硬件产品,同时积极响应国家绿色低碳高质量发展的战略目标。”

 

https://zhidx.com/p/344261.html

Discussions
Be the first to like this. Showing 0 of 0 comments

Post a Comment