Future Tech

[转贴] 亚洲最大!上海“巨无霸”AI计算中心投用,支持万亿参数大模型训练

Tan KW
Publish date: Tue, 25 Jan 2022, 07:51 AM
Tan KW
0 464,633
Future Tech
亚洲最大!上海“巨无霸”AI计算中心投用,支持万亿参数大模型训练

智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影

智东西1月24日消息,今日,位于上海临港新片区的商汤科技人工智能计算中心(AIDC)正式投入使用。

商汤从2018年4月开始布局人工智能(AI)计算原型机研制项目,到2020年3月,AIDC项目正式立项启动。从开工建设到主体结构封顶,AIDC仅用时168天,刷新了临港建设的新纪录。

这是亚洲最大的超算中心之一,也是华东地区首个落地运营的超大型人工智能计算中心,具有开放、大规模、低碳、节能等特点。

该计算中心建筑面积13万平方米、项目总投资约56亿元、一期共5000个等效8000瓦的机柜,满载运行时算力可达3740PetaFLOPS(1PetaFLOPS为每秒千万亿次浮点运算),二期正在规划中,大体会是一期体量的1~2倍。

截至2021年6月30日,商汤已经战略性地在主要区域市场建立了23个人工智能超级计算集群,拥有超过20000块GPU,总算力达到每秒1.17百亿亿次浮点运算。AIDC投入使用后,商汤总算力将超过每秒4.91百亿亿次浮点运算。

近日,商汤科技联合创始人、副总裁杨帆接受智东西等媒体的采访。杨帆透露道,AIDC的目标是在2025年成为商汤的支撑性业务之一。

据悉,AIDC当前可完成10000亿参数模型的完整训练。未来商汤内部研发体系都将架设在AIDC上,预计到2024年所有服务器到位时,AIDC的国产化硬件比例将超过50%。

亚洲最大!上海“巨无霸”AI计算中心投用,支持万亿参数大模型训练

 一、对内支撑AI大装置,对外提供三类业务

AIDC能做什么?

对内,AIDC是商汤通用AI基础设施SenseCore商汤AI大装置的算力底座,AI大装置所囊括的所有软件平台及服务均运行在AIDC的物理实体上。

对外,AIDC可以独立提供算力支撑。商汤将通过AIDC把AI大装置的技术能力开放给产学界合作伙伴,让更多客户在商汤的云平台上获取AI-as-a-Service服务,灵活订阅各种预训练AI模型,从而降低各行业大规模AI应用的准入壁垒。

从计算能力来看,AIDC堪称“巨无霸”。

其总算力达3740PetaFLOPS,1天内可处理时长相当于23600年的视频,等同于从旧石器时代晚期不间断录制到今天的长度。

当前AIDC在1天内可完成10000亿参数视觉领域大模型的完整训练。基于这一超大模型,可以衍生出超过2万多个商用模型,帮助产业界以极低的下游数据采集成本,快速验证多个新场景。

此外,基于超大规模弹性可扩展算力,AIDC可保障对外运营的AI模型训练大规模算力需求。

作为底层支撑,AIDC运行后主要提供三类业务路线:第一类,向医疗蛋白质折叠、量子科学等AI+Science基础科研提供算力支持;第二类,提供整合能力,帮助企业建设一整套生产工具体系;第三类,提供端到端的智慧化服务。

杨帆称,通过AIDC的支撑,一个算法的生产成本可能下降为过去的1/10,甚至更低。

亚洲最大!上海“巨无霸”AI计算中心投用,支持万亿参数大模型训练

通过直连新型互联网交换中心,AIDC不仅能够为客户提供就近接入服务,解决跨网访问等难题,还可以提高企业间信息交互效率、降低传输成本,提升传输质量和稳定性,实现多点、多用户的快速网间互联。

据悉,在正式建成前,商汤已有潜在的客户和合作伙伴在AIDC上进行了一些试运行。春节后,AIDC将进入正式使用状态。

比如商汤在上海做的一网统管,为上海政府的公共服务提供了涉及垃圾满溢、井盖丢失、灯箱损坏、自行车乱停乱放、违章占道等各种城市服务管理的约上百种AI算法应用,这些算法的迭代生产,依赖的即是AIDC这样的基础设施。

“通过AIDC,通过里面的软件整合,我觉得我们有信心在未来的两到三年之内,我们能够实现在同等规模算力下,国产的软硬一体的成本、对客户的成本,降得更低,这个其实是一个我比较期待的目标。”杨帆说。

二、低算力成本,加速国产AI芯片市场化进程

目前,商汤正在探索从国产芯片、国产服务器、自研训练框架、算法和落地行业应用的AI大生态建设。

在CAPEX投资成本方面,AIDC可以降低自研国产芯片单位算力成本;在OPEX运营成本方面,得益于算法优化的优势,训练时长更短、效率更高、占用资源更小。

我们计划是3740PetaFLOPS里面应该会不少于50%的国产芯片做核心AI芯片来使用。”杨帆说,临港AIDC只是一个,商汤还有更多区域的AIDC布局建设正在推进中,AIDC整体会以训练为主,也会有一些推理,但占比较低。

他提到过去两年,商汤与多家国内AI芯片厂商展开了大量合作,希望加快国产云端AI芯片及相应服务器在市场更大规模、更大范围地使用。

据悉,AIDC当前试运营机器里已有一部分国产化比例,该比例的提升对于AI全产业链整体成本的下降、整体服务水平的提升、在硬件侧形成更加良性的商业竞争环境等方面将带来很大的价值。

亚洲最大!上海“巨无霸”AI计算中心投用,支持万亿参数大模型训练

过去两年,商汤在持续推动国产AI核心软硬件之间的适配。为了促进这件事情,商汤在2021年7月上海世界人工智能大会上牵头成立了“人工智能算力产业生态联盟”,简称“ICPA智算联盟”。

商汤将基于AIDC,促进AI生态的构建,推动国产原创技术的落地应用。

杨帆分享道,从成立ICPA算力联盟开始,联盟每一季度都会组织一到两次的齐聚芯片设计专家、软件设计专家、软件设计专家、行业标准专家的深度闭门研讨会。

在前期,商汤希望形成一个足够标准、通用的软硬件接口层的定义。

作为亚洲最大AI软件平台公司,商汤既有核心平台层和操作系统层的软件能力,又有大量下游应用,跟各个国产硬件、芯片厂商做核心软件、系统的适配,能帮他们节省研发费用和时间成本。

中期的工作是,商汤在临港AIDC投入运营之后,会跟中国电子技术标准化研究院(工业和信息化部电子第四研究院)建立“CESI-SenseTime人工智能算力及芯片评测联合实验室”,开展AI算力和芯片标准制定、AI芯片测评工具开发,提供AI计算中心、芯片测试验证服务和人才培训等支持。

该实验室未来将成为中立的第三方AI芯片、AI服务器测评机构,为产业提供参考标准,也促进每个硬件厂商更好地提升自家产品。

面向长期,由于商汤自身有大量下游产业应用,商汤将不遗余力地把相对较好的国产AI芯片及其服务器,导入整合到自己及合作伙伴的解决方案,将它快速推向市场。

三、六大技术亮点,解读AIDC建设的硬实力

商汤的AIDC通过其大规模数据处理及高性能计算的能力,为研发提供支持。

杨帆强调说,AIDC的算力并非堆砌,其中涉及许多通信侧、存储侧的领先技术。在高性能计算、分布式调度、数据I/O、软硬件协同以及系统安全方面,AIDC均实现了多重突破。

亚洲最大!上海“巨无霸”AI计算中心投用,支持万亿参数大模型训练

 

https://zhidx.com/p/314359.html

Discussions
Be the first to like this. Showing 0 of 0 comments

Post a Comment