Future Tech

[转贴] DAC大会台积电首席科学家演讲:DTCO技术为芯片密度提高做出主要贡献

Tan KW
Publish date: Thu, 23 Jul 2020, 10:55 PM
Tan KW
0 466,688
Future Tech
DAC大会台积电首席科学家演讲:DTCO技术为芯片密度提高做出主要贡献

芯东西(公众号:aichip001)
编 | 心缘

芯东西7月23日消息,对于开发集成电路(IC)和片上系统(SoC)的人来说,DAC大会都是极重要而全面的会议,电子设计自动化(EDA)领域最先进的公司和研究机构汇聚于此,展示他们最前沿的技术或研究项目。

就在本周二,第57届DAC 2000正式开幕,这也是DAC大会首次在线上虚拟举办。会议为期五天,覆盖有关人工智能、机器学习、安全性、电子设计和基于云设计的最新研究与开发。

在开幕式上,台积电首席科学家、斯坦福大学教授黄汉森(Philip Wong)发表主题演讲。 黄汉森聚焦在数据分析、机器学习、AI技术趋势,主要探讨GPU和加速器系统。

他提到,半导体技术是经济增长、保护环境、改善医疗保健和教育的关键。世界各国也已经意识到这种对国家安全和能源领导的重要性。

过去50年中,半导体技术的发展类似于在隧道内行走,前面有一道明确清晰的道路,每个人都知道需要做什么。

现在我们正在接近隧道的尽头,技术变得很难做,创新和敏锐的眼光对于21世纪社会关键技术的持续发展必不可少。

对此,黄汉森教授概述了几个重要技术方向。

首先,晶体管的数量与峰值吞吐量相关,可通过DTCO技术提升晶体管密度。

其次,逻辑与内存集成,使内存尽可能接近逻辑,并增加逻辑与内存之间的IO数量,最重要的是增加峰值带宽和内存带宽。从封装技术到晶圆级集成等很多技术选择越来越多地融合。

此外,最佳执行系统分区的新设计工具将变得必不可少,系统分区需要跨管芯执行。

最后,黄汉森教授谈到创新的民主化。在应用和系统驱动的世界中,拥有一个促进创新的生态系统非常重要。

芯东西对黄汉森教授的演讲进行梳理,以下为核心内容:

21世纪的应用将是以数据为中心的,数据分析和机器学习应用将主导从数据中心到移动和物联网的数据收集、处理和评估。许多系统将需要动态学习和适应以获得信息。

在此次演讲中,黄汉森教授将重点关注数据分析、机器学习和人工智能等技术趋势,这意味着我将把我的注意力和讨论集中在像GPU和加速器这样的系统上。

一、芯片性能峰值与晶体管数量强相关

数据移动是一大关键瓶颈,数据移动所造成的能耗是当今需要解决的问题。

DAC大会台积电首席科学家演讲:DTCO技术为芯片密度提高做出主要贡献

上图显示了几个经典深度学习应用工作负载的数据,硬件配置列在底部。可以看到,绝大多数能耗发生在内存访问中,包括存储器产生的能耗,和等待片外内存的数据时计算所产生的能耗。

这是个挑战,也是巨大收获的机会,如果我们可以专注于开发具有系统性能的技术。

考虑到这一点,我们先看看半导体技术在过去几十年中为我们提供了什么,然后对未来做出了一些预测。

迄今为止,2D微缩(2D Scaling)技术一直在推动半导体技术的发展。晶体管、逻辑门、高密度SRAM、标准单元布局密度都在以指数级增长,而规模扩展是技术的驱动力。

但如果回顾历史,会发现仅用一种方法无法维持某些技术的进步,摩尔定律通过各种创新得以维系。

DAC大会台积电首席科学家演讲:DTCO技术为芯片密度提高做出主要贡献

起初是Dennard微缩定律,即随着晶体管尺寸缩小,它们变得更快、更节约能耗。当制程节点进化变慢,我们转而用应变硅和高k金属栅极实现等效微缩。

当平面晶体管达到极限时,我们采用了3D晶体管结构并引入了FinFET技术。如今,密度的提高大多来自设计-工艺协同优化(DTCO)技术。

2D微缩技术的革新增加了晶体管密度,从而降低了成本,并带来了其他系统优势。我们用实验说明器件密度的好处。下图左侧是具有器件密度高的芯片;右侧是器件密度低的芯片,但其晶体管具有速度、能量和功率效率等高性能。

DAC大会台积电首席科学家演讲:DTCO技术为芯片密度提高做出主要贡献

对于右边的芯片,即使晶体管本身也具有良好的性能,对整个芯片和整个系统帮助不大。

因为如果没有密度,可用器件的数量将很少,没有足够的内存或缓存,也就不会有多核芯片,因为多核芯片需要更多的晶体管来实现多进程。出于同样的原因,也不会加速器。

此外,由于该器件彼此相距较远,所以长导线会使芯片延时变长,它们的能耗也比晶体管彼此靠近的芯片要高得多。

而丰富的数据计算(或以数据为中心的计算) 的出现,为通过平衡灵活性、增益系统吞吐量和能效、进一步优化系统吞吐量创造了机会。

DAC大会台积电首席科学家演讲:DTCO技术为芯片密度提高做出主要贡献

上图y轴显示系统吞吐量,x轴显示可以执行的任务范围。 CPU可以执行各种任务,并且一直是计算的主体。以数据为中心的计算支持领域特定架构(DSA),如GPU、TPU和类似的加速器,因为它们能够以大规模并行的方式高速且高能效执行一组特定领域的任务。

黄汉森教授分享了一篇7月ACM新发表论文中定义的现代GPU和加速器用来提高性能效率的四种主要技术。

(1)特定数据:执行内循环功能的专用逻辑可提高性能和效率;

(2)并行性:并行单元利用本地性、局部性,几乎不会进行全局内存引用;

(3)本地化&优化内存:将关键数据结构存储在许多小型本地内存中,以低成本和低能耗实现很高的内存带宽;

(4)减少开销:专用硬件减少了程序解释的开销。

所有这些架构都依赖于有大量晶体管以特定方式来获得性能和能效。例如下图所示,GPU峰值吞吐量与晶体管数量具有很强的相关性。

DAC大会台积电首席科学家演讲:DTCO技术为芯片密度提高做出主要贡献

今天,我们需要采取自顶向下(top-down)的方法。

设计选择取决于系统技术选项,需要坚持不懈地进行创新,以使系统达到最佳解决方案。如果中间或底部存在漏洞,那么无论顶层看起来多么好,堆栈都会崩塌。

DAC大会台积电首席科学家演讲:DTCO技术为芯片密度提高做出主要贡献

首先,让我们看一下使用Roofline模型从系统角度评估性能的情况。

Roofline模型提出使用计算强度(Operational Intensity)进行定量分析的方法,将计算量和放存量放到同一张图上,从而将其峰值性能可视化。理想情况下,峰值吞吐量和内存带宽的过程应同时提高。

DAC大会台积电首席科学家演讲:DTCO技术为芯片密度提高做出主要贡献

峰值吞吐量是核心数量、核心频率、每周期操作数的乘积,决定红线的高度;内存带宽是总线宽度、总线频率和数据速率的成绩,决定蓝线的斜率。

其中,核心频率、总线频率受功率密度和散热设计功耗(TDP)限制,每周期操作数、数据速率取决于手头任务、架构设计和行业标准。

诸如此类的体系架构技巧有待改进。对于处理器而言,增长关键是引入更多并行性来实现峰值吞吐量;对于内存带宽,总线宽度最有可能增长,因为此类技术已准备就绪。

这些机会也表明我们需要更多的晶体管、更多的存储器以及晶体管和存储器之间的更多连接,将它们组合在一起以提高系统吞吐量。

接下来,黄汉森教授将基于服务器和数据中心GPU与吞吐量和带宽相关的趋势来说明这些观点。

自2007年以来,峰值吞吐量平均每两年增长1.8倍,其增长主要归因于核心数量,与芯片上晶体管数量也直接相关。

DAC大会台积电首席科学家演讲:DTCO技术为芯片密度提高做出主要贡献

关键的应用重点已从以CPU为主变为以GPU为主,随着这种变化,半导体器件技术已通过提供更多晶体管找到了性能提升的新领域,并以最终产品应用可接受的成本提供这些晶体管。

当然,我们还需在多个体系架构方面取得进展。要说明的是,没有任何一个抽象层可以单独解决所有问题。

DAC大会台积电首席科学家演讲:DTCO技术为芯片密度提高做出主要贡献

晶体管的数量主要由晶体管密度驱动,每两年增加约1.6倍,而芯片面积增加的贡献很小。

其中芯片的数字部分以比上图所示更快的速度增长,因为芯片的模拟和IO等其他部分的增长速度比数字部分慢。

DAC大会台积电首席科学家演讲:DTCO技术为芯片密度提高做出主要贡献

如图,蓝色数据点显示的晶体管密度,每两年增长约1.84倍。再过去十年中,晶体管密度持续提高的趋势没有改变。

例如,用红色数据点表示的接触栅极间距(CPP)与最小金属间距(MP)的乘积所表示的密度,每两年仅增长约1.69倍。

为密度提高做出主要贡献的是DTCO技术,黄汉森教授认为,这种晶体管数量趋势将持续相当长的一段时间。有些来自持续扩展,有些来自集成,有些来自DTCO。

DAC大会台积电首席科学家演讲:DTCO技术为芯片密度提高做出主要贡献

如图是DTCO如何提升逻辑密度的示例。从移动、笔记本、台式机、服务器、工作站到超级计算机,所有计算系统的晶体管数量与内存量之间的关系都接近1:1,八个数量级以上的相关性非常惊人。

因此,我们将假定内存容量不是限制因素。

接下来再谈谈内存带宽。内存带宽是数据速率、总线频率、IO数量或总线宽度(以字节为单位)的乘积。总线频率可以提高带宽,但以增加功率为代价。

内存峰值带宽每两年增长约1.56倍,比逻辑每两年增长1.8倍的速度慢。因此,内存带宽不足且限制了系统吞吐量。

二、3D芯片需平衡逻辑与存储,I/O连接数量成增加带宽的重要指标

在较早的论文中,David Paterson教授曾提出建议:如果一切都以相同的速度改善,那么什么都不会改变。

这又需要在计算内存集成方面进行创新。

DAC大会台积电首席科学家演讲:DTCO技术为芯片密度提高做出主要贡献

计算内存集成有多种方式。如图是传统2D系统,作为基线进行比较。该系统通过有限的I/O连接到硅逻辑裸片的印刷电路板上的插座中。

DAC大会台积电首席科学家演讲:DTCO技术为芯片密度提高做出主要贡献

进一步是2.5D系统,其中HBM型DRAM通过硅中介层与硅逻辑芯片连接,并且比2D系统有更多I/O。

DAC大会台积电首席科学家演讲:DTCO技术为芯片密度提高做出主要贡献

再进一步,想象一下将HBM型DRAM堆叠在具有TSV和微型凸块的硅通孔的硅逻辑管芯上,我们可以得到微米级的连接。在单个3D芯片上,TSV间距可以降至个位数微米级。

DAC大会台积电首席科学家演讲:DTCO技术为芯片密度提高做出主要贡献

通过单片3D集成可以获得更细的颗粒和更紧密的连通性,这被称为N3XT系统。其愿景是包含多层逻辑和内存层。内存层覆盖了从高速内存到大容量内存的范围,高容量存储器如绿色块所示,可用3D形式实现高密度。

DAC大会台积电首席科学家演讲:DTCO技术为芯片密度提高做出主要贡献

这是N3XT纳米系统的示例。芯片上需要有大量的逻辑晶体管,同时,3D芯片上的逻辑与内存需要保持平衡。因此,同一芯片上需要有多层逻辑和存储器,这些逻辑存储层将最终相互领先,并与超高密度细孔相连。

实际上,过去十年,使用各种芯片级和晶圆级技术,与先进封装相关的垂直互连密度可提高约3-4个数量级。

DAC大会台积电首席科学家演讲:DTCO技术为芯片密度提高做出主要贡献

当今最先进的TSV间距约为5至10微米,使用晶圆对晶片或SoIC技术时,间距约为1微米。

晶圆级、单片集成技术和封装技术将在未来平稳地融合在一起,单片集成实际上是2.5D和3D封装的连续体,包括芯片级和晶圆级封装。重要的是连接数量、连接密度以及运输数据的能耗,而不是实现这些数据的特定方式。

如图所示,连接密度花费了7个数量级以上,从今天的晶圆上芯片解决方案到明天的3D集成,至少要获得3-4个数量级的改进。

总的来看,为了充分描述未来的技术,需要从系统角度看待数据分析和AI等丰富的数据应用,峰值吞吐量和峰值内存带宽将是两个关键指标 。

DAC大会台积电首席科学家演讲:DTCO技术为芯片密度提高做出主要贡献

上图是2007年至2019年的GPU类产品,峰值吞吐量和峰值内存带宽都被提高。通过红色箭头可以看到,峰值吞吐量的增长速度快于峰值内存带宽,即便在相同的逻辑模式下,这也为系统改进创造了机会。

有三个指标将反映未来半导体技术的最重要属性:逻辑密度(DL),存储密度(DM),逻辑与存储之间的互连密度(DC)。

DAC大会台积电首席科学家演讲:DTCO技术为芯片密度提高做出主要贡献

三、芯片设计工具优化将释放大量硬件创新

在应用和系统驱动的世界中,拥有一个促进创新的生态系统非常重要。

如今,芯片设计是一项非常昂贵的活动,仅有少数几个最先进的技术公司才能负担得起。

这致使硬件系统的创新仅限于一小部分工程师,而软件应用的创新通常来自社会广泛的领域。

如果设计工具和生态系统能降低进入芯片设计和系统实施的门槛,那么硬件方面的大量创新将被释放。

我们将看到应用程序和系统设计的复兴。理想情况下,硬件创新将变得像编写一段软件代码一样容易。

DAC大会台积电首席科学家演讲:DTCO技术为芯片密度提高做出主要贡献

如果有一天,即使是高中生,也可以设计自己的芯片,并以易于编写软件的方式演示应用,那么我们将可以释放出许多创新来改善社会。

黄汉森教授相信,这个梦想终有一天会实现。

 

https://zhidx.com/p/224654.html

Discussions
Be the first to like this. Showing 0 of 0 comments

Post a Comment