近日,清华大学姚期智院士代表中国Chiplet产业联盟,联合国内外IP厂商、国内领先封装厂商、国内领先系统与应用厂商共同发布了《芯粒互联接口标准》- Advanced Cost-driven Chiplet Interface(ACC),该标准由交叉信息核心技术研究院牵头,中国Chiplet产业联盟共同起草。目前该标准涉及相关的团体标准、行业标准在申请中。
那到底什么是芯粒互联以组成chiplet?为什么 chiplet 需要标准?中国科学院计算技术研究所互连技术实验室早在2021年就在一篇文章中进行了详细的阐述。
从 5nm 工艺节点开始,集成电路先进制程的演进可能停滞,而继续提升制程,由于面 临隧道效应,从工艺上面临较大的困难,有一种说法是先进制程演变到 1nm,可能需要 100 年,这种说法虽然有点夸张,但可以理解摩尔定律再也不会像以前那样实现每 18 个月提升 一倍晶体管密度的步伐,这给需要通过先进制程的演变不断提升性能的芯片设计带来比较大 的问题。
工业界已经围绕这个问题,开始寻找解决方案,一种可行的解决办法是采用 chip-let(小 芯片)的架构设计芯片。Chip-let 是一种把传统的单芯片设计方案改成多芯片进行设计,并 利用先进封装工艺进行集成的设计方法。由于在传统的芯片设计中,本来就存在多个功能单 元,以及某些功能单元如计算部分存在模块化的设计以方便多次复用以降低设计成本,因此 在基于 chip-let 架构设计的芯片中,主要是把多个功能单元分别用单独的芯片设计实现或者 把模块化多次复制的单元用多个单独的芯片进行设计,最终通过先进的封装工艺实现集成。 这种设计方案主要有以下好处:
提升芯片制造良率。由于良率和芯片的面积有关系,越大可能越低,因此当把一个大的 芯片分拆成多个小芯片设计并分别投片,就可以提高良率,从而可能降低芯片的制造成本。
以不同的工艺实现一颗芯片,在利用先进制程的同时降低整体的实现代价。由于数字电 路往往可以从先进制程的演进中得到好处,然而模拟电路往往性能随着先进制程的演进性能 提升并不大,因此如果将芯片中负责计算的部分(通常是数字电路)和负责 I/O 的部分(通 常以模拟电路为主)分开各自以不同的工艺实现,则在充分利用了先进制程的工艺的同时, 又降低了整体的实现成本,因为采用老的工艺实现 I/O 模块更为经济。
实现产品的设计灵活性,一个产品架构可以应用于不同的应用场景。这一点,在 AMD 的产品设计中被展现的淋漓尽致,AMD 从 Zen(AMD CPU 的架构代码)第一代设计即采用了 chip-let 的方式,这种方式使 AMD 可以在 PC 和服务器之间共享同一个 CPU 芯片架构,PC 和服务器 CPU 产品的区别只是不同的核数,或者可能采用不同的 I/O die(封装前的裸芯片), 这种架构极大的降低了其设计成本,成为 AMD 成功的重要因素之一。
本文将从 chip-let 的设计场景入手,对 chip-let 设计过程中需要的一些技术组件进行介 绍,针对为什么 chip-let 架构的芯片设计过程中需要标准以及其可能发挥的作用进行分析, 得出在我国制订 chip-let 标准的必要性。
从目前微电子芯片发展的情况看,越来越多的芯片设计场景需要使用 chip-let 架构进行 设计,这主要体现在需要先进制程以进一步提升 PPA(power,performance,area)的芯片 设计场景,如消费电子产品中的 CPU、服务器 CPU/AI 加速芯片、网络中交换机(switch)/ 路由器(router)芯片等,由于先进制程的演进受阻,这些芯片设计场景转而选择 chip-let 架构设计芯片,以维持摩尔定律的发展。
消费电子产品中基于 chip-let 架构的 CPU 芯片案例以 intel 公司于 19年发布的 lakefield 为典型。Intel 在 lakefield CPU 中使用了三维(3D logic)的方式,这是一种典型的 chip-let 方式的芯片,不过基于 intel 的私有技术 foveros 开发;lakefield 由 3 层 die 组成,顶层为片 上内存 die,中间一层为计算 die,包括了 1 个大核 Sunny cove,4 个小核 Tremont,还包括 了 GPU,IPU(信号处理)等计算的核心,最下面一层为 base die,主要是各种协议的 IO 功 能,如 USB,PCIe 等。
数据中心服务器产品中基于 chip-let 架构的 CPU 芯片案例以 AMD 的 ZEN 系列为主, 从 ZEN 第一代开始,AMD 即采用了基于 chip-let 的架构设计芯片,ZEN-1 架构的服务器产 品 naples 为 4 个同样结构的 die(均含有计算的核和 DDR 内存以及 I/O 功能,I/O 功能主要 包括 PCIe,以太网,CPU 片间互连等)通过 IFOP(Infinity Fabric on Package,一种片内互 连物理层技术)互连技术相连,ZEN-2 架构的服务器产品 roma 为 8 个计算核心的 die 通过 升级版的 IFOP 互连技术和一个 I/O die(将 DDR 和 I/O 功能独立出来)互连,ZEN-3 的架 构基本和 ZEN-2 相同。与消费电子产品的 CPU 不同的是,服务器 CPU 中很少有 GPU 和 IPU 等功能。
值得注意的是,在高端芯片上被广泛应用的 HBM(High Bandwidth Memory)本身即是 一种 chip-let 技术,HBM 本质上是 DRAM 芯片通过 TSV(Through Silicon Via)连接并堆叠 在一起,目前一般为 2/4 层,然后通过一个 logic die,经由基板(interposer)和计算 die 如 GPU 或者 AI 芯片完成互连;在大多数应用 HBM 的场景如各种 AI 芯片中,HBM 被用来提供 高带宽的内存解决方案,以 chip-let 的方式通过先进封装和 GPU 或其他类型的 AI 芯片集成 在一起。
数据中心 switch/router 产品中的 chip-let 案例以 intel 收购的 barefoot 为典型。Barefoot 的 tofino-2 芯片,采用了 chip-let 的方式设计芯片,整个芯片有一个主 die 和 4 个 serdes tile(die)通过基于并行单端信号的接口相连,主 die 主要由多个网络报文处理流水线和 MAC (实现以太网协议中的链路层功能)组成,由于 switch ASIC 的吞吐量越来越大,而 serdes 在整个 switch 芯片中占的面积约来越大,因此将 serdes 部分用 chip-let 方式分离单独设计 和投片,可以提升整体良率,简化整个芯片的设计,并且让芯片架构更加灵活化。值得注意 的是 switch/router 中的计算核心功能是分组报文处理流水线及链路层 MAC 功能,这点和服 务器 CPU 又有所不同。
由上可见,这么多应用场景都会用到 chip-let 的方式设计芯片,似乎看起来 chip-let 芯 片的设计不太可能有一种标准支持。然而,事实上,在多种 chip-let 场景中,真正用于多个 die 之间互连的总线接口只有 3 种方式,一种基于大量单端信号,另外一种是基于差分信号, 还有一种是介于两者之间,信号为单端,时钟信号则采用了差分方式传递。这个原因是因为 chip-let 架构中多个 chip-let 之间通常在物理层互连,主要用于在 die 和 die 之间架设物理 数据通道,而在物理层实现互连则主要考虑电气性能如何达到、数据速率的匹配(并串转换 等),一般不会涉及到协议层面的通信,而协议通常和应用场景有关系,一个可以用作对比 的例子是,chip-let 之间的关系有点像在整个网络中的二层交换机和三层路由器的作用,交 换机和路由器通常只负责在 OSI 协议的第二层和第三层进行连接和交互(转发),不会涉及 到应用层的会话,而第二层和第三层的协议种类则相对要少的多,类似交换机和路由器在整 个 OSI 协议中的功能,多 die 之间的互连通信协议种类不会太多,因此存在制订标准的可行 性空间。
然而,基于 chip-let 架构进行芯片设计到目前为止,国际上尚无公认标准,由于该技术 的门槛较高,如果自己全部完成设计,需要芯片厂商从芯片整体的架构设计、到其中并行或 者串行物理层接口、甚至先进封装能力全部具备,目前唯一具备这些能力的厂商是 intel 公 司,intel 公司提出了一种叫 AIB(Advanced Interface Bus)的 chip-let 物理层协议,并借用 自有的先进封装技术 EMIB(Embedded Multi-Die Interconnect Bridge),可以实现 chip-let 方式的芯片设计,美国 Ayar lab 即采用了 AIB 协议实现其设计的 Optic I/O die 与 Intel FPGA 连接,实现芯片级光 I/O 功能;而 AMD 公司的 ZEN-3 采用台积电的 CoWos(Chip-onWafer-on-Substrate) 2.5D 先进封装技术,ZEN-4 则可能采用台积电的 SOIC 3D 先进封装 技术。
在我国,目前具备这种整体能力的芯片厂商极少,大多数芯片厂商还是依赖芯片 IP 厂 商提供并行物理层或者串行物理层 IP,台积电提供先进封装能力(如 CoWos 等封装技术), 因此首先需要形成完整的、面向 chip-let 架构设计芯片的社会分工,但在这方面目前我国的 情况还不太理想,如目前只有 2-3 家 IP 厂商可以为系统芯片厂商提供高速串行物理层 IP, 而串行物理层 IP 在某些场景如 C2C(计算 die-计算 die 互连)存在延时较大的弊端,至于 高带宽密度的并行物理层 IP 则能够提供的厂商更少,在基于并行物理层设计 chip-let 架构 的芯片时,由于在极其狭小空间中高速信号的数目太多,因此信号完整性问题引起的挑战更 大;另外一方面,基于 chip-let 架构的芯片强烈依赖于先进封装技术,但我国在先进封装技 术方面如高密度的基板/interposer 设计、大尺寸的基板材料、小尺寸 bump 方面都还比较薄 弱,因此短期看,设计 chip-let 架构的芯片可能还是需要依赖国外厂商的先进封装技术,但 从长远发展看有必要提前展开相应的研究工作,面向 chip-let 应用场景,研究和开发高性能 的串行/并行物理层技术以及相应的先进封装技术。
在形成围绕 chip-let 设计的广泛设计分工基础之上,形成 chip-let 标准则更加重要,由 于我国绝大多数芯片厂商并不能自行完成基于 chip-let 架构的芯片设计和制造闭环,在形成 广泛的设计分工之后,就必须有一个标准,以规定设计分工中的各种部件如各种不同的功能 die 的规格和各种接口通信约束条件,在每一个设计链条节点上推动形成多家技术供应商, 形成良性竞争,把整个市场做大,使 SOC 系统厂商有充分的选择空间,避免形成商业垄断, 最终阻碍 chip-let 技术和生态的发展壮大。
在有了 chip-let 的标准以后,还需要进行充分的技术验证,相比传统的单芯片设计,基 于 chip-let 架构设计的芯片,由多个不同功能的 die、或者不同工艺的 die 组成,因此必须 经过实际的验证,才能最终通过先进封装实现互连,因此 chip-let 标准的制订必须要延伸到 实现各种各样的参考设计,并且要保证所有的参考设计都完成验证,才能为标准的制订画上 句号,因此 chip-let 标准的制订十分挑战,需要大量的技术工作,时间周期也比较长。
综上所述,在我国,制订、形成一个 chip-let 的标准,推动芯片设计厂商和各种 IP 厂商 围绕标准开发和设计 chip-let 架构的芯片,有一定的必要性和意义。
综上所述,鉴于 chip-let 芯片设计概念的飞速发展,以及我国芯片设计行业所涌现出的 需求,结合先进制程演进放缓的现实情况,制订一个我国需要的 chip-let 标准逐渐变得非常 必要;中国计算机互连技术联盟(CCITA)目前已经围绕 chip-let 展开了标准制订工作,主 要工作集中在物理电气层、PCS 物理编码层,并对 chip-let 所需要的先进封装概念,进行了 探索,力图找到一种或者几种成本低廉、重点针对 chip-let 芯片架构、可以覆盖 80%以上应 用场景的先进封装手段,并能够基于国内的封装技术基础实现,以推动 chip-let 全产业链条 的自主化;在此基础上,CCITA 的 chip-let 标准也会支持 CoWos 等先进封装技术。
目前 CCITA 的 chip-let 标准已经经过提案阶段,正在进行标准草案制订工作,预计将于 2021 年底发布标准草案,并于 2022 年年中进行技术验证,2022 年底正式完成标准制定工 作。
参考资料:
声明:本文素材来源于网络,仅供学习使用,如有侵权请联系网站删除(ngdcn_admin@163.com)。
有话要说...