首页
行业动态
网络学院
TCP/IP
RDMA
IGP & BGP
技术博客
AI & 大模型
云 & 计算
交换机
SDN
流量控制
拥塞控制
网络拓扑
接口 & 协议
存储
RDMA
网络仿真
运维&管理
顶级会议
SIGCOMM
NSDI
APNet
ICNP
其他论文
关于我们
当前位置:
首页
>
云 & 计算
> 正文
破局“内存墙”,存算一体路线分析
云 & 计算
2022-10-06
1313
更新:2022-10-09 22:10:26
> 来源:内容来自半导体行业观察(ID:icbank)原创,作者:李飞。 随着人工智能应用的普及,云端相关的计算需求也在相应上升。对于基于神经网络的人工智能来说,算力是实现高性能模型的关键资源。 在云端的人工智能计算中,“内存墙”是一个重要的性能瓶颈。在目前的主流计算机架构中,处理和存储是两个截然不同的部分,而随着摩尔定律几十年来的发展,事实上存储器(尤其是主存DRAM)的性能发展是要远远落后于处理器的计算逻辑性能发展的,因此DRAM速度(包括存取和接口)就成为了限制云端算力发展的一个瓶颈。另一方面,云端人工智能模型的发展潮流是模型参数越来越多,例如在推荐系统这样的云端人工智能传统项目中,典型模型的尺寸达到GB数量级;而在语音识别、自然语言处理、计算机视觉这样的领域中,最近随着transformer类模型逐渐占据主流,模型的参数量也在上升。这两者相结合,就是一方面人工智能计算对于内存的需求越来越高,而另一方面传统的DRAM方案并不能满足云端人工智能的需求。 在这样的情况下,存算一体的方案正在获得越来越多的关注,并且正在慢慢由研究领域进入商用化。存算一体是指将内存和计算以相比传统计算机架构更紧密地结合在一起,从而减少内存访问带来地开销,并且解决“内存墙”问题。在云端计算的应用场景,存算一体方案主要是围绕DRAM去做创新,希望能将计算和DRAM能集成到一起,并以此降低内存访问的能量和延迟。对于具体的做法,实际上有两条主流技术路线:即近内存计算(near-memory computing)和存内计算(in-memory computing)。 业内巨头在相关领域有所动作,往往是一项技术走向成熟和商用的标志。对于云端存算一体来说,我们最近看到三星和阿里巴巴在这个领域都有相关技术发表。三星在今年下半年的顶级商用芯片会议HotChips上发表了HBM2-PIM相关的技术,而阿里巴巴在基于3D封装实现存算一体的论文则收录在明年二月即将召开的国际固态半导体电路会议(ISSCC)上。从技术路线上来说,三星主要是走存内计算的路线,同时也兼顾近内存计算;而阿里巴巴目前则主要是针对近内存计算做开发。 # 三星的存内计算路线 三星的存内计算技术称为“Aquabolt-XL”,主要是基于其HBM2 DRAM技术做了存内计算(HBM2-PIM)。具体来说,Aquabolt-XL在HBM2 DRAM内部集成了计算逻辑,因此拥有HBM2-PIM技术的DRAM既可以当作一块普通的HBM2 DRAM来用(即直接写入读出,而绕开计算逻辑);也可以在写入和读出的时候同时让计算逻辑去做计算。当需要使用存内计算的时候,CPU只需要给HBM2-PIM写入数据以及相应的计算指令,而下次读出数据的时候可以直接读出已经计算好的结果。
存内计算的技术路线中,计算逻辑和存储单元都是使用相同的DRAM工艺,因此通常存内计算逻辑的性能比较有限,时钟频率无法到达很高,做到高性能计算逻辑则需要依靠对于DRAM工艺的深厚积累和优化。另一方面,由于计算逻辑和存储单元是深度集成,因此计算逻辑可以以较小的开销最大化地调用存储单元,并且可以做协同设计和优化。最后,存内计算在HBM2 DRAM中实现之后,可以较快地应用到其他规格地存储器中,包括用于桌面地DDR/GDDR以及使用于移动端的LPDDR等。除了HBM2-PIM之外,三星还公布了近内存计算方案AxDIMM,实现了在每个DRAM芯片旁边都集成了一块单独的加速器逻辑并可以同时访问,从而等效地大大增加了访存带宽。 对于三星来说,主要走存内计算技术路线非常符合其技术背景以及商业模式。HBM2-PIM技术实际上是一块带有计算功能且在人工智能应用中能提升系统性能地内存芯片,所以三星最终还是希望能通过这个技术来确保其存储器业务在人工智能时代能继续保持领先。此外,三星在DRAM工艺领域地积累也确保它能做到使用DRAM实现存内逻辑计算的最优化,以及集成的成本可以控制到较好。 # 阿里的近内存计算路线 与三星相对,目前阿里巴巴在存算一体领域走的是近内存计算的方案。根据目前公布的资料,阿里巴巴的存算一体方案是把计算逻辑芯片和DRAM使用3D封装技术封装到一起,从而利用封装带来的高IO密度来实现高内存带宽以及较低的访问开销。从发表在明年ISSCC论文中,我们也可以看到这项技术是由阿里巴巴达摩院和紫光共同开发而成。
使用近内存计算可以让计算逻辑使用和存储器DRAM单元不同的工艺来实现,这样计算逻辑可以实现较高地性能和能效比。另一方面,这可能也是阿里巴巴这样并不掌握DRAM工艺的厂商入场存算一体最合理的方式了。同时,该技术使用的3D封装技术加上定制化的额外计算逻辑将会使整体成本较高,必须要找到合适的应用场景才能体现其价值。目前,该技术主要还是处于研发阶段,未来还有一些重要的工程化里程碑尚待解决,包括量产、良率等。 在商业模式方面,阿里巴巴显然是以自用为首要目标,因此其存算一体研发主要的目标是能针对目标应用提供不受内存墙限制的计算解决方案,而不像三星一样是开发下一代存储芯片。从这个角度来说,只要阿里能确保这样的近内存计算存算一体解决方案在推荐系统等高价值应用中能提供足够的性价比(例如,比起采购GPU来说更便宜),就有进一步推动下去的动力。 # 中国云端存算一体的未来 目前,我们看到存算一体已经成为巨头争相研发的目标,未来有机会成为云端高性能计算领域的关键技术。我们同时很高兴看到中国的阿里巴巴在这个领域的成果。展望未来,我们认为存算一体的两个技术方向将会继续共存,其中近内存计算凭借其使用先进工艺节点的计算逻辑可以针对高价值应用场景做极致的加速优化,而存内计算则可能会成为下一代应用在高性能计算的存储器技术广泛应用在通用的计算场景中。 中国在存算一体领域和三星这样的国际巨头的差距主要体现在存内计算领域。中国在DRAM领域的技术仍然相对落后,而如果要让存算一体真正进入大量部署,则必须要在DRAM中集成计算逻辑的方向也有突破。目前,我国在DRAM领域有大量投入,希望能在补足差距的同时,也能兼顾存内计算这样的前瞻性技术,从而能赋能中国的高性能计算和人工智能计算需求。 声明:本文素材来源于[网络](https://zhuanlan.zhihu.com/p/443210309 "网络"),如有侵权,请联系网站删除(ngdcn_admin@163.com)。
内存墙
0
赞
本文由 @NGDCN 于2022-10-06发布在 未来网络技术网,如有疑问,请联系我们(ngdcn_admin@163.com)。
上一篇:
AI算力的阿喀琉斯之踵:内存墙
下一篇:
【NSDI 2022】Aquila:数据中心网络的统一、低延迟结构
相关文章
AI算力的阿喀琉斯之踵:内存墙
有话要说...
取消回复
云 & 计算
回复
0
赞
最近发表
【Sigcomm 2023】 Achelous:超大规模云网络中如何实现网络的可编程性、弹性和可靠性
【ICNP 2021】基于弱监督学习的ISP自助BGP异常检测
【ICNP 2021】怒赞!上海交大团队先于谷歌提出光电混合数据中心慢切换方案
【中科院】为什么chiplet需要标准?
一文读懂Dragonfly拓扑
Alibaba高性能通信库ACCL介绍
【微软】MSCCL Github仓库介绍
【英伟达】NCCL Github仓库介绍
【MPI】MPI组和通讯器介绍
【MPI】MPI Reduce和Allreduce函数
热门文章
【Infiniband手册】第9章:传输层
2022-10-27
【推荐】计算机网络顶级会议:快速检索目录
2022-11-07
一文读懂Dragonfly拓扑
2023-02-24
【Sigcomm 2023】 Achelous:超大规模云网络中如何实现网络的可编程性、弹性和可靠性
2023-10-06
Alibaba高性能通信库ACCL介绍
2023-02-21
【ICNP 2021】怒赞!上海交大团队先于谷歌提出光电混合数据中心慢切换方案
2023-05-10
【ICNP 2021】基于弱监督学习的ISP自助BGP异常检测
2023-05-10
【微软】MSCCL Github仓库介绍
2023-02-20
标签列表
PFC
(3)
流量控制
(6)
拥塞控制
(20)
网络拓扑
(8)
RDMA
(42)
TCP/IP
(21)
CXL
(5)
思科
(5)
交换机芯片
(5)
数据中心网络
(11)
英伟达
(5)
Infiniband手册
(8)
NSDI
(12)
SIGCOMM
(22)
华为
(5)
HPCC
(5)
交换机
(8)
数据中心
(4)
RoCE
(7)
存储
(11)
Memory Fabric
(4)
NS3
(8)
超算
(5)
MPI
(10)
集合通信库
(4)
有话要说...