人工智能(AI)、车用芯片的复杂程度逐步递增,边缘处理比重也在增加,存储的选择、设计、使用模式及配置将会面临更大的挑战。因此,为了满足AI和机器学习应用程序的需要,位置(Location)越来越多地应用于数据需要驻留的地方和存储数据的内存。
在芯片、元件和系统之间移动以及处理优先处理顺序不明确的情况下,设计团队只能在合并和共享存储之间取得平衡以降低成本,或增加更多不同类型的存储来提升效能、降低功耗。
但这个问题不仅仅是内存供应商面临的挑战;其他AI利益相关者也在发挥作用,解决方案最关键的一部分是内存互联,即内存离计算越来越近。在人工智能硬件峰会内存互联的挑战和解决方案圆桌讨论上Rambus研究员Steve Woo表示:“我们都在人工智能的不同方面工作。”
从目前来看,内建SRAM和DRAM存储仍是当前主推技术。DRAM密度高、使用电容储存结构相对简单,又具有低延迟、高效能和接近无限次存取的耐用度,功耗也比较低。SRAM速度非常快,但较为昂贵且密度有限。这些不同的需求会影响存储的类型、数量以及内建或外接存储的选择。
Marvell ASIC业务部门的CTO Igor Arsovski在SRAM方面有着丰富的经验,他表示,用啤酒来比喻内存互连并不坏。 “SRAM就好比一瓶啤酒。它很容易使用,使用它的能耗很低,它只提供你所需的。“但如果内存不够,你就会走得更远,而且需要消耗更多的能量,就像需要走得更远才能买到啤酒一样。”
HBM vs LPDDR
外接存储的竞赛,基本上以DRAM-GDDR和HBM为主。从工程和制造角度来看,GDDR比较像DDR和LPDDR等其他类型的DRAM,可以放在一个标准的印刷电路板上并使用类似的制程。
HBM是比较新的技术,牵涉到堆叠和矽中介层,每个HBM堆叠都有上千个连接,因此需要高密度的互连,这远远超过PCB的处理能力。HBM追求最高效能和最佳的电源效率,但成本更高,需要更多的工程时间和技术。GDDR的互连没这么多,但会影响讯号的完整性。
Arsovski表示,在内存方面,高带宽内存(HBM) 正在被越来越多的人工智能采用。
“它会花费你60倍多的能量来访问内存。那里的容量要大得多,但访问它的带宽也显著减少了。啤酒的类比可以扩展到LPDDR(DDR SDRAM的一种)等技术,它超过了SRAM。“LPDDR功率要高得多,但你可以装更多的容量。”“这就像沿路走到你最喜欢的酒吧。”
Arsovski预计,下一代加速器的发展方向是将这些小桶放在加速器的正上方,通过计算将内存压缩到更近的位置。MLCommons是一个提供机器学习标准和推理基准的组织,其成员包括学术界和工业界。MLCommons的执行董事David Kanter介绍:“这让我们对不同的工作量有了一个非常广泛的了解。我们开始改变这个组织的一件事是,让它专注于一点,那就是建立顾问团,引入特定应用领域的一些深度专业知识。” MLCommons还将为培训人工智能模型的任何人编制大型公共数据集,并计划扩大服务范围,吸引其他专家加入。
当谈到内存时,Kanter介绍,整个系统上下文很重要。“你必须思考你想做什么与系统。”芯片、封装和电路板都是必须考虑的元素。对于存储被放置和连接的地方,有很多不同的角落,你可以优化的阵列结构,单元类型,以及距离。”
Kanter:“了解哪里需要带宽和非挥发性也是关键的考虑,这会引导你做出正确的选择。”
对于那些传统上不参与整个内存系统构建过程的公司来说,这些考虑相当重要。谷歌软件工程师Sameer Kumar长时间研究编译器和可伸缩系统,他认为其中网络和内存带宽对于不同的机器学习模型至关重要,包括大规模批量学习的能力。“人工智能训练涉及到大量的记忆优化,这是编译器获得高效率最关键的一步,这意味着记忆需要更智能。“
由于数据移动开始主导人工智能应用的某些阶段,由此看来内存互联变得越来越重要。Woo:“在性能和功效方面,这是一个日益严重的问题。提高数据传输速率有些难,因为每个人都希望保持数据传输速度翻倍和能源效率翻倍。“我们所依赖的许多技术对我们来说已经不存在了,或者正在放慢速度。我们有机会来思考新的架构和创新我们移动数据的方式。”
Woo:这不仅包括存储设备本身的创新,还包括封装和新技术的创新,如堆叠,同时还要确保mind data安全,美国内存技术公司Rambus认为这一点越来越受到关注。
Rambus已经在关注3D堆叠,但是如果带宽没有随着堆叠容量的增加而增加,可用性就会受到限制。
Arsovski表示,Marvell正花大量时间与客户一起构建人工智能系统,为他们提供每个芯片边缘可移动的带宽以及可访问内存的带宽信息。“目前我们所看到的是,客户需要更多的内存带宽和I/O带宽。”“如果你看看封装层面是如何大规模互连的,就会发现有一个巨大的不匹配。我们现在已经遇到了瓶颈,为此我们在不断推进高端芯片间的连接。”
从内存的角度来看,对于那些无法装在芯片上的人工智能模型来说,下一步是HBM或GDDR,但也有很多人倾向3D堆叠,因为你只能在芯片上移动这么多带宽。“客户想要越来越多的I/O带宽,但我们能在边缘端能移动多少?”
Kanter表示,即使在机器学习的世界里,也存在着“巨大的多样性”,这导致了生态系统的限制和变化。对于常规DRAM来说,对一个难以置信的大数据结构进行随机查找并不适合单个节点,这意味着如果你想在内存中保存它,就需要构建一个大集群系统。“这与传统的视觉导向模式有着非常不同的特点和特性。在内存方面记住这种多样性是非常重要的。”
当需要将大量内存和计算整合在一起时,互联就出现了,互联互通对那些巨头公司来说尤其重要。“如果你只想在一个小网络中训练一个GPU,那么关键的维度可能是内存带宽。”
Kumar表示,更多的内存带宽可以实现不同类型的优化,但如果一个模型特别受内存限制,那么它可能会带来更多的计算。“如果你有更多可用的内存吞吐量,或者甚至更多可用的互连吞吐量,它可能会使模型设计更加灵活,启用新功能,并构建不同类型的模型。”
Woo:Rambus对 3D叠加很感兴趣,但挑战是,当你上升到更高的层次时,保持不断增加的带宽来在堆栈中上下移动就变得更加困难。“虽然你最终增加了堆栈的容量,但如果你没有相应的带宽增长,那么这个解决方案能有多大用处。”
他介绍,“The Holy Grail”是一种既能保持填充频率的同时又能提高堆叠形式因数功效的方法,它使带宽、容量和堆叠的比率相对恒定。
Kumar和Arsovski都认为需要建立一个平衡的、可伸缩的系统和设计良好的软件堆栈。Arsovski:“我们描述的是一种类似人类大脑的结构,它的伸缩性很好。”它必须是低能耗的,同时具备大量的连接能力,目前,我们最接近它的方式是通过3D叠加,但仍存在功耗、封装和机械方面的挑战。“我们需要找出一个平行的系统,在每一层都使用非常低的功率,这样你就不用担心数千瓦的功率需要冷却了。”
功耗问题依然难以攻克
功耗也是存储的关键问题,不同存储类型和配置也会影响功耗。例如在7nm制程的存储上移动资料因导线的RC延迟,需要更高的功率,并可能产生热能,破坏讯号的完整性。
存储对AI很重要,AI又是所有新技术的主角。但不只有AI芯片,还有芯片内部的AI应用,都会影响存储的使用方式。如要实现超快的速度和最低功耗,最好的办法就是把所有元件放在同一个芯片上,但有时会受到空间的限制。
这也说明了,为什么资料中心和训练应用AI芯片的体积比许多部署在终端设备执行推论应用的其他类型芯片更大。另一种方法则是将部分存储移到芯片外,并透过设计提高传输量及缩短与存储的距离,或是限制外接存储的资料流。
Mentor IP部门总监Farzad Zarrinfar表示,功率、效能和面积(PPA)都很重要,但主要还是和应用有关。以携带型的应用为例,功率非常重要,而功率也分为动态和静态两部分,如果需要大量运算,那么动态功率就非常重要;如果是穿戴式设计,则更重视静态/漏电功率。电动车在意电池的续航力,因此功耗也是关键因素。
现在是时候开始研究人工智能系统的下一个基础模块了。“我们一直在研究晶体管,到目前为止,它们做得很好。但我们几乎需要从头开始重新思考这个设备。”
尽管有大量革命性的技术和创新架构,存储仍是所有设计的核心。如何决定现有存储的优先顺序、共享、位置以及用途,获得最佳系统效能依旧是件知易行难的事。
翻译自——EEtimes