当前位置:首页 > 科技资讯 > 正文

AI算力时代下的嵌入式存储器技术演进与台积电解决方案

前言

近年来,AI与高性能计算的爆发式增长,推动计算需求指数级攀升。从ChatGPT到Sora,大规模AI模型参数规模不断膨胀,对计算能力的需求呈惊人增长。然而,"存储墙"问题日益严峻,从千亿参数大模型到边缘智能终端,各类应用对存储器性能、功耗、面积提出严苛要求。台积电在2025年IEDM教程中指出,未来AI与高性能计算芯片的竞争,将是内存子系统性能、能效与集成创新的综合较量。本文将基于台积电技术蓝图,以SRAM、MRAM、CIM为核心,结合3D封装与计算-存储融合技术体系,深入剖析面向AI计算的高速嵌入式存储器技术演进、挑战与未来趋势。

AI算力狂奔下,存储"带宽墙"成核心痛点

AI模型的进化史,是算力与存储的极限压榨。从AlexNet到GPT-4、Llama2,模型参数从百万级跃升至万亿级,计算量突破天际。数据显示,过去70年,机器学习模型参数规模提升,训练计算量增长超过10^18倍。根据Roofline Model,系统性能由峰值算力和内存带宽共同决定。因此,计算需求爆发将存储器推向技术变革前沿——带宽、延迟、能耗与密度成为决定AI/HPC系统性能的核心要素。计算性能与存储器带宽增长严重失衡,形成"带宽墙"。过去20年,硬件峰值浮点性能增长60000倍,而DRAM带宽仅增长100倍,互连带宽增长30倍。这种失衡导致AI推理中,存储器带宽成为主要瓶颈。以NVIDIA H100 GPU为例,BF16峰值性能达989 TFLOPs,但带宽仅3.35 TB/s,当运算强度不足时,系统性能受限。面对AI与HPC严苛需求,存储器需同时满足大容量、高带宽、低能耗。传统计算为中心架构正向存储为中心转型,台积电认为,未来存储器架构演进路径将围绕"存储-计算协同"展开:从传统片上缓存,到片上缓存+大容量封装内存储器,再到高带宽低能耗封装内存储器,最终实现存算一体与近存计算。为平衡速度、带宽、容量与功耗,现代计算系统采用分层存储架构,从寄存器到存储设备,不同层级存储器呈现性能-成本权衡。台积电认为,AI与HPC时代存储技术演进,需材料、工艺、架构、封装全链条协同优化。面对挑战,台积电持续优化各层级嵌入式存储器技术:SRAM作为缓存层核心,通过工艺与设计创新提升密度与能效;MRAM以非易失性、高密度填补eNVM技术缺口;DCiM打破存储与计算物理边界,优化能效比。同时,3D封装与芯粒集成技术发展,缩短存储与计算单元物理距离,为突破"带宽墙"提供系统级解决方案。

AI算力时代下的嵌入式存储器技术演进与台积电解决方案 AI计算 存储墙 嵌入式存储器 台积电 第1张

AI算力时代下的嵌入式存储器技术演进与台积电解决方案 AI计算 存储墙 嵌入式存储器 台积电 第2张

AI算力时代下的嵌入式存储器技术演进与台积电解决方案 AI计算 存储墙 嵌入式存储器 台积电 第3张

AI算力时代下的嵌入式存储器技术演进与台积电解决方案 AI计算 存储墙 嵌入式存储器 台积电 第4张

SRAM:计算场景的"性能基石"

静态随机存取存储器(SRAM)作为高速嵌入式存储器主力方案,凭借低延迟、高带宽、低功耗、高可靠性优势,成为寄存器、缓存等关键层级首选技术。其兼容先进CMOS逻辑工艺,从FinFET到Nanosheet,SRAM持续通过工艺迭代优化性能。应用场景广泛部署于数据中心CPU、AI加速器、客户端CPU、游戏GPU、移动SoC等。从工艺节点看,SRAM已覆盖N28至N2全节点,随着先进工艺(N3/N2)普及,其在高性能计算芯片中用量持续增长,成为提升芯片性能核心支撑。SRAM面积缩放是优化芯片性能关键,但随着工艺节点向7nm、5nm、3nm乃至2nm演进,SRAM单元面积缩放速度逐渐放缓,面临技术挑战。台积电通过设计-工艺协同优化(DTCO)策略,结合多种创新技术,实现SRAM持续缩放。从技术演进看,SRAM面积缩放依赖关键节点工艺与设计突破:90nm节点引入应变硅;45nm节点采用HKMG;28nm节点推出FinFET、飞跨位线与双字线;7nm节点应用EUV光刻与金属耦合;2nm节点则通过Nanosheet架构实现进一步缩放。这种密度提升,使芯片在有限面积内集成更大容量缓存,直接推动计算性能提升——每周期指令数随L3缓存容量增加而显著增长。SRAM缓存能效和响应速度远超DRAM主存和SSD存储。不过,随着工艺节点向7nm、5nm、3nm乃至2nm演进,SRAM面临严峻挑战:面积缩放速度放缓,最小工作电压优化困境,互连损耗加剧。为应对挑战,除工艺层面演进外,在设计层面,台积电推出3D堆叠V-Cache技术,通过3D堆叠架构优化末级缓存容量、延迟与带宽。AMD Ryzen™ 7 5800X3D 处理器采用该技术,集成8个计算核心、512KB L1缓存、4MB L2缓存与最高96MB共享L3缓存,通过32字节/周期双向总线,实现缓存性能跨越式提升,游戏性能显著提升,验证了3D堆叠SRAM对计算性能的赋能作用。此外,台积电还开发了写辅助电路、读辅助电路、双轨SRAM等技术,将N3工艺SRAM的VMIN降低超过300mV;通过交错三金属层字线、飞跨位线等技术,降低互连损耗,提升SRAM速度与密度。未来,SRAM发展将聚焦两大方向:持续推进工艺缩放,在N2及更先进节点上,通过Nanosheet架构与DTCO策略深度融合,进一步提升密度与能效;与3D封装技术结合,通过垂直堆叠实现缓存容量跨越式增长,匹配AI加速器超高带宽需求;与存算一体架构协同,成为DCiM核心存储单元,在计算过程中提供高速数据访问支撑。

AI算力时代下的嵌入式存储器技术演进与台积电解决方案 AI计算 存储墙 嵌入式存储器 台积电 第5张

AI算力时代下的嵌入式存储器技术演进与台积电解决方案 AI计算 存储墙 嵌入式存储器 台积电 第6张

存内计算,DCiM成主角

如果说优化SRAM是在传统架构上精雕细琢,那么存内计算(Computing-in-Memory, CIM)则是一场更具颠覆性的架构革命,其核心思想直指"存储墙"的病根:减少不必要的数据搬运。在典型AI加速器中,超过90%的能耗可能用于在存储单元和计算单元之间搬运数据,而非实际计算操作。因此,数据移动成为制约加速器能效比的核心因素。CIM架构打破了"存储-计算"分离的冯·诺依曼架构,将简单计算功能直接嵌入内存阵列,将计算单元与存储单元紧密集成,数据在原地或近旁被处理,极大地节省能耗和延迟,成为解决这一问题的关键路径。与传统DLA中存储与计算分离、依赖数据搬运的架构不同,CIM架构实现计算在内存中,数据复用率显著提升,能效比大幅优化。对于模拟存内计算(ACiM)和数字存内计算(DCiM)两条路径,台积电认为,DCiM相比ACiM更具发展潜力。与ACiM相比,DCiM凭借无精度损失、灵活性强、工艺兼容等,在技术缩放、精度控制、场景适配等方面具备明显优势:ACiM面临模拟信号变化、动态范围受限等挑战,而DCiM能够兼容先进工艺,随节点演进持续提升性能,且支持多精度计算,成为AI计算核心架构方向,特别适用于边缘推理场景,为解决数据中心和终端设备能效瓶颈提供可扩展解决方案。DCiM核心优势体现在三方面:灵活性高,可以针对不同AI工作负载配置计算位宽,在精度和能效间取得最佳平衡;计算密度高,得益于先进逻辑工艺,DCiM能效和计算密度随制程进步显著提升,台积电数据显示,从22nm到3nm,DCiM宏性能指标实现数量级飞跃;精度灵活与能效比高,支持INT8/12/16及FP16精度,精度损失<2.0%,INT8精度下能效比相比传统架构提升约4倍。

AI算力时代下的嵌入式存储器技术演进与台积电解决方案 AI计算 存储墙 嵌入式存储器 台积电 第7张

AI算力时代下的嵌入式存储器技术演进与台积电解决方案 AI计算 存储墙 嵌入式存储器 台积电 第8张

AI算力时代下的嵌入式存储器技术演进与台积电解决方案 AI计算 存储墙 嵌入式存储器 台积电 第9张

AI算力时代下的嵌入式存储器技术演进与台积电解决方案 AI计算 存储墙 嵌入式存储器 台积电 第10张

MRAM:非易失性嵌入式存储器的新突破

另一方面,随着汽车电子、边缘AI等新兴场景崛起,市场对存储器的需求超越了速度和能效,非易失性、高可靠性和极高耐久性成为关键。传统嵌入式闪存在28nm以下工艺微缩困难,难以满足先进工艺节点密度与性能需求。而磁阻随机存取存储器(MRAM)展现出强大技术生命力,凭借低待机功耗、高密度、非易失性、速度快、耐久性和工艺友好等核心优势,成为eNVM理想替代方案。台积电认为,MRAM核心价值在于兼顾性能与非易失性,能够同时满足高速读写与数据长期保存双重需求,这使其在软件定义汽车、边缘智能终端等场景中具备不可替代优势。例如在汽车电子领域,MCU广泛应用于车载系统,下一代软件定义汽车架构对MCU性能、可靠性与安全性提出更高要求。MRAM速度与鲁棒性支撑OTA更新功能,能够延长车辆生命周期并提升功能扩展性。台积电N16 FinFET嵌入式MRAM技术已满足汽车应用严苛要求:100万次循环耐久性、支持焊料回流、150℃下20年数据保持能力,成为车载MCU核心存储方案。在边缘AI领域,MRAM支持TinyML、MobileNet等紧凑AI架构,仅需2-4MB容量即可存储模型权重,同时支持安全OTA更新。相比云端AI与移动AI,边缘AI/MCU对存储容量需求较低,但对能效与可靠性要求更高,MRAM恰好匹配这一需求特性。但MRAM也存在明显短板,比如单位容量成本高于DRAM与NAND;高温度环境下数据保持能力需通过技术优化保障;强磁场环境下抗干扰能力需特殊设计,强永磁体(N52)环境下需保持9mm安全距离等。为解决MRAM短板,台积电通过多重技术优化提升其可靠性:一是数据擦洗技术,定期重读数据、检测错误并将修正后数据写回存储单元,结合ECC纠错,125℃下可将位错误率控制在预算范围内;二是抗磁性干扰设计,通过优化MTJ结构与布局,确保车载等复杂环境中稳定工作;三是应用差异化优化,针对NVM与RAM两种应用场景,通过调整参数权衡数据保持能力、密度与速度,满足不同场景需求。数据擦除以提升数据保持可靠性 MRAM抗磁性干扰能力 据悉,台积电已将N16工艺的嵌入式MRAM技术成功推向市场,特别是在汽车领域大放异彩,并正在向更先进节点迈进。

AI算力时代下的嵌入式存储器技术演进与台积电解决方案 AI计算 存储墙 嵌入式存储器 台积电 第11张

AI算力时代下的嵌入式存储器技术演进与台积电解决方案 AI计算 存储墙 嵌入式存储器 台积电 第12张

AI算力时代下的嵌入式存储器技术演进与台积电解决方案 AI计算 存储墙 嵌入式存储器 台积电 第13张

AI算力时代下的嵌入式存储器技术演进与台积电解决方案 AI计算 存储墙 嵌入式存储器 台积电 第14张

AI算力时代下的嵌入式存储器技术演进与台积电解决方案 AI计算 存储墙 嵌入式存储器 台积电 第15张

计算-存储融合:系统级优化的"终极路径"

台积电认为,AI与HPC时代的存储技术突破,最终需要走向系统级的计算-存储融合。单一存储技术的优化已难以满足"更高带宽密度、更低单位比特能耗、更短延迟、更高互连密度"的系统需求,必须通过3D封装、芯粒集成等技术,将存储与计算单元紧密连接,实现存储靠近计算的架构重构。在此趋势下,2.5D/3D先进封装将提供关键赋能,通过将计算芯粒与高带宽内存通过硅中介层或硅桥封装在一起,可以创造出一个带宽极高、距离极近的超级系统。这种2.5D/3D集成技术,使得内存带宽能够匹配先进AI加速器的巨大吞吐需求。台积电在先进封装领域已形成广泛布局,例如:CoWoS:台积电先进封装平台,将逻辑芯片和HBM集成在硅中介层上,实现了远超PCB级别的互连密度和带宽。SoIC:更进一步的3D堆叠技术,允许芯片像盖楼一样垂直堆叠,实现芯片间最短、最密集互连,将数据移动能耗和延迟降至最低。这种高密度互连带来诸多优势:缩短数据移动路径,降低数据移动能耗与延迟;提升带宽密度,解决"带宽墙"瓶颈,3D堆叠比特能效相比封装外铜互连提升60倍;模块化设计支持灵活配置,适配不同应用场景需求,AI内存带宽需求已达20.0TB/s,3D封装可高效支撑等。综合分析,未来的AI芯片,可能不再有明显区分的内存和计算边界。通过3D堆叠,计算单元可以被直接放置在高速缓存或存内计算单元之上,形成紧耦合的异构集成体。同时,集成的电压调节器、光子互连等创新技术,将从供电和通信层面为整个系统解绑。这种系统级的思维,意味着芯片设计者、存储器专家、封装工程师必须更早、更紧密地协作。从架构设计之初,就统筹考虑计算模式、数据流、存储层级和物理实现,通过内存-计算协同优化,突破存储墙与能效瓶颈,最终实现能效和性能的阶跃式提升。

AI算力时代下的嵌入式存储器技术演进与台积电解决方案 AI计算 存储墙 嵌入式存储器 台积电 第16张

AI算力时代下的嵌入式存储器技术演进与台积电解决方案 AI计算 存储墙 嵌入式存储器 台积电 第17张

AI算力时代下的嵌入式存储器技术演进与台积电解决方案 AI计算 存储墙 嵌入式存储器 台积电 第18张

存储技术的未来图景

AI计算的未来,是一场围绕数据进行的效率革命,正推动存储技术进入全维度创新的新时代。面对"带宽墙"与"能效瓶颈"的双重挑战,台积电的技术蓝图清晰地描绘了这场革命的路径:以SRAM为缓存层核心,保障高速数据访问;以MRAM的多元特性开拓新场景,填补非易失性存储技术空白;以DCiM的架构创新为利器,实现存算一体,突破能效瓶颈;最终以3D封装与芯粒集成实现系统级融合,重构存储与计算的连接方式,构建出真正能满足AI巨大算力渴求的下一代硬件平台。对产业而言,这意味着竞争格局的深化。领先的半导体企业不仅需要掌握最尖端的制程工艺,更需要在存储技术、先进封装和系统架构上构建全方位的创新能力,技术的协同与融合将成为破局的关键。在这场破局"存储墙"的征程中,谁能率先实现从晶体管到系统的全栈优化,谁就将引领AI算力的下一个黄金时代。而台积电的战略布局,正为行业描绘出清晰的演进路径。