AI芯片的功耗和热量产生直接影响公司的成本,风险以及芯片的稳定性和寿命。如果芯片经常由于过热或短路而遇到问题,则AI的训练和推理效果和效率也将受到严重影响。
冷却技术革命似乎迫切需要。
01
AI芯片的功耗危机
统计数据显示,2015年的全球数据量约为10EB(),预计到2025年将飙升至(),到2035年,它可能达到惊人的数量。但是,Edge AI的发展面临两个主要挑战。首先,需要性能,功耗和成本之间的平衡。在提高计算能力的同时,我们如何在不将功率和成本推向合理限制的情况下取得最佳结果,尤其是在电池电源支持的低功率设备中?其次,建立强大的生态系统至关重要。就像CPU和GPU的开发一样,涵盖工具链,语言,兼容性和易于发展的统一生态系统对于促进AI技术的普及和规模应用至关重要。
AI机器人使用的类似的大型语言模型(LLM)只是依赖“并行计算”的许多新的AI应用程序之一。 “并行计算”是指同时由芯片网络执行的大量计算工作。
人工智能基础设施的核心是GPU(图形处理单元),它擅长处理人工智能所需的专业高性能并行计算工作。与个人计算机中使用的CPU(中央处理器)相比,这种强大的处理能力还将导致更高的能量输入,从而导致更多的热量输出。
高端GPU的功率密度约为CPU的四倍。这为数据中心计划造成了新的重要问题,因为初始计算的电源现在仅是运行现代AI数据中心所需的功率的25%。甚至亚马逊,微软和尖端的云计算数据中心仍然由CPU提供动力。例如,当前可用的A100 AI芯片的恒定功耗为每芯片约400W,而其最新的 H100的功耗几乎是A100的功耗的两倍,达到700W,类似于微波炉的功耗。如果使用这些类型的GPU取代具有一百万台服务器的高度数据中心将取代其当前的CPU服务器,则所需的功率将增加4-5倍(),相当于核电站!
功率密度的增加意味着这些芯片产生的热量也将显着增加。因此,冷却系统也必须更强大。该量表的功率和冷却变化将需要新的设计,以实现未来的AI驱动数据中心。这将导致基础芯片和数据中心基础设施之间的巨大供应和需求不平衡。考虑到数据中心构建所需的时间,行业专家预测,我们正处于十年的现代化和升级数据中心的早期阶段,旨在使它们更聪明。
美国数据中心电力消耗增长()
02
TSMC 3DVC技术
TSMC的3DVC(3D,3D热平滑板)技术是一种用于高性能计算(HPC)和AI芯片的高级耗散解决方案,旨在解决由高级工艺集成(例如3NM/2NM)芯片引起的功耗和热密度潮的问题。
传统的热均质化板是二维平面结构,而TSMC的3DVC通过三维设计直接整合了芯片包装内的多层微流体通道,并利用相变热传热(液体蒸发态态周期)快速导出热量。
三维毛细管结构:多孔金属泡沫或微柱阵列的内部使用,以增强工作流体(例如水/氨)的毛细管反流能力。
接近:与芯片的硅插孔()或3D堆叠结构(例如SOIC)直接接触,从而缩短了热传导路径。
3D-VC散热器热管是一维线性传热装置。由于常规的VC散热器有一个蒸发部分和一个冷凝部分,因此散热器路径中有许多分布可能性,具体取决于设计位置,这使得常规的VC散热器是二维传热设备,但其散热器路径仍限于同一平面。与一维的热传导热管和二维热传导VC热均质剂相比,3D-VC散热器的热传导路径是三维的三维结构和非平面。 3D-VC散热器使用VC和热管的组合来连接内部空腔,并通过毛细管结构实现工作流体反流以完成热传导。连接的内部空腔和焊接鳍形成了整个散热模块,因此散热模块可以实现多维散热,例如水平和垂直。
热管的多维散热路径VC,3DVC比较图允许3D-VC 在处理高功率消耗设备的热量时接触更多的热源,以提供更多的热量耗散路径。在传统的散热模块中,热管和VC温度均匀板是分离的设计。由于热电阻值随热导率距离的增加而增加,因此散热效应不是理想的。 3D-VC散热器将热管扩展到VC热平板板体中。 VC温度平滑板的真空腔连接到加热管之后,连接了内部工作流体,并且3D-VC散热器与热源直接接触。垂直热管设计还提高了传热速度。
3DVC可以嵌入TSMC的2.5D/3D软件包中,以提供CPU/GPU/HBM的集成散热。 TSMC在IEEE国际电子设备会议(IEDM)上展示了3DVC原型,可以将3NM芯片的连接温度降低超过15°C以上。它计划通过-L包装技术同时应用于AMD的下一代产品。
03
冷却方案差异
液体冷却是高功率下唯一可行的解决方案。
通过一定数量的液体流传输热量的效率远高于通过相同的空气转移热量的效率,水是空气的3600倍。这使得通过芯片散热器冷却液体是有效的方法。当芯片面积每平方厘米的热量耗散超过约50瓦时,通常需要液体冷却。鉴于该面积约为9平方厘米,因此在450瓦的任何耗散耗散量都表明需要泵送液体冷却。在“直接芯片”冷却中,液体通过连接到芯片散热器的冷板通道的热界面流动。当液体在此过程中不蒸发时,它被称为“单相”操作,其中介质(通常是水)通过风扇冷却的热交换器泵送。 Flex的公司提供了直接的芯片液体冷却模块,该模块使用小流体喷射阵列来准确瞄准处理器上的热点,从而改善了芯片或设备级别的高功率电子冷却性能。
可以将热量转移到第二个液态电路上,该电路可以向建筑物以及可能向当地消费者提供热水。两阶段的操作通过蒸发液体(通常是氟化合物)吸收热量,然后在热交换器上重新构件,从而提供更好的传热。这种方法可以显着提高性能。但是,尽管可以使用自己的基板将某些组件(例如DC/DC转换器)集成到液体冷却电路中,但仍需要系统风扇来冷却其他组件。这符合“垂直电源”的概念,其中直流/直流转换器位于处理器下方,以最大程度地减少电压降。直接芯片方法的实际限制是芯片和冷却板之间界面的热电阻。准确的表面平坦度和高性能焊料是必要的,但是在千瓦级功率下,温度差仍然是一个问题。
这种限制似乎即将限制散热,这反过来会影响性能。可以考虑沉浸式冷却技术。将整个服务器放入开放式介电液罐中,该液体在循环周围通过储层泵送到热交换器。同样,为了获得最佳性能,可以使用两相操作。
除了沉浸式冷却技术外,IBM还使用嵌入式微通道相变冷冷却技术。 IBM将介电流体直接泵入任何水平的大约100μm芯片堆栈的显微镜间隙,并通过从液相到气相沸腾,从芯片中取出热量。他们测试了经过改进的IBM 7+芯片,结果表明,连接温度降低了25°C。
To , IBM the of the to the die, deep ion (DRIE) on the back, a 120 μm-deep , and a to the chip to form the top wall of the , and the and to the chip and with 粘合剂。冷却液进入模块并通过24个入口,在相应的24个径向膨胀通道中分布流动。
:硬件级冷却集成(技术)
该版本标志着AI硬件领域的一个新时代。其强大的性能将为AI公司提供前所未有的计算支持,有助于培训更复杂和准确的模型。基于IT的AI计算能力将以称为DGX的完整服务器表格提供给用户,结合了36个CPU和72 GPU。这些超级芯片通过第五代连接到超级计算机,以提高整体计算性能。为了更好地支持 的应用,推出了一个新的计算集群DGX,该集群采用了一种新的高效液体冷却机架尺度体系结构,该体系结构可以以FP4精度提供惊人的计算能力和内存能力。通过DGX,将为各行各业,帮助AI工业革命的发展提供强大的AI计算能力,并再次展示其在AI领域的领先地位和创新能力。
具体而言,它是一种专门设计用于连接GPU的高速互连技术。它允许GPU以点对点方式进行通信,绕过传统的PCIE总线,从而达到更高的带宽和较低的潜伏期。可用于连接两个或更多GPU,以进行高速数据传输和共享,从而为多GPU系统提供更高的性能和效率。
例如,有18个1U服务器可提供720的FP8性能,而FP4计算性能为1440,并且可以处理多达27万亿个AI LLM参数模型。每个服务器都有两个,这些计算节点具有1.7TB的内存和32TB/s的内存带宽。为了应付过度消耗的问题,所有这些问题都被选为采用液冷MGX软件包并采用液冷架级解决方案。
如果您想在半导体行业获得最先进的见解,技术表达和趋势分析,请跟随我们!
版权声明:本文为 “博览广文网” 原创文章,转载请附上原文出处链接及本声明;
工作时间:8:00-18:00
客服电话
0755-88186625
电子邮件
admin@lanyu.com
扫码二维码
获取最新动态