
整合液冷 / 800V 供电 / 感测分析 资料中心跨越散热极限

新电子杂志
2026 年 07 月 02 日
作者:Donal McCarthy
在资料、AI 和复杂运算任务需求爆增的推动下,数据中心正经历快速转型与扩张。服务器机架中硬件密度的不断提高,使数据中心面临两项关键挑战:如何高效供电和散热。
在现代 AI 系统中,尤其是专为 AI 与机器学习打造的系统,大量运算资源被压缩于越来越有限的空间内。更多的晶体管、更密集的 GPU 集群和高性能加速器,不仅导致功耗攀升,也使得有限空间内的热累积问题愈发棘手。
数据中心的瓶颈已从机房面积和供电变成散热能力。放眼整个产业,从传统运营业者到超大规模云端服务商,这一散热管理转折点正迫使业界从根本上重新思考系统的设计、管理和优化方式。
「散热墙」困境
密度持续快速提升
传统机架的运行功率在数十千瓦等级。AI 工作负载,例如 ChatGPT,就需要 40kW 到 60kW 的 GPU 机架功率。新兴的超大规模 AI 工厂专为 AI 训练和推理而建造,单机架功率已突破 100kW,未来的目标更是直指 500kW 乃至 1MW。
风冷无法有效扩展
空气是低效的传热介质。在高算力密度下,空气无法迅速带走热量,只能提高气流速度、风扇功率和机架级复杂度,但这种做法无法持续。单机架功率超过约 50kW 至 100kW 时,传统 CRAC(Computer Room Air Conditioner)/ CRAH(Computer Room Air Handler)系统既不可行又不划算。
热风险不断放大
散热不足会导致性能下降、元件寿命缩短和运营成本增加,正成为限制性能、系统可用性及容量的主要因素。每多花一瓦电在散热上,就少一瓦电用于算力。
重新思考供电与散热
随着处理器功率的增加和芯片密度的提升,系统发热量超出了传统风冷系统能够高效或经济应对的极限。这一瓶颈促使数据中心采用液冷技术,从根本上重新设计散热管理,使散热效率显著优于传统风冷系统。如今,散热技术与供电、机架布局和气流设计协同发展。正是这种系统化整合,使超大规模 AI 数据中心得以突破既有的密度限制。
液冷方案
液体凭借优异的导热性能,能够在热源处直接带走热量。虽然采用液冷会带来额外的复杂性和成本,但这种转型已经势不可挡。超大规模云端服务商正在建设 100% 液冷式设施。现有数据中心则采用混合策略:高密度机架采用液冷,其他区域保留风冷。液冷不仅对解决当下热负荷问题非常重要,更是各种规模的数据中心持续支撑 AI 工作负载增加的关键。
提升供电效率,降低热损耗
运营业者必须在移除热量与防止热量产生之间取得平衡。这不仅是一个热管理问题,更涉及整个供电链路。更关键的手段是从源头抑制热量产生:通过提高电源转换效率、减少阻性损耗、优化电压调节,减少以热能形式损耗的能源。如此一来,散热压力在成为问题之前,就已经被提前化解。
为未来赋能:800V 直流配电
AI 大规模集群机架对传统电力系统构成严峻挑战:12V、48V 和 415VAC 依赖大量铜线、笨重的电源单元和效率低下的转换链路,这些都会增加发热量。业界正转向 800V 直流供电架构,目的是降低导体用量、降低阻性损耗并简化供电链路。
ADI 为 800V 直流架构提供了热插拔控制器、高效 DC-DC 转换、电源监控和先进保护功能,确保供电稳定高效。
智慧监控与运维
先进的监控功能可实时追踪电压、电流和温度,进而实现资源精准分配。当散热泵无需全速运行时,若仍让其保持满负荷运转,将造成不必要的能源浪费。通过高精度计量元件及低噪声放大器等关键元件量测电流分流信号,是实现高效率供电与散热管理的重要基础。
为了确保可靠性,运营业者通常将系统运行功率控制在 99.95% 左右,而非 100%。ADI 监控解决方案会实时追踪这些功率变化,让运营业者能够动态调整负载结构,在性能与系统寿命之间取得平衡。
AI 的进步,一方面加剧了对电力与高性能数据中心的需求,另一方面也提供了高效管理这些需求所需的智慧。AI 扮演着智慧助理的角色,通过处理传感器资料来识别模式、预测故障并自动完成调整,进而提升运维效率。因此,运营业者能够在宕机前侦测到异常情况,并根据实时工作负载动态调整散热策略,将被动维护转变为主动管理。
在机架层面,一系列专用元件使性能提升成为可能:
- 热插拔控制器和保护 IC:管理热插拔作业流程,限制冲击电流,防止尖峰,侦测故障,确保安全运行,这些对 800V 供电和兆瓦级负载非常重要。
- 电压调节和 DC-DC 转换:利用高效率稳压器和多相控制器,将 800V 直流电压降至 GPU、CPU、存储器和元件所需的电压。ADI 解决方案可优化转换效率,将损耗和热负载尽可能降低。
- 遥测监控和热监测:在高密度环境中提供实时可见性和控制,使运营业者能够发现问题并管理系统热限制。
- 电池和电容备用电源系统:能够监控为 IT 机架供电的背板电压。当电力发生波动或中断时,这些系统会根据需要提供电力或吸收电荷。ADI 的电池管理解决方案最初为汽车应用开发,能够在电源切换期间确保不间断运行
这些元件共同支撑起稳定的高压分配和精准的功率 / 热控制,使高密度液冷机架变得实用、安全且易于管理。
智慧数据中心商业效益
- 液冷技术带来的效率提升,使整体能源需求降低 15% 至 20%
- 效率提升,表示电力成本降低
- 减少 15% 至 21% 的碳排放,同时降低了水资源和辅助电力功耗
- 新的架构和先进技术促进数据中心实现显著的效能提升
- 高精度传感和 AI 驱动的维护有助于减少停机时间并延长设备寿命
- 智慧控制系统根据需求调配资源,提升能源利用效率
- 液冷技术可实现更高的算力密度
企业和组织采用这些方法后,通常能够降低运营成本、减少故障次数,并稳步推进永续发展目标的实现。随着整体运营规模的扩大,由此带来的效益也会放大。
未来的数据中心将是一个精密协同的生态系统,从电源管理、传感技术到光学连接和电池管理,各类先进元件无缝配合。如此系统化整合既能应对当下的挑战,又能支撑未来的运算需求。无论是改造老旧设施还是规划新建项目,液冷技术都能在各种规模的数据中心发挥关键作用,使数据中心继续作为数字创新的关键枢纽。
数据中心的转型,不仅聚焦于散热管理与能源效率提升,更着眼于支撑未来持续成长的 AI 运算需求。
【免责声明】
本文章内容仅代表作者个人观点,与馗鼎无关。
内容性、文字阐述和原创性未经本站证实,本站对本文章及全部或部分内容的真实性、完整性、及时性不作任何保证或承诺,仅供读者参考,请自行核实相关内容。
馗鼎奈米科技股份有限公司 Creating Nano Technologies,Inc.
59 Alley 21 Lane 279, Chung Cheng Road, Yung Kang City, Tainan, TAIWAN
TEL:886-6-2323927 FAX:886-6-2013306 URL: http://www.creating-nanotech.com