🔥 散热挑战迫在眉睫

周三(日期),亚马逊AWS宣布成功开发行内热交换器(IRHX),专门用于冷却英伟达最新Blackwell架构GPU。这类芯片虽为生成式AI提供强大算力,但惊人能耗带来巨大散热压力——传统风冷已无法满足需求,而市面液冷方案又存在空间占用大耗水量激增等问题。

🛠️ 创新解决方案诞生

AWS计算与机器学习服务副总裁Dave Brown透露:
• 原计划改造数据中心全面采用液冷,但评估发现建设周期过长
• 现有商用设备无法匹配AWS的超大规模需求
• 最终选择开发可即插即用的IRHX系统,兼容新旧数据中心

"其他供应商的方案可能适合小规模部署,但对我们而言远远不够。"Brown在YouTube视频中强调。

💻 客户即刻体验

新散热技术已应用于AWS P6e计算实例,专为英伟达GB200 NVL72设计:
✅ 单机架集成72颗Blackwell GPU
✅ 支持训练/运行超大规模AI模型
✅ 性能对标微软、CoreWeave等同规格服务

💰 自研硬件战略显效

这并非亚马逊首次基础设施创新:
• 已推出自研AI芯片(如Trainium)、存储服务器及网络设备
• 减少第三方依赖提升利润率——2024Q1 AWS营业利润率创10年新高
• 全球云服务市占率持续领先(34%),微软(21%)正加速追赶

⚡ 行业冷却技术竞赛白热化

微软2023年已为自研Maia AI芯片开发Sidekicks散热系统,而谷歌、Meta等科技巨头也在积极探索:
🔹 微软:液冷+浸没式冷却组合
🔹 谷歌:利用海水自然冷却
🔹 Meta:测试"热虹吸"两相冷却技术