戴尔 PowerEdge XE9640 液冷 GPU 服务器深入探究

Admin 431 2023-11-14 10:25

10.png


Dell PowerEdge XE9640 是一款 4x GPU 加速的机架式服务器,借助液体冷却,能够以节能的方式提供 AI 电源。XE9640 在SC22期间与 XE8640 以及我们最喜欢的产品之一——8 路XE9680 GPU 服务器一起发布。今天,XE9640 已全面上市,我们正在深入研究底层硬件。


PowerEdge XE 系列服务器专为需要性能和可靠性的复杂 AI 和 HPC 工作负载而构建。这些服务器被设计为高性能、洞察驱动且智能。如今,XE 服务器系列包括XE9680(我们是否提到过它是 Jordan 的最爱?)、XE9640、XE8640 和 XE8545。所有这些服务器之间的共同点是设计支持各种人工智能计划,并提供对客户有意义的冷却选项。


11.png

Dell PowerEdge XE9640 – GPU 多样性和液体冷却

得益于与合作伙伴 CoolIT 的深入合作, PowerEdge XE9640为 GPU 和 CPU 提供直接液体冷却 (DLC)。该服务器零售了一些风扇,以确保 DRAM、存储和 PCIe 扩展卡获得足够的气流和冷却。也就是说,这些风扇不需要以最大转速运行,从而节省大量电力。


PowerEdge XE9640 带来了 GPU 多样性,提供 4 个NVIDIA NVLink互连H100 SXM5 GPU 700W 模块或 4 个Intel XeLink 互连英特尔数据中心 GPU Max 1550 600W 开放计算平台 (OCP) 加速器模块 (OAM) 之间的选择。


12.png

得益于 NVIDIA NVLink 和 Intel Xelink 等技术,这些 GPU 可以无缝通信,有效地池化内存和内核。这对于处理内存一致性工作负载(例如大型语言模型(LLM))特别有利。这种多功能性使其适用于各种人工智能工作负载。当然,最明显的问题是“AMD Instinct 怎么样?” 戴尔不断评估额外的 GPU 支持,但在发布时并未在此服务器中提供 AMD 解决方案。


这种 GPU 多样性使用户能够满足生成式 AI、工业仿真建模和尖端科学研究不断增长的需求。例如,PowerEdge XE9640 的英特尔数据中心 GPU Max 加速器功能已在德克萨斯高级计算中心 (TACC) 的Stampede3 超级计算机中使用。


13.png

在密度和冷却方面,PowerEdge XE9640 经过精心设计和设计,可有效利用机架空间,同时提高性能。凭借其紧凑的 2RU 配置,该服务器为每个机架提供了令人印象深刻的 GPU 容量,从而最大限度地利用了宝贵的数据中心空间。PowerEdge XE9640 采用 DLC,在效率和成本效益方面优于传统风冷系统。


Dell PowerEdge XE9640 – 其余硬件

除了“仅仅”GPU 之外,XE 系列背后的工程设计也是一流的。我们刚刚发布了XE9640 和 XE8640 的视频评测。该视频提供了有关设计的详细信息,从 XE9640 上的驱动器访问和 DLC 管道布线,到 XE8640 上的闭环 GPU 液体冷却,以及所有 XE 服务器上未来增强的路径。它嵌入在下面以供参考。


与 XE9640 相比,移除挡板可以轻松访问 NVMe 驱动器。机箱右侧的两个插槽支持 NVMe 启动优化存储子系统 (BOSS) 驱动器,并通过 2 x M.2 SSD 包括 HWRAID 1。如今,主存储通过 4 个 U.2 Gen4 NVMe 驱动器提供。由于 SSD 托盘选项支持 8 个 E3.S Gen5 NVMe 驱动器,未来版本中的数量将增加一倍。该平台不支持 U.2 NVMe 托架的 HW RAID,尽管大多数都不需要它。许多 GPU 盒子都利用外部的大量数据集。在这种情况下,本地存储不会成为这些大型数据集的主要来源。


14.png

当然,对于需要利用海量存储阵列的人工智能专业人士来说,服务器后面有很好的扩展选项。XE9640支持四个PCIe Gen5插槽,两个半高和两个全高。此外,您还有一个 PCIe Gen3 OCP NIC 插槽。


为了消除对泄漏的担忧,液冷服务器在 iDRAC 中包含泄漏检测报告。当您深入机箱的不同部分时,戴尔检测泄漏的方法非常令人难以置信。例如,在下面的 CPU 冷却板照片中,您可以在整个水块周围以锯齿状图案辨认出细小的铜迹。如果有水滴到这些连接上,开路回路就会检测到小短路,系统就会知道发生了泄漏。底盘其他部位采用编织钢丝绳,检测方法类似。这在我们的主液体分配块的照片中可以看到,底盘前面有许多软管。此外,CoolIT CDU 和回路的其余部分还在沿途的许多点提供泄漏检测报告。


顺便说一句,风冷式 XE8640 和 XE9680 还包括闭环 GPU 液体冷却,并通过 iDRAC 进行相同的泄漏检测。


优化每个机架的功率

PowerEdge XE9640 为客户提供了微调每机架功率利用率的机会。每个机架有 9 个服务器,加速计算的峰值负载可能需要大约 41kW 的功率,利用三相配电来实现平衡性能。为了扩大规模,数据中心可以部署容纳 12、18 甚至 21 个 PowerEdge XE9640 服务器的机架,分别实现约 54kW、81kW 和 95kW 的功率水平。这种适应性使数据中心能够根据特定要求优化其机架电源使用。


戴尔整理了各种资源,帮助客户全面了解 PowerEdge XE9640。这包括拆箱视频和详细的产品评论。拆箱视频展示了服务器的设计和功能,为客户提供了其功能的视觉之旅。


为了进一步强调 PowerEdge XE9640 的优势,戴尔制作了一张信息图,将其与风冷同类产品 PowerEdge XE8640进行比较。该信息图重点介绍了 PowerEdge XE9640 的显着区别,特别是其液体冷却效率和每个机架令人印象深刻的 GPU 容量。


15.png

最后的想法

PowerEdge XE9640 是戴尔不断扩展的生成式人工智能解决方案的组成部分,旨在彻底改变人工智能工作负载并促进创新。戴尔的生成式人工智能解决方案结合了戴尔科技集团提供的尖端技术、创新和服务,可提供更智能、更快速的成果。通过利用生成式人工智能的功能,组织可以获得新的见解、加快转型工作并提高员工效率。


虽然 XE9680 可能仍然是我们最喜欢的戴尔 GPU 服务器,但 XE9640 纯粹是从效率和设计的角度赢得了我们的青睐。2U机箱占用了大量的工程量;采用液体冷却的数据中心显然会倾向于使用这些节能的机箱。四个 NVIDIA 模块本身的功耗为 2800W,因此戴尔在帮助数据中心提高机架效率和能效方面所做的一切都是一个巨大的飞跃。


【公司名称】四川旭辉星创科技有限公司

【代理级别】成都戴尔服务器工作站总代理

【销售经理】李经理

【联系方式】座机:028-85596747    手机:13540160369

【公司地址】成都市人民南路4段 桐梓林 商鼎国际2号楼1单元1913

联系我们
您好,咨询客服了解更多促销产品
售前优惠在线咨询
QQ咨询
微信咨询
售前优惠电话咨询专线:
13540160369
售后电话咨询专线:
028-85596747

请用微信扫描二维码

0.451560s