核数越多越快?别幻想了,看看工作站虚拟集群计算技术
(一) 100核以上仿真计算面临的问题
随着计算机硬件的不断更新换代, 图形工作站的CPU核数会越来越多,目前情况:
图形工作站配置
No
主要厂家
配置与核数
1
Intel Xeon
2颗Xeon 铂金8592+ à 128核
4颗 Xeon 铂金8480H à 240核
2颗Xeon6 P系列 à 256核
2
AMD EPYC
2颗AMD EPYC 9684X à 192核
2颗AMD EPYC 9865 à 384核
3
CPU未来
超过512核,甚至1000核…
实际情况是,CAE仿真计算、科学计算、计算化学等应用软件,仿真计算的多核并行基本都是有限多核的:
结构静力仿真,多核并行36~56核最快,
结构动态仿真,多核并行48~120核最快
流体仿真,多核并行48~160核最快
电磁仿真频域算法,多核并行28~64核最快
多物理场耦合,多核并行8~48核最快
光子器件仿真计算,多核并行32~48核最快
光学设计仿真,多核并行8核~64核最快
油藏模拟,多核并行16~32核最快
量子化学计算,多核并行8~48核最快
…
大量测试表明,大部分仿真软件,CPU核数超出一定范围,反倒慢,
GPU是否可以更快?
分析:
CAE仿真计算主要是有限元分析算法,其CPU和GPU计算最新硬件配置:
No |
计算特点 |
配置推荐 |
CPU计算 |
GPU计算 |
1 |
计算密集 |
CPU算力强 |
1颗AMD 7995WX(96核)-7.3TFlops 2颗AMD 9684X(192核)-10.5Tflops 4颗Xeon 8490H(240核)-11Tflops 2颗AMD 9865(384核)-18Tflops |
2块A100 双精度FP64浮点18TFlops/ 单精度F32 38TFlops |
2 |
计算量大 |
大容量内存 |
1颗Xeon W3400/AMD锐龙PRo,最大512GB 2颗AMD EPYC,最大1.5TB 4颗Xeon4代,最大6TB |
单卡显存最大80GB 4块卡 320GB 8块卡 640GB |
3 |
反复迭代 |
高内存带宽 |
CPU-内存 1颗Xeon W9-3475X,8通道,307GB/s 2颗AMD EPYC 9684X,24通道,921GB/s 4颗Xeon 8460H,32通道,1228GB/s |
PCIe 4.0 x16 32GB/s |
4 |
高io |
高速缓存盘 |
中间计算结果回写,闪存阵列(读23GB/s、写11GB/s) |
|
5 |
高io |
|
100G(带宽12.5GB/s)/200G(带宽25GB/s) |
GPU浮点计算很强大,GPU架构决定数据计算必须放到显存里,如果反复迭代计算,效率会很差(因为显存--内存带宽,只有32GB/s,pcie 4.0 x16带宽),显存容量不超过80GB,计算规模上去后,无法算(显存不够),
CPU数据规模大,内存容量充足,CPU-内存之间带宽远大于显卡-显存之间带宽,大部分计算,用GPU加速不可行,还得靠CPU,但核数超过100个以上,并行计算效率不高,怎么办?
如何让CPU(100核以上)更好的发挥多核能效? 如何充分调用CPU核数,提升整机仿真计算速度?
(二)UltraLAB PCA(虚拟集群计算)介绍
西安坤隆计算机科技有限公司专注高性能计算应用,多年应用与研究和大量测试,推出的PCA(Parallel Computing Accleration suite,并行计算加速模块),以虚拟集群计算方式,可大幅提升CPU的使用率,让仿真计算求解再次提升
PCA模块介绍
将图形工作站CPU(100核以上),虚拟出多台机器(每台配备根据软件并行计算的最佳核数/内存容量),然后再并行计算,相当于多台物理机(虚拟集群)并行计算,充分利用软件算法特点和机器硬件配置架构,把一台机器变成多台机器并行计算性能,大幅提升整机仿真计算速度。
对于很多CAE仿真用户来说,选购图形工作站,配备最新计算架构+合理硬件配置+计算加速工具,这样最大化地发挥硬件性能,运行仿真软件。
应用实例:
用于ANSYS EM的仿真求解,典型机型Alpha750(4颗Xeon 8360H,共计96核@3.8GHz),合理虚拟出3台逻辑工作站(每台28核/128GB)如下图所示:
图3 Ansys EM compute resources设置
图4 提交工程进行并行计算
使用者通过UltraLAB PCA套件,一台超级图形工作站,虚拟出3台或更多台高性能工作站,对ANSYS软件进行并行仿真计算。
PCA能够充分利用ANSYS软件以及计算工作站百核算力资源,进行仿真计算作业调度和分配。
图5 测试结果
从图5汇总结果,超级工作站借助PCA工具,求解速度提升3倍以上,
PCA套件解决了100核以上CPU无法完美发挥的缺陷,让图形工作站的100多核的最大算力展现,1台机器变成多台机器并行计算能力。
PCA面向CAE仿真计算/科学计算/计算化学等行业,为其提供超级计算能力,同时具备后台计算资源和完善友好的作业提交管理界面,支持多用户多作业并发提交与管理。也支持双机扩展计算能力。
PCA应用
PCA套件为仿真计算CAE、科学计算、计算化学带来如下的价值:
ü 基于Windows计算平台,让完全不熟悉Linux或集群的客户无技术屏障,更易使用;
ü 支持多用户共享使用,共享软件资源和硬件资源;
ü 支持更大范围的应用软件的并行加速应用;
ü 没有集群系统维护繁琐,没有额外费用,不需要专门的系统管理员;
PCA支持应用软件列表
No |
软件类别 |
软件名称 |
1 |
结构仿真 |
ANSYS Mechanical、ANSYS AutoDYN、ANSYS LS-Dyna 、Abaqus、MSC Nastran |
2 |
流体仿真 |
ANSYS CFX、ANSYS Fluent、StarCCM+ |
3 |
多物理场耦合 |
Comsol Multiphysics、ANSYS Multiphysics |
4 |
电磁仿真 |
ANSYS HFSS、ANSYS Maxwell、FEKO、CST Studio Suite,StarCD |
5 |
科学计算 |
MatLAB |
6 |
计算化学 |
量子化学、分子动力模拟 |
7 |
开源类 |
基于开源MPI仿真计算程序 |
PAC运行环境
No |
设备类 |
技术规格 |
1 |
关键硬件 |
GX660M(2颗Xeon5代,最大128核) GA660M(2颗霄龙4代,最大192核) Alpha760(4颗Xeon4代H系列,最大240核) GX670M(2颗Xeon6 P系列,最大256核) GA660M(2颗霄龙5代,最大384核) |
2 |
操作系统 |
Windows2019及以上版本、Linux版本 |
3 |
客户端 |
Win7,Win10 |
虚拟集群计算工作站配置推荐2024v2
No |
品牌与型号 |
配置规格 |
价格 |
备注 |
1 |
EA660i 2311T-PFC |
2颗AMD EPYC 9654处理器(192核@3.1GHz)/1.5TB DDR5 /A4000 16GB /1.92TB SSD/ 2块8TB NVME(高速盘)/18TB SATA企业级/塔式(1500w)/27寸-4K图显 |
193000 |
超值型, 支持PCA 1变4加速 |
2 |
GA660M 2341T-P23TC |
2颗AMD EPYC 9684X处理器(192核@3.4GHz,大缓存)/1.5TB DDR5 /A4000 16GB /1.92TB SSD/ 23TB 闪存阵列(高速盘)/20TB SATA企业级/双塔式(2000w)/27寸-4K图显 |
258000 |
高速增强型,支持PCA 1变4加速 |
3 |
GX660M 2291T-P11TB |
2颗Xeon铂金8592+(128核@2.9GHz)/ 1TB DDR5 /A2000 6GB/1.92TB SSD/ 11TB 闪存阵列(高速盘)/20TB SATA企业级/双塔式(2000w)/27寸-4K图显 |
360000 |
全能型, 支持PCA 1变3加速 |
4 |
Alpha760 4311T-P23TC |
4颗Xeon铂金8460H(160核@3.1GHz)/ 1.5TB DDR5 /A4000 16GB/1.92TB SSD/ 23TB 闪存阵列(高速盘)/20TB SATA企业级/双塔式(2000w冗余)/27寸-4K图显 |
499990 |
完美型, 支持PCA 1变4加速 |
5 |
Alpha760 4302T-P23TC |
4颗Xeon铂金8468H(192核@3.0GHz)/ 2TB DDR5 /A4000 16GB/1.92TB SSD/ 23TB 闪存阵列(高速盘)/2*20TB SATA企业级/双塔式(2000w冗余)/27寸-4K图显 |
585000 |
完美高效型,支持PCA 1变4加速 |
6 |
Alpha760 4293T-P23TC |
4颗Xeon 铂金8490H(240核@2.9GHz~3.5GHz)/ 3TB DDR5 /A4000 16GB /1.92TB SSD /23TB 闪存阵列(缓存盘)/2*20TB SATA企业级/双塔式(2000W冗余) /27寸-4K图显 |
720000 |
虚拟集群计算极致型, 支持PCA 1变5加速 |
备注: 上述所有配置,代表最新硬件架构,同时保证是最完美,最快,但仿真软件差异很大,不同算法不同求解器,有的软件对上述配置并行支持效率很高,也有的并行支持很差,为此我们提供了三种解决方案,满足各种算法特点
1.超频仿真计算解决方案,详见:https://www.xasun.com/article/147/2806.html
2.虚拟集群计算方案,本文方案
3.分布式集群仿真计算方案,详见:https://www.xasun.com/news/html/?2499.html
欲咨询机器处理速度如何、技术咨询、索取详细技术方案,提供远程测试,请联系
UltraLAB图形工作站供货商:
西安坤隆计算机科技有限公司
国内知名高端定制图形工作站厂家
业务电话:400-705-6800
咨询微信号: