Xeon X5570与六核Opteron 2435伊斯坦布尔性能较量
数周之前国外有网站Advanced Clustering Technologies对英特尔Nehalem和AMD“伊斯坦布尔”的平台做了高性能 Linpack(简称HPL)对比测试(国际上最流行的用于测试高性能计算机系统浮点性能的benchmark,通过对高性能计算机采用高斯消元法求解一元N次稠密线性代数方程组的测试,评价高性能计算机的浮点性能),种种测试结果表明AMD“伊斯坦布尔”战胜了英特尔Nehalem平台。
至强5500与六核皓龙“伊斯坦布尔”代表了英特尔与AMD最新的技术
至强5500系列和皓龙2400系列HPL对比测试,皓龙胜
此项对比测试的目的只有一个:展示GFLOPS(每秒钟进行10 亿次浮点运算的工作能力)的峰值。理论上每个系统GFLOPS峰值取决于处理器核心的数量、主频和IPC(Instructions Per Clock Cycle,指令/时钟周期)。几年前上一代的处理器也只能做两个IPC,而最新的处理器在全新架构的帮助下能够达到四个IPC。为了便于比较,较老的主频为2.2 GHz的双核皓龙处理器的理论峰值仅为17.6 GFLOPS每台机器而如今四核的皓龙理论峰值却能够达到70.6 GFLOPS。
HPL对比测试的两个平台介绍,AMD方面为皓龙2435“伊斯坦布尔”系统(六核心,主频2.6GHz,16GB 800MHz DDR2内存 );英特尔方面为至强X5550 Nehalem系统(四核心,主频2.66GHz,12GB 1333MHz DDR3内存)。测试人员尽可能的保持测试平台的平等性,同样的电源、硬盘驱动器以及操作系统。内存的容量在发挥三通道内存架构的Nehalem和双通道内存皓龙之间性能各不相同。由于该测试项目倾向于内存容量和测试成绩成正比,因此,测试人员调整了两个平台的内容容量大小。
至强5500与皓龙2400系列处理器性能对比测试 |
|||||
处理器型号 |
理论峰值 |
实测峰值 |
效能 | 平台价格 | 每GFLOP运算成本 |
Nehalem X5550 2.66GHz |
85.12 GFLOPS |
74.03 GFLOPS |
86.97% | $3,800.00 | $51.33 |
Istanbul 2435 2.6GHz |
124.8 GFLOPS |
99.38 GFLOPS |
79.63% | $3,500.00 | $35.21 |
简而言之,在该测试中AMD“伊斯坦布尔”战胜了英特尔Nehalem,其测试结果对比为99.38个gigaflop(每秒钟至少进行10 亿次浮点运算的工作能力)VS74.03个gigaflop。也许六核战胜四核并不在意料之外,但考虑到英特尔支持单核心双线程的hyperthreading技术,也许会预测英特尔要在并行运算占据优势。而在实际应用,我们发现hyperthreading技术带来的性能的提升很大程度上取决于具体的应用。
据Advanced Clustering Technologies的工程师介绍,在运行HPL测试软件的时候,hyperthreading却导致了一定程度上性能的削减,工程师还指出Linpack少数几个不从hyperthreadin技术中受益的应用之一。
在有着更高带宽DDR3内存的支持下,Nehalem更具计算效能(HPL峰值和理论上峰值),尽管用户一般并不关注这些度量标准,但实际上这在英特尔设计中起到了不错的平衡系统的作用。讨论的最多的就是价格性能测试结果,而在该测试中AMD占据了优势。每一个gigaflop运算成本测试成绩对比为35.21美元VS 52.33美元。
HPL对比测试最后结论:AMD“伊斯坦布尔”在每GFLOP运算成本和峰值表现上都胜英特尔Nehalem至强一筹,这表明六核心处理器提供了强劲的浮点运算性能,但在整体性能平衡性上不及英特尔Nehalem至强。较低的效能测试结果很可能是缺乏内存带宽,加大“伊斯坦布尔”系统内缓存轮询所导致的,处理器闲置较长时间等待来自内存的数据的同时也在检测系统内12个处理核心的缓存命中(cache hit),内存宽带对整个系统性能表现带来的巨大影响。#p#page_title#e#
尽管Nehalem可能是核心性能比最高的,但是“伊斯坦布尔”通过增加两个处理核心很好地弥补了自己的弱势。当用户为自己的下一代集群式计算系统挑选系统架构时,HPL测试成绩会是唯一的标准。
然而此次针对同样处理器平台,测试人员又进行了STREAM测试,并将其结果公布在网站。据了解STREAM是HPC Challenge suite测试套件的一部分,是针对系统内存带宽的一种测试,由于内存带宽是整个计算系统中的一个最为重要的部分之一,因此STREAM的内存带宽测试也可以反映整个系统的性能水平。随着处理器核心数量的增加,内存带宽在许多应用程序中显得越发重要,计算性能已经悄然走到了内存性能的前面。和HPL测试一样,STREAM也是一项综合性的测试,但是总的来说,如果某个应用程序受内存性能限制的话,那么STREAM测试就是体现相对性能水平的好指标。
STREAM对比测试的结果也毫无悬念。如果按照X86竞争的思维来看的话,有着高级内存子系统的英特尔Nehalem(至强5500)处理器完胜仅仅依靠上一代DDR2内存技术的AMD“伊斯坦布尔”皓龙。
Advanced Clustering Technologies工程师Shane Corder表示,“就算是内存性能最差的至强5500处理器性能也会比最好的皓龙处理器要高出20%,如果皓龙处理器要和最强大的至强处理器相比的话,那么这种性能差距会扩大至超过75%之多,至强5500之所以能够获得高人一筹的内存带宽成绩,是因为三通道内存取代了双通道,DDR3内存频率的升高(高达1333MHz)以及QPI(快速通道互联)技术带来的高速点对点处理器互联。”
STREAM性能测试中,一个值得关注的数据不得不提:六核“伊斯坦布尔”的测试结果要略微低于四核“上海”。Advanced Clustering Technologies测试人员将其归咎为“伊斯坦布尔”多出的两颗处理核心需要争取与“上海”处理器中数目一致的,仅有的两个内存控制器带宽。和Linpack的测试结果一样,反映了性价比之优势。
至强5500系列和皓龙2400系列STREAM对比测试,至强赢
STREAM是综合性的内存带宽测试,测试成绩以MB每秒来衡量。随着处理器处理核心数量的增多,内存带宽对于提升整个系统性能越发重要,处理核心和内存带宽比对系统性能有着重大的影响,如果某个系统不能够足够迅速地将内存中的数据传输到处理器当中,若干处理核心就会处于闲置状态,等待内存数据传输过来,而这其中所产生的闲置时间不仅会降低系统的效率还会抵消多核心和高主频所带来的性能提升因素。
STREAM测试是业界广为流行的测量内存带宽实际性能的工具之一,是全面的用来测试高性能计算系统的HPC Challenge测试套件的一部分。在讨论测试结果之前,我们先来了解一下进行对比测试的处理器架构和内存控制器的相关信息。以下系统架构图按照内存性能升序排列而成。
英特尔至强5400(Harpertown)
至强5400系列处理器结构
实际上代号为“Harpertown”的英特尔至强5400处理器是由两颗双核处理器封装成一个实体处理器而成,每一颗实体处理器都共享有一个前端总线(front side bus,FSB)连接。整个处理器架构只有一个内存控制器,而这却是系统芯片组中MCH(memory controller hub)的一部分。MCH提供了指向系统667MHz或者800MHz的缓冲串行内存(FBDIMM)的物理访问。这个共享的内存控制器以及FSB成为了限制内存带宽性能表现的瓶颈因素。
AMD皓龙2300(“巴塞罗那”和“上海”)
AMD“上海”处理器结构
皓龙“巴塞罗那”和“上海”处理器是在一个实体处理器中封装了四个处理核心。在一个双路系统当中,每颗处理器之间有了一个专门的点对点连接,AMD将其称作HyperTransport (超传输总线)。每颗处理器都有着带有双通道DDR2 DIMM内存模块的专属内存控制器。
和至强5400相比,这提供了双倍数量的内存控制器以及不止两倍的内存带宽。“巴塞罗那”处理器采用了65纳米工艺技术,可以支持双通道667MHz DDR2 DIMM内存,而“上海”处理器则采用了更为先进的45纳米工艺技术,能够支持双通道800MHz DDR2 DIMM内存。#p#page_title#e#
AMD皓龙2400(“伊斯坦布尔”)
AMD“伊斯坦布尔”六核处理器结构
除了多出的两颗处理核心以及处理器之间HyperTransport (超传输总线)速度提升之外,六核皓龙“伊斯坦布尔”处理器和四核“上海”处理器非常相似。内存控制器没有大的改动:每颗处理器都支持双通道800MHz DDR2 DIMM 内存。
英特尔至强5500(Nehalem)
至强5500系列处理器结构
英特尔至强5500处理器可以说自5400系列以来的一次重大的架构改进。和上一代至强的设计相比,5500系列更接近皓龙处理器。每一颗实体处理器都有着四个处理核心,有着专门的内存控制器以及点对点处理器之间的连接,英特尔官方将其称作快速通道互联(QPI)。每颗处理器的内存控制器都提供了对三通道DDR3内存的支持,根据不同的处理器型号以及DIMM内存的数量,内存的频率可以是800 MHz、1066 MHz或者1333MHz。
在逐个介绍完处理器架构之后,我们再来看看测试的硬件平台:
针对至强5500系列处理器的测试平台:
Advanced Clustering公司的Pinnacle 1BX5501服务器
两颗至强X5570处理器
六根2GB1333MHz DDR3(内存容量总计12GB)
一个250GB硬盘驱动器
针对皓龙2400系列处理器的测试平台:
Advanced Clustering公司的Pinnacle 1BA2301服务器
两颗皓龙2435处理器
八根2GB800MHz DDR2内存(内存容量总计16GB)
一个250GB硬盘驱动器
尽管对比测试两个平台之间的内存容量也一定差别,但是这种内存的选择无疑是最为适合发掘平台性能潜质的。
Stream内存带宽测试成绩对比图
正如上图所示,英特尔至强5500处理器的性能不仅要远超上一代至强处理器5400系列,此外也完胜最好的AMD皓龙处理器系统。从至强5400系列到5500系列,从9.7GB/s到37GB/s我们看到了近乎4倍的提升。就算是内存性能最差的至强5500处理器性能也会比最好的皓龙处理器要高出20%,如果皓龙处理器要和最强大的至强处理器相比的话,那么这种性能差距会扩大至超过75%之多,至强5500之所以能够获得高人一筹的内存带宽成绩,是因为三通道内存取代了双通道,DDR3内存频率的升高(高达1333MHz)以及QPI(快速通道互联)技术带来的高速点对点处理器互联。
然而对于AMD“伊斯坦布尔”处理而言,AMD并没有改变内存控制器、通道数量以及DIMM内存速度,性能也几乎维持在统一水平线上,唯一的区别就在于每个内存控制器上多出的两个处理核心,此外处理器之间的HT3也没有改变内存控制器的性能。
当用户将每台机器成本因素考虑其中的话,那么该测试结果则体现出英特尔至强5500系列处理器的绝对优势。测试中至强服务器价格大约为3800美元,而皓龙服务器的价格也在3500美元左右。尽管前者价格略高一点,但是在一美元数据传输对比中,至强5500要完胜皓龙,其数据对比为9.8MB每秒VS5.9MB每秒,至强5500要高出66%。
Stream内存带宽测试最后结论:
从内存带宽看来,很显然英特尔至强5500系列处理器取得完胜。但需要指出的是内存带宽并非一切,它仅仅是整个系统性能的一部分而已。
和以往一样,需要指出的是综合性测试结果可能会与实际应用中有所出入。Advanced Clustering Technologies建议用户根据实际情况来弄清楚哪一款处理器和系统配置能够带来真正的性价比优势。