冲击超级计算机Top500 曙光总裁详解“星云”
今年国内最瞩目的HPC产品莫过于超千万亿次的曙光“星云”超级计算机,其设计之初定位于千万亿次性能,计划采用基于x86架构的模块化刀片服务器。由于一年两度的Top 500全球超级计算机排行榜即将发布(一般是在每年6月和12月),而曙光“星云”超级计算机正在加紧调试和冲击最高性能(超算的评测需要很长的调试时间已达到最佳性能)。记者日前就最新一款基于模块化服务器的国产超千万亿次计算机采访了曙光公司总裁历军先生。
曙光千万亿次超级计算机定名“星云”
“超级计算机中有‘星群’概念,与以往集群不同,星群的每一个节点都很强,这样汇聚起来就像一个灿烂的光球。另外,云计算现在是热门的概念,而超级计算机是云计算的重要组成部分,‘星云’在投入运行之后将担当云计算中心的重要角色。这就是曙光千万亿次超级计算机命名为星云的原因。”曙光公司总裁历军先生解释了星云名称的来历。
前不久,温家宝总理视察曙光天津产业基地时表示,加大结构调整力度,要加大战略性新兴产业的发展。而曙光“星云”千万亿次的通用计算能力再次证明了,中国最大的潜力在于我们的智慧和创造力,和勇于突破难关的坚韧不拔。(引自中央电视台《新闻联播》)
“总理的话说到我们心里去了,从1995年曙光1000每秒25亿次的超级计算机,到现在千万亿次超算的实现,短短15年间超算性能提升了40万倍。”历总感慨良多:“在多次进入前10名之后,今年TOP 500曙光‘星云’超级计算机将努力冲击,争取更好成绩。”据了解,“星云”超级计算机将继续在天津曙光产业基地调试,并于年底交付国家深圳超算中心。
配置性能揭秘 “星云”与“天河”区别明显
曙光“星云”超级计算机和“天河一号”的主要区别有两方面:一是架构上天河一号主要是GPU计算+x86处理器;而“星云”是模块化服务器(按计算需求自行选择主要计算组件)——前者是众核计算做并行处理,后者是国产模块化刀片服务器(x86处理器+GPU计算卡)的异构体系。第二方面是可靠性方面,众所周知传统GPU计算在可靠性方面由于缺乏ECC奇偶效验等RAS特性因此计算可靠性被人诟病;而“星云”中由于采用的是模块化服务器,每节点可容纳10块GPU计算卡,因而在较重要的节点可实现多卡冗余的计算模式(互相比对),保证了数据可靠性。
从性能上来看,“天河一号”的峰值性能在千万亿次,平均Linpack性能在500多万亿次。而“星云”超级计算机的实测性能平均在千万亿次——全球之前只有“走鹃”和“Jaguar”达到了平均千万亿次的性能。从实用角度看,“星云”超级计算机的效能名列前茅,是一台通用性超级计算机——已有的x86处理器的强大生态环境和可根据应用调整的模块化服务器提供了保证。
据记者了解,“星云”超级计算机采用的是曙光最新的SSI模块化刀片服务器TC3600作为节点();网络方面采用了QDR Infiniband模块(最高速率的互联模块);此外,由于TC3600的I/O扩展性,每个节点还配备了10个GPU计算卡,在针对“华大基因”这类公司的微生物计算方面拥有明显优势。
应用丰富 “星云”未来是云计算中心
对于很多人质疑这类超级计算机应用是否跟得上的问题。历总表示,曙光5000“魔方”以20倍的计算性能提升取代了曙光4000。而进驻上海超算的当天,“魔方”就挂载了30%的负载,去年已经全部满载并开始计算任务排队。可见国内超级计算的需求在不断增长—— #p#page_title#e#
“没有机器,就没有人做应用,也就没有企业来用超算解决问题。”历总认为,“从历史经验来看,曙光每一台机器推出一年之后就满负载运行。因此我们总结出铁律:先有机器,应用才能跟上来,企业才能解决问题。整个高性能计算产业也就发展起来。”
此外,历总还表示,目前业界达成共识的是未来云计算时代的必然趋势。而星云作为一台均衡的通用性系统,在承载高负荷单应用时拥有超级计算性能,而当未来面向云计算的多用户多应用计算时,也可以将计算资源最大化的切分,成为一个云计算中心。
“星云”与“魔方”的重要区别在于,“魔方”还处在高性能计算中心阶段,提供计算能力。而“星云”更多的提供的是服务,其未来云计算中心的定位也使其应用将远超过以往的超级计算机。历总引用深圳市领导的话表示,这是深圳近来最大的高科技投入,而目前已经有大量客户在排队等待使用“星云”。
历军总结表示,曙光千万亿次计算机问世后,国产高性能计算机将实现两大突破:一是采用国产模块化刀片服务器(我国第一个模块化刀片服务器)将具有划时代的伟大意义;二是高性能计算机现有的机群体系结构将在千万亿次时代实现改变——自主研发的高密度异构(x86+GPU)超级计算机。“这是中国速度(曙光5000宣传语)向世界速度(期待星云TOP500取得好成绩)的跨越。”(孟庆)