CAE高性能计算平台建设方案
目 录 第 1 章 概述 4
第 2 章 关于IBM高性能计算的简介 7
第 3 章 汽车行业CAE应用程序的特点及计算平台的选择 11
汽车行业CAE分析的过程 11
CAE高性能运算应用程序的特点 11
CAE硬件平台的选择 15
IBM Cluster 1600介绍 17
IBM Cluster 1350 Linux集群系统(IBM刀片中心): 20
IBM优势 21
第 4 章 CAE高性能计算系统设计原则 24
应用通用性原则 24
系统高扩展性原则 24
系统高可用性原则 25
处理器性能最大化原则 25
高性价比原则 26
第 5 章 CAE高性能计算平台方案 27
关于XX汽车CAE项目投资的几点建议 27
总体方案描述 27
二期扩展方案 31
第 6 章 相关产品技术介绍 32
IBM Power 575 32
IBM BladeCenter 34
IBM BladeCenter HS22 38
IBM System x3650 M2 41
IBM System Storage DS5000 系列模块化企业存储系统 43
IBM并行文件系统GPFS简介 46
xCAT集群系统管理软件 48
IBM智能系统管理 49
第 1 章 概述
CAE一直是高性能计算的主要应用领域。随着现代汽车技术的发展,特别是与其它学科如数学、物理、化学、材料科学的结合,汽车应用所需处理的数据信息量不断增加,对运算能力的需求也越来越大,由于并行计算技术的飞速发展,汽车CAE模拟的应用平台也逐渐从巨型机过渡到高性能计算机系统,这也为用户提供了一个具有更高性价比的选择。
近年来,高性能计算作为大规模CAE应用的基石,在工业和制造业领域的应用越来越普遍和广泛。从TOP600的统计信息来看,工业领域所占的比例在不断增加。2005年6月,工业用户使用的高性能计算机占到52。8%.而其中的半导体和制造业用户所占的比例相当可观.其中美国半导体公司大约有70台。许多国际著名的制造业大公司已实现了产品的虚拟化设计和制造,并实现了全球资源共享,利用全新的理念设计产品.美国、日本的一些公司都拥有总计算能力超过数十万亿次的高性能计算机用于新产品的研发。主导世界制造业方向的大集团公司目前都拥有大量的超级计算机用于产品设计和数据处理,制造业信息化是知识经济时代企业核心竞争的必要组成环节。
第 2 章 关于IBM高性能计算的简介
高性能计算多年来一直是科技综合实力竞争的制高点,也在一定程度上反映了各大公司在系统研发方面的实力。在过去十年中,高性能计算技术正处于创新的高峰期,其处理速度和总体计算能力的发展远高于摩尔定律描绘的芯片技术的发展速度。作为行业的技术领先者,IBM公司在这一领域积累了长达半个世纪的丰厚经验,并在关键技术领域不断创新,发明了包括并行处理、对称多处理机和高性能计算机系统等并行计算的核心技术,并通过它们始终保持着在业界的领
先水平.过去15年以来,IBM的专利数量都一直居于所有美国公司的首位。
IBM长期以来致力于高性能计算领域的技术发展和应用完善,当其它IT厂商由于机会或者财务限制,在这种科学计算市场中进进出出时,IBM就从每年50亿美金的研发经费中按比例、持续地投入高性能计算领域。IBM承诺将保持在高性能计算领域的领先位置。
IBM发明了包括并行处理、对称多处理机和集群等技术,并通过它们始终保持着在业界的领先水平。 并且IBM还承诺,通过利用和增强基于开放资源技术与工业标准服务器的Linux集群,来提供给客户更多的机会.IBM将会成为这种方案的领先提供商,我们在世界各地成立了专门的队伍,为Linux的发展贡献力量,帮助客户或合作伙伴将应用移植到Linux平台,开发更多的新技术和应用.
IBM Linux 集群系统是利用先进的体系架构将IBM 的System x系列服务器、System p系列服务器以及TotalStorage存储解决方案连接起来,通过集群技术实现高性能运算。由于Linux 集群系统性能卓越,可用性高,扩展能力强和易于掌握等优势,一经推出,就被科学运算领域和商用领域的用户认可。
众所周知,IBM公司长期以来在高性能运算方面投入了大量的精力,并取得了很好的成绩.在高性能运算 TOP 500名中,IBM公司占有很大的份额。IBM的大规模并行处理机SP系统已广泛地运用在各个领域,该机(深蓝)曾在1997年中的“人机大战”中因战胜棋王卡斯帕罗夫而享誉全球.作为后起之秀的Linux 集群系统,吸取了SP大规模并行机的诸多优势,并且将SP上的优秀的系统管理
软件和并行处理方面的程序移植到Linux 集群系统上,如并行系统管理软件PSSP和通用并行文件系统GPFS等,从而使Linux 集群系统不仅能在并行运算方面的性能得到保障,增强了集群系统的可管理性,最新的技术进步使得在相同的空间内采用刀片式服务器,从而将节点密度提高一倍,大大降低成本。
也正因为如此,IBM的Linux 集群解决方案越来越受到众多的用户群的关注,其中包括著名的蓝色基因(Blue Gene)以及目前在全球高性能计算集群中排名第一的“走鹃”(RoadRunner)。
图1:蓝色基因系统示意图
在2008年6月最新公布的全球500强超级计算机中,188套来自IBM,其中5套位于前10名,35套位于前100名,其每秒钟的运算能力总和达到了8903万亿次,是500强所有系统运算能力总和的39。4%,占绝对主导地位.其中,全球最快的计算机是 IBM的“RoadRunner\",实测浮点运算能力达到每秒1105万亿次。
以下是目前全球超级计算机前十强的名单,IBM占据了5席: # Ven—dor Rmax TFlops 1105 Installation DOE/NSSA/LANL (QS22/LS21) 1 IBM 2 Cray 1059 Oak Ridge NL - Jaguar (XT5 QC 2。3 GHz Opteron) FZJ Juelich (72 racks Blue Gene/P) NASA Ames (Altix QC 3。0/2.8 Xeon) DOE/NSSA/LLNL (104 racks BlueGene/L) NICS U Tenn — Kraken (XT5 QC 2.3 GHz Opteron) Argonne Natl Lab (40 racks Blue Gene/P) Texas Adv Comp Center (QC 2。3 GHz Opteron) DOE/NSSA/LLNL (36 racks Blue Gene/P) FZJ Juelich (QC 2.93 GHz Nehalem) 3 IBM 825.5 4 SGI 487.0 5 IBM 478.2 6 Cray 463。3 7 IBM 450.3 8 Sun 433。2 9 IBM 415.7 10 Bull 274。8 来源:http://www。toP600。org
在国内,IBM的高性能计算机系统客户遍布生命科学、环境科学、物理学、化学、数学等自然学科领域,以及高等教育、石油勘探、航空航天、汽车制造等各行各业,其中包括目前国内运算能力最强的中国国家气象局UNIX高性能计算机系统(21.7TFlops),以及目前国内排名第二的中科院网络中心百万亿次超级计算机。
为了更好地提供高性能计算应用支持,IBM和许多全球领先的高性能计算应用软件提供商进行了紧密合作.在CAE领域,长期以来IBM的行业专家在CAE代码并行化和优化方面有着有丰富的经验。
第 3 章 汽车行业CAE应用程序的特点及计算平台的选择
汽车行业CAE分析的过程
一般说来,CAE分析主要包括前处理、计算分析和后处理这3个过程.
前处理主要是建立问题的几何模型、进行网格划分、建立用于计算分析的数值模型、确定模型的边界条件和初始条件等;计算分析是对所建立的数值模型进行求解,经常需要求解大型的线性方程组,这个过程是CAE分析中计算量最大、对硬件性能要求最高的部分;后处理则是以图形化的方式对所得的计算结果进行检查和处理
图1给出了采用计算机进行产品开发的流程,包括建模、前处理(模型修改和网格生成)、计算分析、交叉学科综合及后处理几个部分。其中高性能计算主要应用于计算分析部分,统称为计算机辅助工程(CAE).图1是CAE的分析过程。
图1 计算机主要在CAE分析过程的后期解算部分发挥作用
CAE高性能运算应用程序的特点
CAE高性能运算的应用可以分为隐式有限元分析(IFEA)、显式有限元分析(EFEA)和计算流体动力学(CFD)三个子学科.采用隐式算法的软件主要有ABAQUS/Standard、ANSYS、MSC。NASTRAN等,适合求解静力、模态、屈曲等问题;采用显式算法的软件主要有ABAQUS/Explicit、LS-DYNA、PAM-CRASH等,适合求解接触、碰撞、冲击等问题。
几乎所有的制造企业的高性 能计算都依赖于独立软件开发商(ISV)提供的
商业软件,只有流体动力学算题中结构网格计算类型的部分软件是用户自己开发的。因此制造行业用户在购买硬件 平台的同时通常会购买相应的科学计算软件产品.而在某种程度上,往往是应用软件的特性决定了硬件平台的选择。
从对计算资源的需求来说,隐式解法的基本特点是内存占用多、磁盘IO大、进程通信量大,因此,隐式解法要求系统的内存容量大、访存带宽高、磁盘IO速度快、通信延迟低;相对而言,显式解法对内存、磁盘IO和通信延迟的要求要低一些。
从软件的扩展性上来说,隐式算法和显式算法有明显的区别。采用隐式算法的软件,扩展性相对较差,计算性能在8—16 CPU以上就很难获得进一步的提升。而采用显式算法的软件,扩展性就要好得多,在64-128 CPU以内都能获得较好的并行性能。
下表给出了常用的CAE软件,并列出这些软件的特点,包括并行方式和可扩展性.
常用分析软件
CAE应用软件分类 静态隐式有限元分析 (IFEA Statics) 动态隐式有限元分析(IFEA Dynamics) 应用软件 ABAQUS ANSYS MSC.Nastran ABAQUS ANSYS MSC。Nastran LS—DYNA PAM—CRASH RADIOSS FLUENT 并行方式 pthreads OpenMP,MPI pthreads,MPI pthreads OpenMP,MPI pthreads,MPI OpenMP,MPI OpenMP,MPI OpenMP,MPI MPI MPI OpenMP,MPI 扩展性 低 显式有限元分析(EFEA) 高 计算流体动力学(CFD) STAR-CC PowerFLOW 从上表中我们可以了解到CAE应用软件具有以下特点:
(1)IFEA类应用软件(如ABAQUS、ANSYS和MSC Nastran)硬件平台支持的可扩展性不是很好。Nastran对内存,I/O性能要求高;
(2)IFEA类应用软件通常使用共享内存方式(pthreads或OpenMP),进行并行处理,其中ABAQUS不支持消息传递方式(MPI)的并行;
(3)EFEA类应用软件(如RADIOSS、LS—DYNA和PAM-CRASH)
和计算流体动力学软件(如FLUENT、STAR—CD和PowerFlow)的硬件平台支持的扩展性相对较好。RADIOSSS/LSDYNA对CPU,I/O性能要求高;
(4)EFEA类应用软件和CFD软件以采用消息传递并行方式(MPI)为主。
高性能计算(HPC)服务器体系结构分类及特点
目前市场上常用的高性能计算服务器大致可以分为以下3种体系结构,
即:
1.并行向量处理机(PVP)
PVP系统含有为数不多、功能强大的定制向量处理器(VP),以及定制
的高带宽纵横交叉开关和高速数据访问。由于这类系统对程序编制的要求较高,价格很昂贵且难于管理,因此,这种类型计算机主要集中在一些大型国家关键部门,在这里不再赘述.
2.对称多处理机(SMP)
SMP系统采用商品化的处理器,这些处理器通过总线或交叉开关连接到
共享存储器.今天市场上常见的机型有IBM p系列服务器、HPQ的SuperDome、Alpha的ES、GS系列及SGI公司的Altix系列。SMP系统通常具有以下特点:
(1)系统内的CPU共享并可以直接访问所有的内存;
(2)由一个操作系统管理整个系统;
(3)支持共享内存方式的并行模式,如OpenMP、pthreads等; (4)支持消息传递方式的并行模式,如MPI、PVM等 (5)系统的价格相对较高;
(6)为提高系统的使用效率,需要有功能强大的资源管理软件和作业调度软件配合进行系统管理。如LSF、PBS及IBM的WLM和Tivoli Workload Scheduler Loadleveler等.
3.工作站集群(COW,Cluster Of Workstation,简称Cluster)
Cluster结构是近年来发展势头很好的一种体系结构。这类机型的技术起点比较低,用户甚至可以自己将一些服务器或微机通过以太网连接起来,配以相应的 管理、通讯软件来搭建Cluster。但是如果要构造高性能、结构合理并具有好的RAS特性的Cluster却不是一件容易的事情.几乎所有的国内、外计 算机厂商都有自己的Cluster集群产品,如IBM的Cluster1350、联想的深腾系列及曙
光的天潮系列等。Cluster系统通常具有以下特 点:
(1)系统由多个独立的服务器(在Cluster概念下称为节点)通过交换机
连接在一起。每个节点拥有各自的内存,某个节点的CPU不能直接访问另外一个节点的内存;
(2)每个节点拥有独立的操作系统;
(3)需要一系列的集群软件来完成整个系统的管理与运行,包括: Cluster系统管理软件,如IBM的CSM、xCat等; 消息传递库,如MPI、PVM等;
作业管理与调度系统,如LSF、PBS,IBM 的Tivoli Workload Scheduler Loadleveler等;
并行文件系统,如PVFS、IBM的GPFS等;
(4)支持消息传递方式的并行模式,如MPI、PVM等;
(5)只能在单个节点内部支持共享内存方式的并行模式,如OpenMP、pthreads等;
(6)性能价格比好。
CAE
硬件平台的选择
CAE在制造企业中承担着关键的业务,所以其高性能平台的选择非常重
要,这个平台直接影响CAE的运行性能表现、整体成本和系统维护等方面问题。想让CAE能实现“随需应变”,在高性能计算平台的选择上就需要进行全面的考虑。
1.CAE软件使用SMP系统存在的问题
理论上讲,SMP系统可以胜任CAE应用程序的运行,但是不可避免地存在一些问题.首先是SMP系统价格相对较高.而且CAE的某些应用软件的扩展性不好,如隐式有限元分析(IFEA)类软件通常只能用到最多8个CPU。这个特点决定了配置超过8CPU的大SMP服务器没有太大的必要,反而会造成投资的浪费。
此外,SMP系统由一个操作系统管理,如果没有强大的资源管理软件和作业调度软件配合,很容易造成CPU分时处理多个任务的现象,即在一个CPU上同时运 行多个进程,从而影响整个系统的使用效率,同时难于保证关键任务的
按时完成。常用的作业调度软件有PBSpro、LSF和OpenPBS,其中开放源代码 的OpenPBS很难胜任复杂的CAE应用软件的管理,尤其是对共享内存方式并行模式(OpenMP,pthreads)的管理。而LSF和PBSpro 的价格比较高,同样会增加用户的投资.
2.CAE软件使用Cluster系统存在的问题
目前市场上的Cluster系统通常是用PC服务器作为节点构建的,每个PC服务器内部一般配置2个CPU.这种类型的Cluster系统在承担CAE应 用软件运行任务时也存在一些问题,比如共享内存方式的并行模式只能运行在一个节点内部,也就是说,最多只能用2个CPU去处理 OpenMP/threads类型的CAE任务,很难满足应用的时效性要求.又因为单CPU的处理能力限制,需要更多的CPU来完成一个计算任务,这样就需要购买较多CPU的软件许可证,增加了用户的投资。
3.SMP—Cluster混合架构:CAE应用平台的最佳选择
如上所述,不同CAE软件对计算机系统的需求差异很大,例如NASTRAN
应用对内存和I/O的要求很高;而CFD类的应用对CPU速度及网络连接有较高的要求。为此,该计算机系统必须是一个平衡的系统,在CPU速度、内存容量与带宽、存储容量与带宽及网络连接等各个方面都不应该存在性能瓶颈。
当设计CAE高性能计算整体解决方案时,要充分考虑用户需求,比如资金预算、问题类型、分析规模、用户数量、软件License个数等,以此来确定最终的硬件选型。根据客户以上各方面需求的综合分析,可采用以下三种方案:
1)以隐式分析为主的解决方案
常用的隐式有限元软件有ABAQUS/Standard、ANSYS、MSC。NASTRAN等.根据隐式有限元分析要求内存容量大、磁盘IO快、通信延迟低的特点,推荐采用基于SMP架构的IBM Power 产品,小规模的隐式分析也可采用x3850 X5或x3755。
2) 以显式分析为主的解决方案
常用的显式有限元软件有ABAQUS/Explicit、LS—DYNA、PAM-CRASH等。相比而言,显式有限元软件对系统硬件的要求略低一些,从性价比以及软件的扩展性出发,推荐采用由2路的IBM System X作为计算节点的集群系统。
采用集群系统进行显式有限元分析具有以下优点:
1)采用集群系统,节点硬件配置可以略低一些,节省投资。
集群节点采用XXX系列处理器,系统内存的配置推荐XGB/Core,配置硬盘. 2)采用集群系统,可以为用户提供更多的CPU资源.
在同等价格的情况下,集群系统可以为用户提供更多的CPU资源.可以同时满足多个用户、多个计算任务的需求。同时集群的各个节点也可独立进行运算. 3)采用集群系统,各个节点可以协同工作。
集群系统的特点在于虽然各个节点的计算性能有限,但是多个节点可以通过高性能网络进行协同工作,共同完成大规模问题的求解.目前主流的计算软件也都支持集群并行计算.
4)采用集群系统,进行扩展非常方便。
当需求增加时,通过增加节点数量,可以立即提升系统的整体运算能力,用户以前的投资不会浪费。
在集群系统中,网络的性能直接影响整个系统的实际运算能力。目前市场上主要有三种高性能计算网络:千兆以太网、万兆以太网和Infiniband.应该根据用户的预算和系统规模进行选择。
5)兼顾隐式和显式分析的解决方案:SMP—Cluster混合架构
针对SMP系统和Cluster系统在处理CAE应用时存在的问题,我们可以考虑一种综合这两类体系结构优势的高性能计算机系统—-SMP Cluster。如图2所示。
图2 SMP Cluster和OpenSMP、Cluster的比较
IBM Cluster 1350 Linux集群系统(IBM刀片中心):
IBM将目前最紧凑的刀片式服务器加入到Cluster1350集群产品中,使集群系统的集成度提高了一倍,即在一个7U高的刀片抽屉中可以放置14个刀片服务器.该产品不仅集成了IBM在x系列服务器、p系列服务器方面的多种技术和特点,而且是开放的技术标准,在系统的结构和散热方面都有许多的独到之处,其关键的中间板的冗余设计,大大提高了整个系统的可靠性,连接线缆的减少使集群系统的可维护大大提高.
IBM刀片中心BladeCenter可以安装四种类型的刀片式服务器,一种是采用Intel Xeon芯片的HS22刀片式服务器,一种是采用AMD 芯片的LS22/LS42刀片式服务器,一种是采用IBM Power 6 芯片的JS22刀片式服务器,一种是采用IBM Power架构CELL芯片的QS20刀片式服务器。使用IBM刀片中心作为节点来构成Cluster1350系统具有以下特点:
(1)采用刀片服务器作为节点,使传统Cluster系统具有更高的集成度,更加省电,稳定性更高;
(2)刀片中心可以在7U高度中安装14片刀片服务器共28颗CPU的集群系统.刀片之间操作系统独立;
(3)节点间连接采用IBM为HPC专门设计的高性能交换机,其单通道带宽达到10Gb/s,并且每个节点都配置了双通道作为冗余配置。这样在保证跨节点通信的优越性能的同时,提供了较高的稳定性;
(4)整个系统节点间使用消息传递方式的并行任务(MPI或PVM)。 (5)完善的集群管理环境,统一进行资源管理和作业调度。管理软件包括:
xCAT集群系统管理软件,可以同时管理多个集群, 包括UNIX
集群和Linux集群;
Tivoli Workload Scheduler Loadleveler作业调度软件,具有强大的
作业调度、记帐及断点/续算功能;
充分优化的并行使用与开发环境IBM PE,提供高性能的、完善的
并行作业运行与管理;
高性能的并行文件系统GPFS,为整个集群提供稳定的共享文件系
统。GPFS是一种高性能共享磁盘文件系统,可提供对集群中所有节点的快速数据访问。单节点最高带宽15GB/s,I/O平衡调度改
善吞吐性能,已安装的美国ASCI Purple 实测达到102GB/s;
(6)高性能价格比.
IBM优势
IBM,即国际商业机器全球服务公司,1911 年创立于美国,是全球最大的信息技术和业务解决方案公司,目前拥有全球雇员 31 万多人,业务遍及 160 多个国家和地区。
在过去的九十多年里,世界经济不断发展,现代科学日新月异,IBM 始终以超前的技术、出色的管理和独树一帜的产品领导着全球信息工业的发展,保证了世界范围内几乎所有行业用户对信息处理的全方位需求.众所周知,早在 1969 年,阿波罗宇宙飞船载着三名宇航员,肩负着人类的使命,首次登上了月球;1981 年哥伦比亚号航天飞机又成功地飞上了太空。这两次历史性的太空飞行都凝聚着 IBM 无与伦比的智慧。
IBM在产品技术发展路线上始终保持清晰稳定的发展方向,产品设计生产上全面保护用户的已有投资。IBM是唯一一家在高端服务器行业有能力自己设计、研发和制造的厂家。IBM设计和制造CPU的成就是非凡的.从我们目前所熟知的铜芯片、绝缘硅技术,到后继的low—K dielectric和silicon strainin等新技术已一一被发明出来.
总体而言,IBM 有很强的技术实力,在高性能服务器中引进了大量的主机上的先进技术,依靠“整体\"的系统解决方案保证系统的可用性和可靠性,将高性能计算推广应用到“实际生产处理”系统中。IBM 多年在世界最快500套超级计算机中(TOP600)排名第一。截止到2006年11月,其中前5套IBM占据前4套,前50套IBM占有46%,全部500套中IBM占48%。
IBM不仅在硬件技术上处于领先地位,在高性能计算软件方案上也有着独到之处.对于高性能计算机复杂的管理难点IBM有同时支持Unix/Linux平台的高效管理软件(IBM xCAT)。对于影响大型高性能集群性能的I/O难点IBM有性能领先的通用并行文件系统(IBM GPFS),GPFS可以根据用户系统规模的不断扩展线性提升系统I/O带宽。对于提高系统效率的作业管理软件,IBM有积累了长期大规模高性能计算经验的IBM Tivoli Workload Scheduler Loadleveler,他可以实现资源利用率和吞吐量的最大化.对于影响高性能计算程序的编程环境IBM 有历经几十年的强大编译器(最优的SPEC OMP2001性能)和优秀的数学与科
学函数库ESSL, PESSL。IBM 更有经过充分优化的并行运行环境IBM PE及调试工具。
其次,IBM在系统层面保证(大型)高性能计算系统的可用和可靠性,除上述系统连接、监控和系统管理功能外,IBM的优势在于IBM全球服务部以其在高性能计算上多年的经验和积累,将根据“应用\"和“客户\"的具体需求对整个系统运行环境的客户化,包括IP地址规划、主机名规划、操作系统包规划、各种服务规划以及集群系统本身的安装、维护、客户化、集群作业的分发、集群资源的分配、并行软件编译环境等等。这点对于高性能计算进入实际生产应用意义深刻。
在高性能计算方面,IBM有一批资深的技术专家,他们不仅了解IBM的产品和技术,而且了解行业的应用,熟悉行业的应用软件,这些专家负责与应用软件商和客户应用的密切技术合作和支持,经常地与应用软件开发商一起研究和优化应用软件,使应用软件在IBM的计算机体系结构上运行得更好.有了这些专家的支持,可以使大量的应用软件可以平滑地在IBM的平台上运行,帮助用户更好地使用IBM的技术和产品,协助用户调试和优化相应的应用软件。
最后,厂家长期、稳定的产品售后服务和技术支持体系也是保证一个生产处理系统正常运行的因素。IBM中国公司在1998年就投资1500万美元成立了国内最大的技术支持中心-IBM中国技术支持中心(IBM China Technical Support Center,即TSC),为国内的用户、代理商及IBM内部提供技术支持服务。
正是由于 IBM 在高性能计算方面长期以来的不懈努力,使IBM在“大规模\"高性能计算方面拥有大量用户(安装并已进入实际生产运行).并且,IBM公司与业内多家应用软件提供商和服务商有大量的合作和成功案例, IBM的高性能计算解决方案能在硬件和系统的层面满足应用的需要,IBM中国公司在此提供建议书,其目的在于根据IBM在并行计算项目方面的多年经验,为用户提供一个技术上的参考意见,并通过IBM的服务支持,协助用户以最高的性价比获得稳定、可靠的运行.
第 4 章 CAE高性能计算系统设计原则
应用通用性原则
如上所述,不同CAE软件对计算机系统的需求差异很大,例如NASTRAN应用对内存和I/O的要求很高;而CFD类的应用对CPU速度及网络连接有较高的要求.为此,该计算机系统必须是一个平衡的系统,在CPU速度、内存容量与
带宽、存储容量与带宽及网络连接等各个方面都不应该存在性能瓶颈。
半导体技术和计算机技术的飞速发展,使得不停地有新技术出现以提高某一方面的能力,因此综合优化利用所有在某一时刻最新最先进最成熟的技术才能建立一个全方面均衡的系统,任何一个主要部件的先进不代表整个系统的先进,任何一个主要部件的落后也会导致整个系统的落后。
但毋庸置疑,一个全面实现均衡设计的先进系统必然是一个成本较高的系统,最先采用新技术通常都会带来一些额外的代价。因此设计一个有具有不同特点的多个子系统构成的高性能计算系统也是一个对CAE应用非常适合的做法。但这类系统应该具有一个较好的管理机制,能够将不同特点的作业分发到最适合的子系统上进行运算,以获得总体上均衡的效果。
系统高扩展性原则
CAE高性能计算系统在提升作业吞吐能力(支持多用户、多作业)的同时,还有一个重要的目标是用来支持中、小规模计算机系统无法解决的特殊业务问题。为此,该计算机系统不应该是众多低端服务器的简单堆叠。用来构建该计算机系统的计算服务器必须具有强大的处理能力,并配合以高性能的网络连接.
下表列出了Power575服务器与Intel最新的发布的、采用两路Nehalem芯片(8核)的服务器的一些指标对比,从中可以看出Power575服务器出了具有强大的计算性能优势外,更是一台性能平衡的系统,在内存及I/O等各方面均有优异的性能。 IBM Power 575服务器 640 273 94 2—way Nehalem服务器 性能比 93.76 18 32 19.2 6.42倍 35。56倍 8.53倍 4.9倍 理论峰值速度 (GFlops) 601 缓存容量 (MB) 内存带宽 (GB/s) I/O带宽 (GB/s) 系统高可用性原则
建设大规模的高性能计算机系统将面临众多的技术难题,其中系统的稳定性、安全性及易管理性是该计算机系统应具有的基本特征。最终用户不应该在系统管理和维护上投入过多的人力与物力,而是将精力集中于相应的科研工作.
为此,我们推荐采用更稳定的Power服务器和可靠性很高的刀片系统作为计算节点,辅之以成熟的软件系统和关键部件的冗余化设计,从而建立高可用的高性能计算系统。
处理器性能最大化原则
在CAE用户所处的应用领域存在一个现象,即作业的运行时间很难通过增加所使用的处理器数量来减少。下面分别列出了ANSYS和ABAQUS在典型高性能计算机上不同个数处理器上运行标准测试所花费的时间。 加速比 ABAQUS, 7 Standard Benchmarks ANSYS, 12 Standard Benchmarks 1 CPU 1 1 2 CPU 1。48 1。30 4 CPU 1.95 1.57 ABAQUS是典型的非线性有限元分析程序,从上表可以看出,即使使用4个CPU,也无法将计算时间缩短至只使用一个CPU时的50%。而ANSYS多处理
器并行的效率更差。
分析以上数据我们可以得出结论,若要提高工作效率,缩短作业的运行时间或者在一定的时间内运行更多的作业或更复杂的作业,只有提高单处理器的性能才能实现。也就是说,由8个相对性能为一的处理器构造的高性能计算系统不如使用由4个相对性能为2的处理器组成的高性能计算系统的使用效果好,理想状态下对两个4 CPU的作业它们的性能是一样的,而对于一个作业来讲后者只需前者一半的时间就可完成作业。
对于这类应用,高性能的Power处理器是比较理想的选择,选择性能尽可能高的Power处理器还有另一个好处,就是在得到同样的运行效率的前提下,在应用软件许可证上的花费更少.
高性价比原则
只遵循上面的原则会造成系统购置成本不受限制地增加,所以需要在高性价比原则给以制约.对于显式有限元分析以及流体和碰撞等应用,选择性能价格比更高的刀片式服务器,无疑是非常理想的选择。
同时高性价比原则也不能仅理解成硬件系统的性价比,而应该将所需软件的费用一并纳入考虑内容;也不应只是考虑系统在采购时的性价比,而应考虑系统故障造成的时间损失和信誉损失、维修备件成本、维修人员成本、能源费用等。
第 5 章 CAE高性能计算平台方案
关于XX汽车CAE项目投资的几点建议
➢根据测试结果及我们以往在汽车行业的经验,理想的计算环境应该是SMP小机
+Linux cluster的混合架构;
➢项目投资应有计划、分步骤地有序进行,一期可先上cluster保证碰撞和显式计算并
规划好未来扩展的计划; ➢保证ABAQUS、NASTRAN等隐式计算可以在cluster架构下过渡性地运行,明年二
期可以平滑地迁移到计划的SMP小型机上,不建议采用X86 SMP服务器
➢存储需要考虑并行文件系统,可以考虑一期用两个I/O节点保证I/O吞吐量并兼顾
可靠性,后期可平滑扩展;
➢考虑到碰撞等应用对时间延迟的敏感性,建议采用InfiniBand等高速网络连接,并制
订后期扩展计划
➢作业调度方面,一期可考虑开源软件,后期可选择LSF,PBS Pro,LoadLeveler等商
业版作业调度系统。
总体方案描述
根据客户需求,一期采用刀片集群方案,二期扩展SMP小型机,具体方案描述如下:
使用一套刀片中心,8片刀片,内置万兆交换机为各刀片之间提供10Gb/s带宽。随着用户需求的增长,该系统可同过增加刀片中心灵活的扩展。基本配置如下: 1) 计算节点: 8片HS22 CPU:2 颗 Xeon X5670 2.93GHz CPU (Intel Xeon六核处理器, 2。93GHz, 12M L3缓存, 总线6.4GT/s) RAM:24GB
HDD:2 x 146GB 2。5” SAS热插拔的硬盘 集成2个千兆以太网卡 万兆的子卡 三年免费维护
2)用于安装计算节点的BladeCenter H Chassis 1个 管理模块1个
两组(4个)2900W电源模块 内置千兆以太网交换机 BNT万兆交换机 三年免费维护
3)管理节点:1台IBM x3650 M3
CPU:2 颗 Xeon E5630 2.53GHz CPU(四核至强处理器2.53GHz 12MB三级缓存,最高支持1066MHz内存频率,5.86 GT/s QPI,支持超线程、TurboBoost功能) RAM:16GB
HDD:2块146GB 2。5” SAS热插拔的硬盘 集成2个千兆以太网卡
1个双口独立千兆以太网卡 三年免费维护
4)I/O节点:2台IBM x3650 M3
CPU:2 颗 Xeon E5630 2.53GHz CPU(四核至强处理器2。53GHz 12MB三级缓存,最高支持1066MHz内存频率,5.86 GT/s QPI,支持超线程、TurboBoost功能) RAM:16GB
HDD:2块146GB 2.5” SAS热插拔的硬盘 集成2个千兆以太网卡 1个双口光纤通道卡 万兆以太网卡 远程控制卡
三年免费维护 5)存储设备
IBM DS5300高性能磁盘阵列 双控制单元
12块300GB,FC磁盘 6)机柜套件
1个42U,19英寸标准机柜 1套15英寸液晶显示套件
1套NetBAY Console Switch (KVM),含键盘,鼠标 4个PDU 含配套电源线 7)软件部分
1.操作系统 : Linux
2.集群管理系统 :IBM xCAT
本系统集群管理软件采用xCAT完成集群管理功能,本方案建议选择主管理节点作为xCAT的管理服务器,安装xCAT服务器端软件。xCAT服务器端软件通过AMM网络与刀片中心的管理模块通讯,得到刀片的状态信息,例如为部署刀片操作系统需要的网卡MAC地址。通过软件分发网络,与存储节点和登陆节点通讯,进行硬件管理。xCAT管理操作,通过软件分发网络,与计算节点,存储节点,登陆节点通讯.xCAT工作逻辑如下图所示:
xCAT能够通过单点控制来管理基于Intel的Linux系统群集.这样便简化了群集的管理,使其能够很方便地扩展,有助于提高系统管理员的效率.同时,该软件还充分利用了IBM在硬件上的先进技术,如集成的系统管理处理器(Service Processor),使管理软件能够以远程方式管理每一个系统节点,从而方便系统的管理。
xCAT包括一种能够监控软硬件事件的基础设施,在适当的时候可以触发自动恢复操作。CSM的这种较高可靠性基础设施和事件监控功能,有助于快速检查和解决问题,从而增强了群集的可用性。
具体来讲,IBM的集群系统管理软件可以实现如下的功能:
实现系统的并行安装和配置; 管理和同步节点的配置文件;
提供系统远程运行命令操作,允许以命令或脚本方式运行在集群中的所有节点
上
支持用户帐户统一管理;
提供远程硬件控制,如:节点的远程开机、关机和重新启动; 动态监视系统资源使用情况;
3.编译器:GNU 编译器:C/C++编译器,Fortran77/90/95/编译器
4.并行环境软件:IBM Tivoli Workload Scheduler Loadleveler, MPI-CH, Maui/OpenPBS Tivoli Workload Scheduler Loadleveler-—是一种动态任务计划和负载平衡软件,可在集群的内部支持数以千计的各种任务;
5.文件系统:IBM GPFS (通用并行文件系统)
GPFS——是一种高性能共享磁盘文件系统,可提供对集群中所有节点的快速数据访问。单节点最高带宽15GB/s,I/O平衡调度改善吞吐性能,已安装的美国ASCI Purple 实测达到102GB/s;
6.系统监控管理软件:IBM Systems Director
8)技术集成
IBM完成硬件系统平台,操作系统,系统平台软件的安装调试以及与LS—DYNA,radioss, NASTRAN等专业软件商联合安装与调试,确保用户的应用软件的正常运转.
9)日常维护
使用IBM提供的高级群集管理软件xCAT,能够通过单点控制来管理基于AIX/Linux系统群集。这样便简化了群集的管理,使其能够很方便地扩展,有助于提高系统管理员的效率。同时,该软件还充分利用了IBM在硬件上的先进技术,如集成的系统管理处理器(Service Processor),使管理软件能够以远程方式管理每一个系统节点,从而方便系统的管理。通过现场培训用户可以简便的完成系统管理工作。
二期扩展方案
根据现有的架构,二期可以方便地增加刀片加入现有集群,并通过xCAT管理新增加的小型机;同时,GPFS并行文件系统在线扩展文件系统和添加I/O节点,并支持分级存储。 方案具有非常好的扩展性。
第 6 章 相关产品技术介绍
IBM BladeCenter
要点: 提供业界最全面的兼容机箱、刀片服务器、存
储器和联网产品的选择性。
通过多层冗余提供极为牢靠的可用性。 端到端的可靠性和最佳业务实践承诺。 通过创新的冷却技术提供卓越的电源效率。
基于开放技术提供卓越的I/O性能和交换功能。
高效整合:IBM BladeCenter H将服务器、存储、网络、I/O 与应用程序紧密地集成
在一起,客户可以使用通用构建模块构建强大而灵活的 IT 基础架构.业务增长时,只要插入新的刀片即可,非常简单。模块化设计能节约大量的电缆成本,而且在很大程度上减少了由于电缆太多而造成的混乱和路由上的麻烦。由于电缆数量的减少,能够大大提高机架后面的空气流通自由度. 刀片中心具有非常高的可靠性及可用性,刀片中心中连接后部共享模块和前部刀片
服务器的中间背板,其上半部与下半部的功能相同并相互独立,从而实现了背板的冗余配置。所以IBM刀片中心中的所有部件都可以冗余配置,包括风扇、电源、交换机模块、和管理模块等,甚至刀片中心的背板都是冗余的,从而消除了单点故障.
另外,风扇、电源、交换机模块、和管理模块等部件都是可以热插拔的。电力传输没有单点故障, 14台刀片服务器总体上拥有坚如磐石的可用性.
BladeCenter机箱提供了一个大量可选择的平台:基于Intel平台刀片(HS, HC系
列),基于 AMD平台刀片 (LS系列), 基于POWER平台刀片 (JS系列),基于 Cell/BE 平 台刀片 (QS系列),支持Windows, AIX, Linux, i5 OS等操作系统。提供了最大化的灵活性,一个机箱里可以混合使用多种刀片以满足客户的不同需求。 使用强大的 IBM Cool Blue™(酷蓝)技术来管理您的数据中心,这种产品和工具
组合可帮助客户计划、管理和控制数据中心的电源和冷却系统,从而建立环保的绿色数据中心。 IBM Cool Blue技术能够准确预测具体配置对电源和冷却的需求,从而实现对电源和冷却架构进行切实的规划.可以帮助您消除数据中心的热区.还具有行业唯一的电源虚拟化(封顶)功能,根据需要将电源从一台服务器移到另一台服务器。此功能可以在有限的电源供应基础上在最大限度上提高对服务器的利用率。 BladeCenter Virtual Fabric技术采用灵活、开放的互连架构,帮助您在最大限度上
提高应用性能。 BladeCenter支持各种不同的结构,包括以太网、光纤通道、InfiniBand、iSCSI和
新的SAS,让您可以轻松实现向无盘服务器和无状态服务器的转变. IBM Director及AMM(高级管理模块)一组强大的管理工具,可帮助简化 IT 环境
的管理.BladeCenter 可提供开放、易于使用且无缝集成的工具,让您可以将精力集中在业务方面,而不是 IT 方面。
IBM 刀片中心的独特设计
➢IBM刀片中心具有非常高的可用性.刀片中心
中的所有部件都可以冗余配置,包括风扇、电源、交换机模块、和管理模块等,甚至刀片中心的背板都是冗余的,从而消除了单点故障。另外,风扇、电源、交换机模块、和管理模块等部件都是可以热插拔的.如右图所示,其中: 1:电源模块。最多可以配置4块,其中2块为冗余配置。
每个刀片服务器内不再单独配备电源,从而减少了电源的个数,相应地减少了故障点;
2:管理模块。最多可以配置2块,为冗余配置。管理模块中配置有单独的管理处理器,负责整个刀片中心的硬件配置、故障诊断与监督等管理;
3:风扇(或冷却模块).最多可以配置2块,为冗余配置。每个刀片服务器内不再单独配备风扇,从而减少了风扇的个数,相应地减少了故障点;
4:以太网交换机模块.可以是千兆以太网交换机,也可以是Nortel的2—7层交换机模块。最多可以配置2块,可以是冗余配置,也可以分开使用。如果分开使用,刀片服务器上的2个千兆以太网卡分别连接到2个交换机上,配置成2个独立的网段,以改善性能并方便使用;
5:光纤交换机模块或Pass—thru模块。光纤交换机模块用来连接刀片服务器内的光纤卡(需另外配置),并可以与外部的交换机相连,改善服务器的I/O性能;Pass—thru模块用来将刀片服务器内部配置的如Myrinet网卡等适配器与外部的交换机相连(注意:该模块不能用作交换机使用)
另外,如右图所示,刀片中心中连接后部共享模块和前部刀片服务器的中间背板,其上半部与下半部的功能相同并相互独立,从而实现了背板的冗余配置。 ➢支持32-bit和64—bit混合平台及多种操作系统,便于服务器的集中与整合.刀片
中心中可以混插JS22刀片服务器和HS22刀片服务器(Intel base)。JS22采用的是64-bit的RISC芯片,而HS22采用的是32/64—bit的Intel芯片。将两者安装在同一个刀片中心内,使得该服务器整合能满足用户的多种需求。同时,JS22支持标准的UNIX-AIX和Linux操作系统;而HS22支持Linux和Windows/NT操作系统。可见在一个刀片中心中可以同时存在多种操作系统,并由刀片中心的管理模块统一管理,对要求多操作系统的用户是非常方便的.
➢IBM刀片中心的紧凑设计。每个BladeCenter H刀片中心的高度为9U,内部可
以安装14个刀片服务器,28颗处理器,从而使得JS22的计算密度是1U服务器集群的2倍.不仅如此,刀片中心还将所有的连线整合到交换机模块中,不仅节省了空间,同时也降低了成本。另外刀片中心的这种模块化设计也非常方便与采用新的技术,当某个部件的技术得到更新后,只需用新的部件替换掉老的部件就可以了。这样对于保护用户的投资是非常有利的.
➢在刀片中心上整合的软盘驱动器和CD-ROM使得在某个特定的刀片服务器中安
装特定的软件更加方便,同时借助IBM的管理软件Director和xCAT的强大功能,使远程安装软件也非常容易.
1. 完善的系统与硬件管理工具 – IBM Director 6.1
➢刀片中心提供统一的系统与硬件管理工具对整个刀片中心进行管理,包括如硬件
列表、硬件故障报警、硬件健康状态报告等.这些管理与监视功能是通过刀片中心中管理模块上的管理处理器来实现的,使管理功能独立于刀片服务器之外,提
高系统可用性。
2. 极低的总拥有成本(TCO)
➢紧凑的结构在减少机柜数目的同时节省了占地空间,节约了成本;
➢创造性的设计与高度的集成极大地减少了冷却与系统供电成本。一个满负荷运行
的刀片中心功率为1635 watts;相同处理器数目的使用Intel Xeon处理器的1U服务器机群功率约为3000 watts ~ 5000 watts;
➢模块化设计减少了各种连线的数量,节约了成本。这些连线包括:电源线、以太
网络线、光缆线等。
IBM BladeCenter HS22
智能新一代,英特尔®至强®处理器5600
要点
•改进服—HS22提供无与伦比的RAS功能和创新的管理功能 •降低成本-更高的性能、更高的利用率、更高的效率
•管理风—BladeCenter平台久经考验、稳定可靠
设计满足多种功能需求 IBM® BladeCenter® HS22提供灵活的选件来支持广泛的工作负载,包括虚拟化和企业应用.结合使用基于UEFI的直观工具,可以对HS22进行快速定制和部署,同时,顶级的可靠性有助于保持系统正常运行.与业内最为灵活的多种机箱及非
x86刀片组合。HS22可以满足您多样化的需求。 打造优良的性能
HS22提供卓越的性能,支持最新的Intel® Xeon® 处理器、高速I/O,并支持较高的内存容
量和较快的内存吞吐量。与上一代刀片相比,HS22运行应用程序的速度高达原来的两倍。实际上,您甚至会发现许多应用程序运行速度比在竞争对手的四插槽刀片更快.
针对电源和散热效率进行了优化
HS22的特色是采用了创新型机械设计,专为提高散热能力进行了优化,这样,即使在苛刻的条件下也能帮助刀片保持平稳运行。结合使用低电压组件、业界最节能的机箱和强大的电源管理工具,HS22可帮助控制功耗并最大限度提高效率。
IBM BladeCenter HS22一览表 外形 处理器(最大) 处理器数量(标配/最多) 内存(最大) 单宽度(30mm) 可选两个英特尔® 至强® 处理器5600系列,高达2。93 GHz 1/2 12个DDR—3 VLP DIMM插槽(高达96 GB的内存总容量和高达1.333 MHz的内存速度) 每个刀片共有8个I/O端口(包括4个高速I/O端口),配备1个CIOv插槽(标准PCI—Express子卡)和1个CFFh插槽(高速PCI—Express子卡) 2个热插拔托架,支持SAS硬盘驱动器或固态驱动器 高达600 GB的内部总存储量 带有双千兆以太网端口的Broadcom 5709S板载网卡,支持TOE 内部存储托架 RAID 0、1和1E(配备电池供电缓存的可选RAID 5) UEFI固件、IBM集成管理模块(IMM)、预测性故障分析®、进行虚拟化的系统管理 可选嵌入式虚拟机管理程序、IBM Systems Director Active Energy Manager™、光通路诊断、IBM Systems Director以及IBM ServerGuide™ 支持操作系统 有限保修3 Microsoft® Windows® 、Linux® 、Sun Solaris和VMware 三年客户更换元件和有限保修 扩展插槽 磁盘托架(总数/热插拔) 最大内部存储量1、2 网络接口 热插拔组件 RAID 支持 1 要获得最大的内部硬盘和内存容量,可能需要将所有标配的硬盘驱动器和/或内存以及所有硬盘托架和内存插槽中的配置,更换为可支持的最大容量的驱动器。变速CD—ROM、CD—R、CD-RW和DVD的实际播放速度可能有所不同,通常低于最大速度。
2 提及存储容量时,1 GB=1,000,000,000字节,1TB=1,000,000,000,000字节。实际可访问容量低于该值。 3 IBM硬件产品可能使用新零件制造,也可能同时使用了新零件和可用的旧零件。无论属于何种情况,我们的保修条款同样适用。要索取适用的产品保修副本,请致函以下地址:Warranty Information, P.O。 Box 12195, RTP,NC 27709,Attn:Dept. JDJA/B203.对于第三方产品或服务,包括指定为ServerProven或ClusterProven的产品或服务,IBM不作任何声明或保证.
有关更多信息,请访问:
System x 主页ibm。com/cn/systems/x
选件 ibm。com/cn/servers/eserver/xseries/options.shtml 经销商园地 www.xpartners。com.cn
IBM System x3650 M3
适用于关键业务应用的性能优化服务器,
具有领先的性能、支持虚拟化和易管理特性
要点
▪利用更高的性能功耗比来提高成本效益 ▪利用灵活的设计来简化管理和服务
▪利用弹性架构和虚拟化环境来管理风险 创新的技术
IBM System x3650 M3为关键业务应用提供卓越的性能。其节能设计可在2U的空间内支持更多内核、内存和磁盘容量,并且易于维护和管理。借助更高的计算性能功耗比以及最新的Intel® Xeon® 处理器技术,您可以在降低成本的同时保持高性能和可用性。
简化的管理和维护
x3650 M3提供了可扩展的灵活设计以及简单的升级路径,可升级到16个硬盘托架及192GB内存。全面的系统管理工具包括先进的诊断、线缆管理臂以及对资源的单点控制,轻松实现系统部署、集成、维护和管理。
降低风险并保持可用性
通过全新的6Gbps RAID适配器,I/O性能提升一倍,x3650 M3为关键业务应用和虚拟化环境提供了理想的弹性架构.对更大的内存和磁盘容量的支持使您能够充分利用更高的处理速度。
x3650 M3的指定配置是IBM易捷优势产品组合的一部分,在设计时充分考虑了中型企业的需要。易于管理的易捷型号/配置可能会因国家/地区的不同而有所差异。
绿色节能
IBM® System x3650 M3采用了强大、久经考验的技术和灵活、符合能源之星标准的设计。
该服务器借助基于QuickPath Interconnect技术的英特尔® 至强® 5600系列处理器提供了六核计算能力,通过采用低功耗组件以及智能化散热设计,使产品性能功耗比与上一代服务器相比得到了大幅提升。
强大的系统管理
x3650 M3提供了功能丰富的管理能力,涵盖从电源管理一直到预测性硬件监控。集成管理模块(IMM)可对系统进行不间断监控,并在发现潜在系统故障或变更时通知客户,从而提高服务器的可用性。Virtual Media Key选件提供了远程在线支持能力而无需占用I/O插槽,IBM Systems Director Active Energy Manager™ 提供了高级电源监控和通知功能。
虚拟化设计
x3650 M3旨在提供领先的虚拟化功能,支持行业领先的虚拟化解决方案VMware ESXi 4嵌入式虚拟化管理程序。此外,x3650 M3还提供了卓越的每内核内存容量,支持您更加有效、经济地实施虚拟化。
IBM System Storage DS5000 系列模块化企业存储系统
要点:
•全新的拥有极致、均衡性能的第七代架构大幅提升应用程序性能
•“按需购买”的可扩展性,DS5100 最高可扩展到 256个驱动器,DS5300 最高可扩展
到 448个驱动器,可以满足最苛刻的容量要求
•高达 700,000IOPs 和 6,400MBps
•主机接口卡可提供出色的投资保护和生命周期寿命,现在具有 4Gbps 或 8Gbps FC 连
接能力以提高效率并降低成本
•双活动型热插拔控制器、电源和许多非中断性的固件升级实现高可用性
•对包括 Microsoft® Windows®、UNIX® 和 Linux® 在内的最常用操作系统的异构支
持
•切实的性能,可以满足整合/虚拟化所带来的各种不同和整合工作负载的需要
•针对中端市场客户的创新的自加密磁盘解决方案可让您在将驱动器送回进行维修、报
废或转用时尽可以放心驱动器上面的敏感数据不会泄露,并且该解决方案不会对性能造成影响。
IBM System Storage™ DS5000 系列存储系统可以满足当前和未来苛刻的开放系统要求,并同时为生命周期寿命确立新的标准。DS5000 系列第七代架构建立于数十年设计专业知识之上,可提供行业领先的性能、真正的可靠性、多维可扩展性以及无与伦比的投资保护。 DS5000 系列同样擅长于支持事务型应用程序(如数据库和 OLTP)、吞吐量密集型应用程序(如 HPC 和多媒体)以及整合和虚拟化的并发工作负载。通过其稳健的性能以及超凡的可靠性和可用性,DS5000 系列存储系统可支持要求最严格的服务级别协议 (SLA)。并且如果要求有变化,您可以添加或更换主机接口、增加容量、添加缓存并且可以对其即时重新配置系统,从而确保它可以跟进您不断发展壮大的企业。
借助于此多维可扩展性,DS5000 系列存储系统可以将正常为三年的生命周期延长到四年,通过延迟(甚至消除)将数据迁移到新系统所需的开支,并允许您在更长的时间段内分配采购成本来保护您的存储投资。通过这样延长生命周期,DS5000 系列可在其他系统报废后相当长的时间内继续创造价值。DS5000 系列的驱动器级加密提供了经济的数据安全性并且没有性能影响.此外,DS5000 系列还提供多个复制选项、驱动器级加密和永久缓存备份,可以帮助确保断电时获取缓存中的所有数据并确保其安全.
常见特性
•针对 19英寸机架而设计的高效、紧凑的 4U 封装 •“按需购买”支持在不中断业务的情况下扩展容量
•使用方便、配置简单的管理界面可以管理 DS3000 和 DS4000® 系列 •并行硬件升级和固件载入,支持高可用性设计 •可连接至 IBM SAN 交换机、导向器和路由器
•对包括 Microsoft Windows、UNIX 和 Linux 在内的最常用操作系统的异构支持
硬件概要
•新一代企业级控制器技术
•现场可更换主机接口卡 (HIC)
o 每个控制器两个
o 当前版本支持 4 和 8Gbps FC HIC(总共 16个主机端口)
•16个 4Gb/s FC 驱动器接口可支持多达 448个 FC/SATA 驱动器(在 DS5300 中,
在 DS5100 中为 256个驱动器)
•设计将来可升级到高达 32GB 的专用数据缓存(每个控制器 16GB)
o 选项包括每个控制器 4、8 或将来 16GB 的缓存 o 专用的缓存镜像通道
o 在发生电力中断时永久的缓存备份 o 现场可升级
•支持 RAID 6、RAID 5、RAID 3、RAID 10、RAID 1 和 RAID 0 •两种性能级别(基本型:DS5100 和高性能型:DS5300),
IBM System Storage DS5000 系列软件特性一览表
特性
灵活、可更换的主机接口
优势
•当客户的基础架构变化时可现场更换 •充分利用现有的投资,同时为将来做好计划 •提供独特的投资保护并延长生命周期
•支持要求最严格的服务级别协议 (SLA) 并通过增长保持
行业领先的性能
SLA
•非常适合于整合和虚拟化等拥有并发工作负载的环境
线性可扩展的 IOPS 性能
•通过增长保持 SLA
•每增加一个新驱动器总体 IOPS 性能便会提升
•DS5000 系列在 IOPS 和 MB/s 方面同样表现超凡,并且可以
支持拥有广泛性能要求和最苛刻 SLA 的应用程序
均衡的性能
•非常适合于拥有不同工作负载和应用程序需求的数据仓库、整
合和虚拟化环境
•可以同时支持数据库和 OLTP 等事务应用程序以及 HPC 和
多媒体等吞吐量密集型应用程序
用于 RAID 奇偶校验磁盘计算的自定义 XOR 引擎
支持多个 RAID 级别,包括 RAID 6 冗余的热插拔组件
•可以高效地处理计算密集型的奇偶计算,从而带来卓越的基于
磁盘的性能,是 RAID 5 和 RAID 6 配置的理想之选
•为关键任务数据提供高可用性和安全性 •可以灵活地配置系统,以满足不同的服务等级
•通过支持在不停止 I/O 的情况下更换组件保持数据可用性 •支持最苛刻的容量要求
•可以混用 FC 和 SATA 磁盘驱动器
最多 448个 FC 或
SATA 驱动器
•支持在指定的 FC 驱动器上实现全盘加密,从而在驱动器的整
个生命周期内保护数据安全
•将 FC 磁盘分配给要求高性能并拥有高 I/O 速率的应用程
序,而将相对低廉的 SATA 磁盘用于性能要求较低的应用
程序,从而在单个系统中实现分层存储
•功能丰富的管理软件可以支持最高的利用率和不间断的数据
可用性
•配置灵活性支持自定义的 LUN 调节以确保最高性能或利用
DS Storage Manager 软件
率
•集中管理所有本地和联网的基于 DS Storage Manager 的系统 •通过一个集中的界面实现快速的存储配置和监视
•可在不中断数据访问的情况下配置卷、进行日常维护以及添加
新机柜和容量
•可以联机为新的主机组或现有的卷提供未使用的存储空间,并
动态扩展能力
随需提供额外的容量
•可以消除由于增长、重新配置或调节所引起的应用程序中断
多达 512个分区
•可以提供足够的分区以便有效地支持大规模的整合或虚拟化
环境,从而帮助降低硬件和存储管理成本
•多种选项使管理员能够最佳地满足其复制需求
完全集成的复制功能
•可以使用本地或远程副本进行文件还原、备份、应用程序测试、
数据发掘或灾难恢复
支持异构开放式操作
系统
•支持 Microsoft® Windows®、UNIX® 和 Linux® 系统,使
DS5000 系列存储系统可以在任何和所有的开放系统环境中运行
IBM并行文件系统GPFS简介
IBM GPFS文件系统是一种专门为群集环境设计的高性能、可扩展的并行文件系统。GPFS可以在群集中的多个节点间实现对共享文件系统中文件的快速存取操作,并提供稳定的故障
恢复和容错机制。
- 被业界超大规模高性能计算机系统所广泛使用
GPFS文件系统被广泛应用于世界上超大规模的高性能计算机系统中,包括运行速度最快(478TFlops)的IBM Blue Gene系统。在当前TOP500计算机排名中的232套IBM计算机系统几乎都采用了GPFS并行文件系统方案.在中国规模最大的5个高性能计算机系统中也无一例外地使用GPFS作为并行文件系统,这其中包括运行关键业务的气象部门和超级计算中心。这些项目成功实施和顺利运行充分证明了GPFS完全可以胜任用来构建超大规模的计算机系统。 - 高可扩展性
GPFS具有无可比拟的扩展性,如下表所示: 项目 最大限制 Linux集群中经过验证的值 集群中的节点数 单个文件系统容量 集群中并行文件系统个数 单个文件系统中文件个数 单个文件系统能用到的逻辑卷个数(LUN数) 每个逻辑卷容量 I/O带宽 - 高性能
IBM GPFS并行文件系统软件在设计上不存在任何性能瓶颈,因此GPFS并行文件系统可以充分发挥硬件系统的性能。换句话说,GPFS并行文件系统的性能完全取决于硬件配置的好坏,而文件系统软件本身对性能的影响微乎其微。
IBM GPFS并行文件系统与其它并行文件系统之间最大的区别在于GPFS不需要专用的元数据(Meta Data)管理服务器,所有元数据分散在磁盘阵列中,并可以由任何I/O节点管理。这样的设计避免了并行文件系统中最可能产生性能瓶颈的因素——Meta Data Server。 大规模高性能计算机系统的设计都会采用专用的I/O节点.I/O节点配置光纤通道卡连接外部磁盘阵列,而计算节点及登录节点对磁盘阵列的访问则是利用网络与I/O节点进行数据通讯。在系统规模非常大的时候,用来交换数据的网络通常会成为性能的瓶颈。IBM GPFS文件系统可以充分利用高速网络的特性,提升计算节点与I/O节点间的数据通讯性能,同时最大程度地降低因I/O处理带来的对CPU资源的消耗。
取决于磁盘阵列系统支持的能力 取决于系统硬件配置 2TB 134GB/s 8192 299Byte 256 2,147,483,648 268 million 2441 2PB 32 N/A N/A 在Linux集群系统中,当使用了InfiniBand作为高速网络时,GPFS并行文件系统可以充分利用InfinBand网络的RDMA(Remote Direct Memory Access)特性进行数据通讯.与TCP socket协议不同,RDMA可以实现计算节点与I/O节点间内存的直接通讯,而最小化CPU的参与.这样在提升I/O带宽性能的同时,降低计算节点CPU资源的消耗,从而保证计算节点内的资源可以更专注于数据计算。
IBM GPFS的先进设计保证了GPFS是目前性能最高的并行文件系统,保持着在实际测试中得到的带宽134GB/s世界纪录。 - 高可用性
IBM GPFS文件系统本身提供了丰富的高可用性功能,所有的GPFS相关的管理服务器都能做到冗余配置,并可以由I/O节点中的任意节点担任。具体从GPFS集群(节点)、逻辑卷(磁盘)及文件系统的管理与维护三个层面得以体现.
可以将所有服务器划到一个GPFS集群(GPFS集群是并行文件系统的专用概念,是所有要访问并行文件系统的服务器的集合)中,或分成多个GPFS集群.每个GPFS集群设置主、备2个管理服务器,可以选择I/O节点中的任何服务器承担.GPFS集群管理服务器负责管理和维护集群配置信息,如增加或减少节点、改变集群中服务器的属性等.同时,在一个GPFS集群中还可以指定若干个服务器作为“仲裁委员会”的成员(quorum node),只要该仲裁委员会中一半以上的成员正常运行,就可以保证GPFS正常使用。
在磁盘阵列划分好逻辑卷(LUN)并映射到相应服务器后,GPFS将每个LUN转换成网络共享磁盘(NSD),同时为每个NSD指定多个(最多8个)管理服务器,可以由任何I/O节点承担。这样可以充分保证任何I/O节点宕机都不会导致逻辑卷的不可用。
在文件系统层面,每个GPFS集群中可以创建最多256个文件系统,每个文件系统都对应多个管理服务器(可以由任何I/O节点承担).当任何一个文件系统管理服务器宕机时,都会有另外一个服务器自动接替其工作,保证并行文件系统的高可用性。
另外,GPFS支持分布式的元数据服务器,支持元数据自动日志功能,实现用户数据和元数据的备份和自动恢复,当一台服务器宕机时,其管理功能可以有另外的服务器接管,不存在单点故障。GPFS支持多路径磁盘访问,一条路径访问失败,GPFS可以自动尝试其它路径,并同时支持节点和磁盘两级故障切换,对上层应用透明,确保应用的继续执行。GPFS支持分布式的块级锁管理,通过令牌机制来避免并发读写冲突.GPFS还支持rolling update功能,可以在线升级文件系统. — 丰富的功能
GPFS还具有其它丰富的功能,如信息生命周期管理(ILM)、多集群间交叉mount、集群化NFS(CNFS)、磁盘限额管理、NFS和SAMBA客户端支持等。这些功能保证了GPFS配置和使用的灵活性,可以针对用户业务特点对GPFS进行设计与配置,满足用户业务对并行文件系统的复杂需求。
xCAT集群系统管理软件
IBM提供的集群系统管理软件xCAT,这是一个高级的集群管理软件,允许通过一个单点控制和管理一个Linux集群系统.它在简化集群管理的同时,还使集群能够方便地实现快速扩展,从而提高了系统管理员的工作效率。
通过为集群提供一个单控制点,xCAT可以极大地简化系统总体管理,从而为服务器整合解决方案提供了一种经济高效的方式。 同时,该软件还充分利用了IBM在硬件上的先进技术,如集成的系统管理处理器(Service Processor),使管理软件能够以远程方式管理每一个系统节点,从而方便系统的管理。
同时,提供予警分析报告,帮助用户防患于未然,最大限度地保证系统的生产运行时间。同时,即使在硬件出现故障时,服务器也能提供快捷、方便的诊断工具,帮助快速查处问题所在,及时解决问题。
具体来讲,IBM的集群系统管理软件xcat可以实现如下的功能: 实现系统的并行安装和配置; 管理和同步节点的配置文件;
提供系统远程运行命令操作,允许以命令或脚本方式运行在集群中的所有节点上; 支持用户帐户统一管理;
提供远程硬件控制,如:节点的远程开机、关机和重新启动; 动态监视系统资源使用情况;
通过光通路诊断功能提供方便的软硬件错误诊断及错误自动记录,管理员能根据其提供的信息做出快速反应。提供管理节点和节点组信息,进行组管理。 提供对实时应用的支持
监视系统的硬件状况,如CPU、风扇、电源、内存、硬盘、稳压模块等的运行情况。 详细功能如下:
远程电源控制(节点的远程开机、关机和重新启动) 远程硬件、软件重新设置
远程软件重新设置(Ctrl+Alt+Del) 远程OS/POST/BIOS控制台
远程重要器件控制,如风扇速度/温度等 远程硬件事件日志 远程BIOS启动顺序设置
并行自动网络安装
支持多种的系统映像和节点类型 对集群的全局/组/节点的支持 支持rpm和tar包的安装
支持系统安装后的安装配置脚本 集中的启动控制
管理节点控制所有节点的启动 并行远程Shell (psh)
基于command的rsh和ssh支持 单独事务操作的多节点并行应用支持 命令格式支持节点,组,节点范围,节点排除 并行拷贝 (pcp) 并行rsync (prsync) 并行ping (pping)
远程控制台(rcons) – 串口 控制台日志记录
多个串口控制台的访问支持 ssh 安全协议支持
IBM智能系统管理
IT基础设施正在日益多样化和复杂化,而复杂程度的增加导致IT基础设施的管理(部署、调整、安装和防护)成本居高不下,目前管理IT环境所增加的成本远远大于价格降低和性能提高所节约的成本。IBM的智能系统管理可以帮助客户 减少总体拥有成本(TCO) 更加轻松地管理系统 优化系统资源的使用 提高系统的可用性 加快新产品和解决方案的部署. IBM智能系统管理是通过硬件、固件和一套高级系统管理工具实现的。 实现卓越系统管理的IBM硬件及固件
System x服务器硬件是System x系统管理解决方案中的首要组件,可以提供卓越的管理功能,其中部分原因是它的系统设计和配置方法比较均衡.
•使您的整个System x服务器基础架构保持一致性 .
•具有类似的状态和报警结构,使用户可以节约时间和金钱 。
•使客户能够灵活地采用他们的运行环境所要求的系统管理级别,而不必受到服务器类
型的限制。
•利用IBM 远程管理适配器(RSA II)即可享用全部系统管理功能 IBM对系统管理硬件和固件应用三层策略:核心、增强及高级功能。 第1层, 核心功能,集成系统监视器,包括以下特性: Wake on LAN(LAN唤醒)® 预启动执行环境(PXE) 自动服务器重启(ASR) 告警标准格式(ASF) LAN唤醒启动顺序
支持IBM远程管理适配器选件
第2层, 增强功能,集成系统管理处理器,除第1层的功能外,还包括: 预测性故障分析(PFA) 光通路诊断
温度、电压、风扇及其他环境监控和告警 IBM系统管理互连 远程系统管理功能 错误记录 远程电源控制
冗余风扇、电源及其他组件
第3层,高级功能, IBM远程管理适配器(RSA II), 涵盖了第1和第2层功能,还包括:
能够通过一条以太网连接最多管理24台服务器 基于Web的带外控制
视频、键盘和鼠标的远程重新定向 Microsoft Windows® “蓝屏”捕获 独立的以太网控制器及A/C电源 独立的串行端口 虚拟软驱
虚拟CD—ROM驱动器 SSL安全性支持I
轻量目录访问协议(LDAP)支持 (Q3/03)
IBM 丰富的系统管理工具
系统管理软件与系统硬件及固件协同工作。虽然硬件及固件可以实现管理功能,但决定您如何利用这些功能的却是软件(通过记录、显示告警及其他管理信息并采取适当的应答行动)。IBM系统管理工具使您能够将服务器及网络化客户机系统控制在一个前所未有的水平。 使用IBM系统管理工具,您可以远程部署新系统、升级软件及固件、快速高效地开展许多其它管理工作。许多情况下,这些工作均可预定义,并将其设置成在系统无人值守以及网络使用量较低的非工作时间自动运行。
IBM系统管理包括:
➢IBM Director: IBM Director是功能非常强大且全面的一套工作组系统管理工具,可以为
您提供集中管理,有效管理System x服务器、IBM NetVista台式机、 IntelliStation工作站和ThinkPad笔记本以及基于Intel处理器的非IBM系统。 IBM Director 允许IT管理人员详细查看远端系统的硬件配置并监控处理器、硬盘驱动器、电源、风扇、稳压器(VRM)及内存等关键组件的使用情况及性能,因此,可帮您轻松高效地管理服务器。更重要的是,它可帮您控制大量隐藏的运行成本。
➢IBM Virtualization Manager:允许您从单一控制台管理物理设备和虚拟设备。IBM
Virtualization Manager 支持管理IBM System x与BladeCenter上的 Vmware、Microsoft Virtual Server和Xen环境.此外,IBM Virtualization Manager还可链接到IBM System p Hardware Management Console(HMC)中,实现System p上的虚拟化管理。
➢Remote Deployment Manager:可支持远程、无人参与地安装新系统和现有系统,帮助
自动部署初始操作系统安装、BIOS更新和废弃系统处理等任务。无需亲自访问远程系统即可执行所有这些任务,由此降低差旅成本和人工成本。
➢Capacity Manager:跟踪资源利用率,识别多个级别的现有或潜在瓶颈,并提出性能改
进建议。容量管理器通过预测服务日后会出现的瓶颈并预先向IBM Director发送告警,执行自动纠正措施,将系统停机时间减至最低限度。容量管理器生成XML格式的容量和性能报告.
➢Software Distribution Premium Edition:使您能够轻松创建并向网络中的系统分发软件
包,从而帮助节约差旅成本和人工成本。IBM Director的标配软件分发功能允许您分发IBM提供的软件包。Premium Edition是IBM Director 的一种收费的可选功能部件,允许您构建和分发您自己的用于Windows和Linux环境的软件包。
➢System Availability:跟踪并提供关于单个或一组系统的停机或正常运行时间的图形视
图,可节约远程管理和跟踪服务器性能与可用性的人工成本。此外,它还预定系统可用性报告的时间,并以XML格式生成这些报告。
➢Upward Integration Modules(UIMs):IBM Director 向上集成模块使你可以充分利用现
有的企业管理结构,包括Tivoli®、HP OpenView、Microsoft SMS、CA Unicenter和BMC、NetIQ®。您利用已有的企业管理工具管理异构环境,它不仅保护了您现有管理软件的投资,而且增加了额外的价值——得到更详细的硬件信息,同时,使您可以从熟悉的控制台界面进行管理。
因篇幅问题不能全部显示,请点此查看更多更全内容