随着伺服器的广泛应用,对伺服器的可靠性提出了更高的要求。所谓“可靠性”,就是产品在规定条件下和规定时间内完成规定功能的能力;反之,产品或其一部分不能或将不能完成规定的功能是出故障。概括地说,产品故障少的就是可靠性高,产品的故障总数与寿命单位总数之比叫“故障率”(Failure rate),常用λ表示。例如正在运行中的100只硬碟,一年之内出了2次故障,则每个硬碟的故障率为0.02次/年。当产品的寿命服从指数分布时,其故障率的倒数就叫做平均故障间隔时间(Mean Time Between Failures),简称MTBF。即:
MTBF=1/λ
笔者最近看到一款可用于伺服器的WD Caviar RE2 7200 RPM 硬碟,MTBF 高达 120万小时,保修 5年。120万小时约为137年,并不是说该种硬碟每只均能工作137年不出故障。由MTBF=1/λ可知λ=1/MTBF=1/137年,即该硬碟的平均年故障率约为0.7%,一年内,平均1000只硬碟有7只会出故障。
上图所示为著名的“浴盆”曲线,左边斜线部分为早期故障率,其故障率一般较高且随着时间推移很快下降。曲线中部为使用寿命期,其故障率一般很低且基本固定。最右部为耗损期,失效率急速升高。电子产品制造商一般通过测试、老炼、筛选等手段将早期故障尽量剔除,然后提供给客户使用。当使用寿命期将尽,产品也即将进入故障高发期,需要报废或更新换代了。
温度与器件的寿命
明白了MTBF和“浴盆”曲线的基本概念,我们对评估产品的使用寿命有了一定的掌握。在合适工作条件下器件使用寿命期内的故障率很低。广大电子爱好者都知道电子
元器件的寿命,与工作温度是有密切关系的。以电脑主板上常用的也常出故障的电解电容器为例,其寿命会受到温度的影响。因此,应尽可能使电容器在较低的温度之下工作,如果电容器的实际工作温度超过了其规格范围,不仅其寿命会缩短,而且电容器会受到严重的损毁(例如电解液泄漏)。因此,在分析电脑主板上电容器的工作温度时,不仅要考虑机箱内整体环境温度及电容器自身的发热,还要考虑机箱内其他发热元件的热辐射(特别是CPU、稳压器、电源供应器等)。
根据测试,通常2.0G的CPU消耗功率达56.7W,生成温度达70℃;而当频率提高至3.0G时, CPU温度往往超过90℃。在这样的高温烘烤下,主板上的电容器寿命会发生什么变化?
为简化起见,不考虑纹波、频率、ESR等因素,电容器的估计寿命可用下述公式表示:
其中,L0表示最高工作温度下的寿命,Tmax表示最高工作温度,Ta表示实际环境温度。由此可见,如果环境温度每升高10℃,电容器寿命将下降一倍!
由上图右面的曲线可明显看出,随着电容器工作环境温度的上升,其有效寿命急剧缩短。其中有效寿命(Useful life)是指该种电容器达到给定故障率的时间。
温度与电脑的可靠性
电源供应器对电脑来说,重要性不言而喻。影响电源供应器寿命的因素很多,如负载大小、振动和周边的环境温度等。其中,环境温度很重要,所以选择合适的风扇,排
放出由电源供应器内部的热量非常关键。电源供应器的MTBF,在很大程度上是由其内部的电解电容器MTBF值所决定的。因随着温度的上升,电容器的寿命急剧缩短,所以电源供应器的工作温度如能得到降低,其寿命就会更长一些。
当评价电源供应器所标称寿命时,电源供应器是否运行在额定的满负载状况是另一重要考虑因素。如果电源供应器装有合适的散热器而散热风扇风量足够大,在低于满负载的情况下连续工作,电源供应器就能有更长的寿命。一般电脑电源供应器寿命按照3-5年计算元件的可能失效周期,MTBF在80,000-100,000小时之间。
不同的电源供应器厂家,其产品设计、用料也往往差别很大,工作寿命自然不同。在DIY 1U伺服器时,优质的电源供应器选择不多,新巨Zippy 是一个不错的选择。中国内地一些名牌伺服器例如著名的曙光也采用该品牌电源供应器,在一些DIY市场可购到的P1H-00P 400W电源供应器,随着双核心CPU推出,400W电源供应器可能不够用,推介使用H1H-6507P 、M1G-6500P 500W。
如上图所示,HG2-00P采用了主动PFC,虽然增加了成本,但具有更高的效率,能够在90V-260V的任何电压环境下稳定工作。该电源供应器大量部采用稳定性和寿命是普通电容器的3倍以上的日本电容器。在一些劣质的电源供应器产品中,EMI电路往往是重点的省略对象。从这款HG2-00P的EMI电路上可以看出,用料十分充足,符合电磁兼容标准,稳定的表现当然是情理之中。
除电源供应器外,硬碟的温度也不可小视。现在的硬碟动不动就
7200rpm-15000rpm,想想看硬碟内的马达每天转24小时,平均工作温度在四、五十度的高热是免不了。笔者曾测量过一台散热不够好的伺服器硬碟,温度超过40℃。对硬碟来说,如果机壳内部的温度降低了,这将意味着减少主轴马达液态轴承的轴承润滑剂以及磁碟润滑剂的蒸发,这将大大降低其损坏的机率。据Seagate公司公开的某型号硬
碟数据,在34℃时的MTBF为150,000小时,但在25℃时,会达到230,000小时。
风扇与散热效果
为降低硬碟温度,可增加散热风扇。市面上是有卖硬碟专用的散热模组,有的则是一颗风扇再加上一块硬碟大小的铝制散热片,其实没有必要这么复杂。
笔者采用北京生产千际牌“暴风雪”十风机1U机箱1U进行过散热改造,使用Sanyo1.5万转4cm电流0.55A风量20.83CFM及新推出9CRA0412J502 1.58万转4x5.6CM风量31.8CFM放在硬碟前、硬碟后增加散热,测量其温度约只有28℃,已经很接近室温了。
笔者也将广州五舟SF5100双至强的准机箱将原装台达牌2700转小风鼓作CPU散热更换成山洋(Sanyo)9BAM12GA2 5800转的小风鼓后,CPU在占有率100%的情况下,温度由66℃下降到55℃!该风扇的使用寿命很高,在60℃环境下工作40,000小时,残存率仍有90%。要知道Intel 原装CPU风扇,都大部份采用Sanyo的产品。
如采用小型风鼓(BLOWER),风量增加,散热效果更好。但是,增加风扇或风鼓一定要考虑振动的问题。要知道风扇较高的转速才能达到一定的风量,但如采用较劣质的风扇,转速虽高,但寿命短且振动厉害,对硬碟寿命会带来不利影响,安装硬碟时加吸震软垫、机箱机壳底部的吸震片都有一定效用。
优质的电源供应器当然要搭配高品质的风扇,如HG2-00P选用的是NMB轴承风扇,比传统油封轴承风扇寿命高出2倍。这款电源供应器还加入了风扇转速控制线路,可以根据电源内部的温度调节风扇转速,在延长使用寿命的同时,也更好的控制了风扇噪音和震动。
灰尘对伺服器的影响
如何保养和维护好伺服器,最大限度的延长其使用寿命,是大家都非常关心的话题。灰尘对伺服器构成的威胁不容忽视。按笔者的电子产品维修经验,在灰尘比较大的环境中工作,由于PCB吸附灰尘,而灰尘的沉积会影响电子元器件的热量散发,这将导致元件温度上升,进而出现热稳定性下降甚至产生漏电,严重时导致烧毁。另外,灰尘也会吸收水分,腐蚀电子线路,造成一些莫名其妙的短路问题。所以灰尘体积虽小,但对伺服器的危害不可低估。
尽管伺服器机房有相对较好的环境,但灰尘仍会不断累积。所以,有必要定期进行清理,可使用上图美国生产CRC牌防尘喷剂、也可用有防静电(ESD)功能的小毛刷小心进行清扫,或使用吹风球清洁灰尘,减少出故障的机率。在清理机箱内部的灰尘时,切记断开电源,小心操作,特别是面板进风口和电源(排风口)的附近,以及板卡的插接部位灰尘最多。清理电源里的灰尘最好将电源供应器拆下,用防尘喷剂、吹气球仔细清扫干净后再装回。
环境加速试验的条件 1 摘 要
当前,人们已经用寿命过程的物理模拟技术为产品的环境加速试验条件建立了战略与战术基础。这些条
件使产品能快速获得精确的信息来实行可靠性评价与预计、技术开发以及费用划算和富于竞争的销售。 2 引 言
环境应力试验可用作种类的应力试验,也可用作可靠性试验的组成部分。在第二种情况下,它还可以与加速可靠性试验的其它部分(机械、电气等)一起使用。
不过,环境加速试验没有用得太频繁。因为试验室条件所获得的结果通常与现场试验结果不对应。用包括环境试验在内的普通加速试验方法获得的信息通常不能很精确地用于可靠性评价与预计,以及用于减少产品的研制时间和费用、解决其它可靠性问题。
在试验室中,环境试验通常只得到一小部分好处,而并不是环境加速试验所能获得的最大好处。 试验箱中的模拟是现场环境对自然产品影响的物理模拟。
环境的物理模拟可在各种标准试验箱中再生:1)冷;2)热;3)冷和热;4)气候箱(冷、热和潮湿);5)热冲击;6)冷、热与振动;7)盐雾;8)压力(压缩箱);9)冷、热与压力;10)太阳辐射与腐蚀(热与有害气体)等等。
如果需要,人们可以使用非标准试验箱。 3 环境加速试验评价条件的策略
本文所述的环境加速试验方法是以试验室的模拟原理为依据的:温度(包括温度变化)、湿度、污染、辐射、空气、水或气压、输入电压、雨水、雪和风等等。模拟影响的种类要看试样受到的现场影响的种类而定。上述环境条件对产品影响的结果包括:金属腐蚀、聚合物、橡胶和木材遭受破坏,润滑油和油漆的防护效果减弱等等。这些结果会导致产品质量(强度、耐磨性、易修性、失效、可靠性等)下降。 为模拟而获得现场环境对产品影响和精确信息的原理如下: 1)在实际使用中,产品受到完整组合的环境因素的影响。 2)这些环境因素是互相联系的。
3)产品所受到的作用是环境因素相互作用的结果。
4)产品所受作用的结果(失效数,可靠性)是对环境因素组合的累积反应。
现场工作条件下环境条件的作用可用试验箱——环境加速试验设备来作物理模拟。 不过,人们千万不要忘记上述原理,以便模拟之后为可靠性问题的解决而获得精确的信息。
这种作用可用所需量度的标准来确定。例如: C/L,D/L,G/L,P/L 其中, C为腐蚀量度
D为聚合物、橡胶、木材等的毁坏量度 G为润滑油和油漆的老化量度 P为强度下降量度
L为等效于受工作条件影响的年数的数值。
在试验箱中,环境因素的强度可以加大,试验室的环境数据与现场环境数据之比可加以测定。 各种试验箱可进行调整,以便与国际标准或国家标准相对应。
为了精确地评价加速试验的环境条件,试验箱中的模拟条件应等效于自然条件。但实际上这两种条件是有差别的。如果产品在工作条件下所受影响与试验室中所受影响相差不超过一个固定极限,那么,试验箱中受影响的结果就与现场的结果相对应。现场中的失效数与试验获得的相差不超过一个预测值。 本策略最重要的方面是求出环境加速试验的最佳条件。
首先,必须考虑两个基本问题。第一,试验箱不能模拟与现场相同的过程,它们只能模拟这些过程的基本特性: AB 其中,
“A”为现场中特性影响的组合(湿度,温度,污染等等);
“B”为试验箱中特性影响的组合。
第二个问题是试验箱模拟现场环境影响所允许的误差值。 试验箱中状态与现场的适配性可用下列方法来确定: 根据假定的偏差,得出: (C/L)n-(C/L)s]≤Δ1; [(P/L)n-(P/L)s]≤Δ2; [(G/L)n-(G/L)s]≤Δ3; [(D/L)n-(D/L)s]≤Δ4; 其中,
Δ1、Δ2、Δ3和Δ4为金属、油漆、聚合物和润滑油老化假定的偏差; “n”和“s”为自然环境的等级与试验箱模拟等级。
如果我们从环境加速试验中获得的结果表明Δ1、Δ2、Δ3和Δ4不大于允许误差,我们就能评价它们对产品的影响。如果不是这样,我们就必须改进试验状态。 环境条件的物理模拟的基本步骤如下: 1)分析产品在实际使用中受到的输入环境影响; 2)分析哪一种影响是重要的; 3)拟定和使用模拟所需的试验室条件。
环境加速试验条件的选择可通过试样在现场中的工作和贮存情况的分析来进行评价。因此,评价现场影响的统计特性的效应至关重要,人们需要这种效应来建立试验箱模拟条件的物理模型。 例如,笔者所获得的试验结果显示,如果试验箱中状态(环境条件)参数如下: 温度=30℃ 湿度=90%
每隔55分钟喷洒含0.01NKCL的水溶液5分钟,在此试验箱中的金属腐蚀可用下式计算: C=0.6·Nw0.97 其中 C=金属腐蚀量(g/cm2); Nw=润湿数(Nw=100-500) 0.97=试验系数
4 太阳辐射对聚合物和橡胶的影响机理以及这些影响的模拟 下列各种环境影响的研究较少,因此,我们集中讨论这些因素。 4.1 辐射对聚合物质量受损的影响
辐射是现场中聚合物受损的其中一个基本环境因素。 地面上太阳辐射的日光包括:
——波长达290~400nm的紫外线(UV)部分(占共辐射能的5.5%); ——波长达400~750nm的可视辐射部分(占共辐射能的40%); ——波长超过750nm的红外(IR)部分(占共辐射能的.5%)。
由于有氧气的情况下吸收太阳辐射导致的光氧化过程,聚合物的性质受到破坏。
在若干气候区内,生物因素也会对聚合物产生负面影响。这些因素包括霉菌、昆虫和啮齿动物。这些因素在热带地区所起的作用特别明显,霉菌可分泌出分解聚合物的产物,某些种类的昆虫还会吃聚合物材料。
太阳辐射导致聚合物受损的基本原因是UV辐射的作用。UV辐射导致颜料的薄膜生成、光氧化和化学变化,结果造成光泽损耗和变色。
大气条件下的太阳辐射可导致温度升高,温度升高又会使聚合物的物理与化学特性发生变化。这些变化过程是在70℃以上温度下发生的,但温度和辐射的同步作用可加速这些变化过程。湿度(空气、雨、雪、雾等)也会对聚合物的物理和化学特性产生负面影响。因湿度造成的聚合物的化学变化取决于水解和光致水解过
程。通过提高湿度、温度以及酸碱污染程度就可加速水解过程。 降低聚合物耐光性的基本环境因素是太阳辐射、温度和湿度。 4.2 使聚合物和橡胶毁坏的化学因素
太阳辐射能足以分解某些种类的化学粘合剂。此外,光与氧气可使有机物质产生自由基或过氧化物,这样就有可能使有机物质发生化学变化。例如,聚合物可在3个月后开始变坏,一年之后其强度可下降50%。
PVC经过3个月的太阳辐射之后也开始变坏,使之变坏最有效的是波长达220~250nm的辐射,在有污染的情况下,破坏作用随波长的增加而加大。
在大气氧气、臭氧、热和太阳辐射的作用下,橡胶也会受到破坏。在大气条件下,橡胶会失去延展性,太阳辐射可把这个过程加速5倍或更多倍。
波长接近300nm的日光可加速橡胶的氧化,并破坏其磁化特性。 因此,太阳辐射对聚合物的作用可导致强度和粘性的永久损耗。 4.3 太阳模拟的光源
电灯可提供大部分日光源,现有耐久白色灯泡和气体放电灯泡供试验使用。后一种对于加速试验箱来说是较为理想的。与耐久白色灯泡相比,它们的光效率高5~10倍,耐久性高10~20倍。辐射光谱也较为理想。
对于各种气候放电灯泡的加速环境试验来说,最好是用氙灯,它们有下列优点: ——功率范围较大;
——辐射光谱包括UV、IR和可视区(在可视区中,光谱离太阳光相差不远); ——网络的功率系数1;
——能在较大环境温度范围内工作而不改变特性; ——在生态学上得到认可;
——可通过冷却或真空来保持稳定性; ——可容许短暂的超载;
——可通过保持专用辐射分布的稳定性来调整功率; ——可防止爆炸。
必须规定有UV光束的高频试验。为了实现这个目标,试验装置中应装有低功率UV灯。 5 环境加速试验的设备与方法
许多不同种类的试验箱现已广泛用于环境加速试验中。 例如,汽车工业就有:
——热带条件模拟试验箱。这种设备可提供温度和湿度调整的可能性,调整范围为20℃/30%~55℃/97%。这种设备通常有一条气动管来产生速度相当于车速(1/100哩/小时)的风,并采用了太阳辐射与热大气辐射(0~1100KKal/m2hr,地面级)模拟器以及保护装置(0~80℃)。
——低温试验设备。这种设备通常可模拟+10~-40℃的温度和高达95%的空气湿度。这种试验用来检验发动机在低温条件下的初始质量,还用来分析汽车在低温条件下的工作特性、供油系统以及润滑和保护状态。
——全天候试验箱。这种试验箱有温度(-40~+55℃)和湿度(30%~99%)调整系统。这种试验箱通常有这些条件下的热辐射装置:大气(0~1200KKal/m2h,地面级)、道路表面(0~80℃)、雪(15kg/m2hr)、雨(200mm/hr)、污染、UV辐射等,并还有气动管和功率吸收装置。这种多功能设备有助于测定不同气候条件下汽车的工作特性。
——可模拟环境和振动条件的试验箱。汽车电子设备有下列各种试验: 1)高温贮存试验; 2)高温寿命试验;
3)靠温度和振动条件实施的长期动态试验;
4)热冲击试验等等。
汽车工业所用的试验设备的容积为0.5~500m3。 6 环境条件模拟技术开发的趋势
为了获得准确的试验数据,许多公司都采用标准试验方法和试验设备。
目前,研究人员和设计师正在继续开发现场环境条件的模拟技术,特别是物理模拟技术,以获得更精确的信息来解决产品的各种可靠性与维修性问题。
产品在现场使用中,会受到经复杂组合的环境条件的影响。这些影响互相联系,它们在产品上所起的作用是各种影响相互作用的结果。
为了在试验室中模拟产品所经受的实际环境条件,人们不可能非常精确地获得加速试验结果。因此,这样获得的信息对于实际失效数的评价与预计来说并不充足。这样,要想对产品实行很精确的可靠性评价和预计是不容易的。
在这种情况下,环境条件的物理模拟技术的开发就尤其重要。为此,Lev M.Klyatis研制出若干台“三文治”型气候试验箱,这些试验箱可模拟4个基本环境参数:温度、湿度、污染(包括盐雾)和太阳辐射。它们可用于单独样品、零件、组件和整机的加速环境试验。
这些试验箱有专门的系统来模拟、调整和控制环境参数即温度、湿度、污染与太阳辐射。它们还有通风与冷却系统,废水与腐蚀性蒸气排放系统,喷洒系统以及电源与报警系统。 这些试验箱的部分技术数据如下: 温度范围:5~60±1℃ 湿度范围:40~97±3%. 温度变化速率:0.7℃/min
太阳辐射范围:光谱范围28~400nm(42W/m2) 污染:以盐水和氨溶液等喷洒。
今天,我们所作的加速环境试验的加速系统相当于实际寿命试验的15~25倍。 参数--可靠性基础
固有可用度(Ai) Inherent availability 仅与工作时间和修复性维修时间有关的一种可用性参数。其一种度量方法为∶产品的平均故障间隔时间与平均故障间隔时间、平均修复时间的和之比。
可达可用度(Aa) achieved availability 仅与工作时间、修复性维修和预防性维修时间有关的一种可用性参数。•其一种度量方法为∶产品的工作时间与工作时间、修复性维修时间、预防性维修时间的和之比。
使用可用度(Ao) operational availability 与能工作时间和不能工作时间有关的一种可用性参数。其一种度量方法为∶产品的能工和时间与能工作时间、不能工作时间的和之比。
平均不能工作事件间隔时间 mean-time-between-downing-events(MTBDE) 与可用性和战备完好性有关的一种可靠性参数。其度量方法为∶在规定的条件下和规定的时间内,产品寿命单位总数与不能执行其任务的事件总数之比。
平均系统恢复时间 mean-time-to-restore-system(MTTRS) 与可用性和战备完好性有关的一种维修性参数。其度量方法为∶在规定的条件下和规定的时间内,由不能工作事件引起的系统修复性维修总时间(•不包括离开系统的维修和卸下部件的修理时间)与不能工作事件总数之比。
致命性故障间的任务时间 •mission-•time-•between-•critical-•failure(MTBCF) 与任务有关的一种可靠性参数.其度量方法为∶在规定的一系列任务剖面中,产品任务总时间与致命性故障总数之比。 恢复功能用的任务时间 mission-time-to-restore-function(MTTRF) 与任务有关的一种维修性参数.其度量方法为∶在一个规定的任务剖面中,产品致命性故障的总维修时间与致命性故障总数之比。 平均故障前时间 mean-time-to-failure(MTTF) 不修复产品可靠性的一种基本参数。其度量方法为∶在规定的条件下和规定的时间内,产品寿命单位总数与故障产品总数之比。
平均故障间隔时间 mean-time-between-failure(MTBF) 不修复产品可靠性的一种基本参数。其度量方法为∶在规定的条件下和规定的时间内,产品的寿命单位总数与故障总次数之比。
故障率(λ) failure rate 产品可靠性的一种基本参数。•其度量方法为∶在规定的条件下和规定的时间内,产品的故障总数与寿命单位总数之比。
平均维修间隔时间 mean-time-between-maintenance(MTBM) 与维修方针有关的一种可靠性参数。其度量方法为∶在规定的条件下和规定的时间内,产品寿命单位总数与该产品计划维修和非计划维修事件总数之比。
平均维修活动间隔时间 mean-time-between-maintenance-actions(MTBMA) 与维修人力有关的一种可靠性参数。其度量方法为∶在规定的条件下和规定的时间内,产品寿命单位总数与该产品计划维修和非计划维事件总数之比。
平均维修时间 mean-maintenance-time 与维修方针有关的一种维修性参数。其度量方法为∶在规定的条件下和规定的时间内,产品预防性维修和修复性维修总时间与该产品计划维修和非计划维修事件总数之比。
平均修复时间 mena-time-to-repair(MTTR) 产品维修性的一种基本参数。其度量方法为∶在规定的条件下和规定的时间内,产品在任一规定的维修级别上,修复性维修总时间与在该级别上被修复产品的故障总数之比。
修复率(μ) repair rate 产品维修性的一种基本参数。其度量方法为∶在规定的条件下和规定的时间内,产品在任一规定的维修级别上被修复的故障总数与在此级别上修复性维修总时间之比。
平均维护时间 mean-time-to-service(MTTS) 与维护有关的一种维修性参数。其度量方法为∶产品总维护时间与维护次数之比。
维修工时率 maintenance ratio 与维修人力有关的一种维修性参数。其度量方法为∶在规定的条件下和规定的时间内,产品直接维修工时总数与该产品寿命单位总数之比。
维修事件的平均直接维修工时 direct •maintenance •mean •hours per maintenance event (DMMH/ME) 与维修人力有关的一种维修性参数。其度量方法为∶在规定的条件下和规定的时间内,产品的直接维修工时总数与该产品预防性维修和修复性维修事件总数之比。
维修活动的平均直接维修工时 direct •maintenance •mean •houre per maintenance action(DMMH/MA) 与维修人力有关的一种维修性参数。其度量方法为∶在规定的条件下和规定的时间内,产品的直接维修工时总数与该产品的预防性维修和修复性维修活动总数之比。
平均拆卸间隔时间 mean-time-between-removals(MTBR) 与保障资源有关的一种可靠性参数。其度量方法为∶在规定的条件下和规定的时间内,产品寿命单位总数与从该产品上拆下其组成部分的总次数之比。其中不包括为便于其它维修活动或改进产品而进行的拆卸。
平均需求间隔时间 mean-time-between-demands(MTBD) 与保障资源有关的一种可靠性参数。其度量方法为∶在规定的条件下和规定的时间内,产品寿命单位总数与对产品组成部分需求总次数之比。需求的产品组成部分,如车间可换件、武器可换件、现场可换件等。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- huatuo3.cn 版权所有 湘ICP备2023017654号-3
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务