打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
【质量与可靠性学堂】可靠性与可用性,千万别再傻傻的分不清!


可靠性的概念大家比较熟悉,先了解一下什么是可用性?

【可用性】

产品在任一时刻需要和开始执行任务时,处于可工作或可使用状态的程度。可用性的概率度量成可用度。

【固有可用度】

仅与工作时间和修复性维修时间有关的一种可用性参数。其一种度量方法为:产品的平均故障间隔时间与平均故障间隔时间和平均修复时间的和之比。

【可达可用度】

仅与工作时间、修复性维修和预防性维修时间有关的一种可用性参数。其一种度量方法为:产品的工作时间与工作时间、修复性维修时间、预防性维修时间的和之比。

 

下面谈谈数据中心关于可靠性与可用性的理解

(1)绝大部分产品对象对业务连续性提出了非常高的要求;

(2)任何设备和系统都是要发生故障的,这是不争的事实;

(3)连续性要求意味着,希望把故障影响的时间缩到最短,也就是说系统要有可修复能力,修复时间越短越好;

(4)于是就出现了衡量修复能力和修复时间的指标:平均修复时间MTTR(Mean Time Repair)

(5) 可靠性指标之一是平均无故障时间MTBF(Mean Time Between Failures)

(6)有了MTBF和MTTR,就可以表达系统可用性(可用度)A(t)

(7)可用性A(t)的定义:电子系统在使用过程中,可以正常使用的时间与总时间之比。


越来越多的厂商和用户已经形成这样一个共识: 真正能为用户带来价值的是其可用性,在概念上它包含了系统中设备的可靠性、可管理性和可维护性。可用性高意味着给用户更多的正常使用时间。可用性成为数据中心规划设计的第一功能指标,对可用性的研究促进了数据中心技术的全面发展,成为数据中心规划设计、建造、设备研发制造的最重要的思维方法和企业哲学。

 

然,我们还经常遇到持久性说法,持久性和可用性的含义,可以用下面这个图来理解。

 

这个图只是简要的说明含义,实际系统中还有集群、容灾等等各种环节,为了不分散焦点,无关本质的部分都略去不提。

简单的说,数据可访问就叫available——可用(这个翻译很靠谱)。而数据暂时不可访问,但是过段时间费些力气能找回来,这样的状态已经不能叫available,但仍然属于durable——持久(这个翻译实在让人抓狂,可是既然从早年数据库领域就一直这么翻译,现在已经成了固定用法,手动无奈)。只有数据彻底丢失,永远找不回来的状态,才超出durable的范围。

可见,持久性比可用性更基础,前者是后者的必要非充分条件。从数值描述上,持久性≥可用性。


     一般谈论持久性和可用性,都需要或隐或显的在百分数前面加个“年度”的限定。比如99%可用性,是指每年宕机时间不超过3.65天,即87.6小时。而99.9%可用性,就意味着每年宕机时间不超过8.76小时。人们常提的5个9高可用,即99.999%可用性,折算下来每年宕机时间才仅有5.256分钟。

 

     那么一个霸气侧漏的每年5个9高可用系统,在100年时间里可用性是多少呢?理论上似乎是仍然足够威风的99.9%可用性(精确计算结果应该是略小于99.90005%一丢丢),可是这显然不太合常理。再强壮的硅基物种,在机房里负重蹲上100年,肯定早就彻底散架了。

 

     所以持久性和可用性的另外一个隐含限定——正常寿命之内。可惜对硅基物种正常寿命的界定,也是真假信息混杂。

 

可靠性与可用性之间的关系

(1)可靠性表达式之一:

故障率λ(t): 将单位时间内损坏的元件数据与在该时间断间内工作元件总数之比作为表示在该时间段内元件可靠性程度的数据。也可以说成是在单位时间内的故障数相对于依然正常工作的元件数的比值,在值称为“故障强度”或失效率。


(2)可靠性表达式之二:

可靠度R(t):设备或系统在一段时间内不发生故障的概率 

(当λ(t)是一个常数时)


(3)可靠性表达式三:

平均无故障间隔时间MTBF:

(假定t<>


(4)可用性表达式:

可靠性与可用性之间的关系


(5)从“不停电”观念的变化看可靠性与可用性的区别:


(6)R(t)、A(t)、MTBF、MTTR都是概率指标

MTBF与产品生命周期无关


举例:

以50万个25岁的人作为抽样;

在一年的时间内,收集这些人口的“故障”(死亡)数据;

这些人口的生活时间是500000×1年=50万人年;

在这一年当中,有625个人“出现故障”(去世);

故障率为625个故障/50万人年=0.125%/年;

MTBF是故障率的倒数,即1/0.00125=800年;

设备的MTBF是以产品稳定运行阶段(举例中的25岁)的失效率计算的,所以与产品生命周期无关。

 

如果产品MTBF=10万小时;

失效率λ=0.00001;

还可以计算出月失效率、日失效率、小时失效率;

如果在产品生命周期内,λ为常数;

则在任意一个时间段内,产品都有失效(故障)的可能性;

产品安装后,随时都可能发生故障吗,但不等于没达到MTBF=10万小时指标。

 

可靠性与可用性的几个概念

(1)可靠性和可用性定义的范围属性:

① 元件可靠性;

② 部件可靠性;

③ 设备可靠性;
④ 系统可靠性(UPS系统、1+1 UPS系统、2N UPS系统、整个供电系统);

⑤ 在冗余容错系统中,设备故障不等于系统故障,设备故障率,不等于系统可靠性。

(2)可靠性和可用性定义的时间属性;

① 月可靠性;

② 年可靠性;

③ 整个生命周期内的可靠性

(3)产品功能、应用范围的界定

被比较的产品必须在功能、性能及应用方面相同或相似。如果是UPS、功能是为所连接的IT负载提供备用电源。如果没有相似的应用,就不可能进行公正的MTBF比较,例如对工业用途和IT用途的UPS进行比较是不切合实际的。

MTBF比较中所用系统的边界必须等同。以使用外部电池的UPS系统为例,某些供应商可能选择不包括由这些电池导致的故障,其他供应商可能选择包括电池故障。可能导致不一致边界的组件还包括输入和输断路器。旁路系统。保险丝和控制系统。

(4)故障定义:

① 是否将用户操作失误(人为因素)导致的故障计在内?

② 是否将由供应商维修人员导致的负载停用也统计在内?产品设计本身是否有提高风险程序出现故障的可能性?

③ 如果设备上的LED(发光二极管)出现故障,是否属于故障(虽然它没有影响设备的运行)?

④ 如果耗材(例如电池)的使用期比预期的时间要短,是否属于故障?

⑤ 运输造成的损坏是否属于故障,这可能表明包装的设计不当?

⑥ 安装过程导致的故障是否统计在内,此故障可能是供应商技术人员引起的?

⑦ 如果用户没有购买推荐的维护合同或监视系统,是否将故障统计在内?

⑧ 系统运营达不到标准水平;

⑨ 用户对设备的性能不可接受;

⑩ 发电机启动时有启动成功率问题;

交流输入完全断开时,电池供电有成功率问题。

 

根据网络资料重新编辑整理,部分内容来源《数据中心基础设施规划设计中的若干问题》,仅供学习交流,侵删。 

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
【解读】关于数据中心可靠性和可用性的几个概念
微课016期 云机房供配电系统UPS发展趋势
ram存储器基本概念
MTTR、MTBF、MTTF、可用性、可靠性傻傻分不清楚?
【白皮书】数据中心·电源系统可靠性分析(一)
带你深入了解 MTBF、可靠性和预期寿命
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服