可靠性、可用性和可维护性

编辑
本词条由“匿名用户” 建档。

可靠性、可用性和可维护性(RAS),也被称为可靠性、可用性和可维护性(RAM),是一个计算机硬件工程术语,涉及可靠性工程、高可用性和可维修性设计。这个短语最初是由国际商业机器公司(IBM)作为一个术语来描述其大型计算机的稳健性。 设计有更高水平的RAS的计算机有许多功能,可以保护数据的完整性,并帮助它们在没有故障的情况下保持长时间的可用性。这种数据完整性和正常运行时间是大型机和容错系统的一个特殊卖...

可靠性、可用性和可维护性

编辑

可靠性、可用性和可维护性(RAS),也被称为可靠性、可用性和可维护性(RAM),是一个计算机硬件工程术语,涉及可靠性工程、高可用性和可维修性设计。这个短语最初是由国际商业机器公司(IBM)作为一个术语来描述其大型计算机的稳健性。

设计有更高水平的RAS的计算机有许多功能,可以保护数据的完整性,并帮助它们在没有故障的情况下保持长时间的可用性。这种数据完整性和正常运行时间是大型机和容错系统的一个特殊卖点。

定义

编辑

虽然RAS起源于一个面向硬件的术语,但系统思维已经将可靠性-可用性-服务性的概念扩展到一般的系统,包括软件

可靠性可以被定义为一个系统在某个给定的时间t内产生正确输出的概率。可靠性通过帮助避免、检测和修复硬件故障的功能来加强。一个可靠的系统不会默默地继续并提供包括未修正的损坏数据的结果。相反,它检测并在可能的情况下纠正损坏,例如:对于瞬时(软)或间歇性的错误,通过重试操作,否则,对于不可纠正的错误,隔离故障并报告给更高级别的恢复机制(可能故障转移冗余的替代硬件等),或者通过停止受影响的程序或整个系统并报告损坏。可靠性可以用平均故障间隔时间(MTBF)来描述,可靠性=exp(-t/MTBF)。 可用性是指系统在给定时间内运行的概率,即一个设备实际运行的时间占其应该运行的总时间的百分比。高可用性的系统可以用每年停机时间的分钟或小时来报告可用性。可用性特征允许系统即使在故障发生时也能保持运行。一个高可用性的系统将禁用故障部分,并继续以降低的能力运行。相比之下,一个能力较差的系统可能会崩溃,变得完全无法运行。可用性通常是指系统预期可用时间的百分比,例如,99.999%(5个9)。 可维修性或可维护性是指系统可以被修复或维护的简单性和速度;如果修复一个故障系统的时间增加,那么可用性就会下降。可维修性包括在问题出现时轻松诊断系统的各种方法。对故障的早期检测可以减少或避免系统停机。例如,一些企业系统可以在系统出现系统故障时自动呼叫服务中心(无需人工干预)。传统的重点是在尽可能不影响正常运行的情况下进行正确的维修。 注意可靠性和可用性之间的区别:可靠性衡量的是系统正确运行的能力,包括避免数据损坏,而可用性衡量的是系统可以使用的频率,即使它可能没有正确运行。例如,一台服务器可能永远运行,因此有理想的可用性,但可能不可靠,经常出现数据损坏。

故障类型

编辑

物理故障可以是暂时的或xxx的。

xxx性故障导致持续的错误,通常是由于一些物理故障,如金属电迁移或电介质击穿。 暂时性故障包括瞬态和间歇性故障。 瞬态(又称软)故障导致独立的一次性错误,不是由于xxx性硬件故障:例子包括α粒子翻转内存位、电磁噪声或电源波动。
间歇性故障的发生是由于薄弱的系统组件,例如,电路参数退化,导致可能复发的错误。 故障响应 暂时性和间歇性故障通常可以通过检测和纠正来处理,例如。ECC代码或指令重放(见下文)。xxx性故障将导致无法纠正的错误,可以通过重复的硬件替换来处理,例如,处理器疏散,或将无法纠正的错误传递给高层恢复机制。成功纠正的间歇性故障也可以报告给操作系统(OS),为预测性故障分析提供信息。

可靠性、可用性和可维护性

硬件特征

编辑

改善RAS的硬件特征示例包括以下内容,按子系统列出。

处理器:带有指令重试的处理器指令错误检测(如结果的残留检查),如IBM主机中的替代处理器恢复,或Itanium系统中的指令重放技术。 锁定运行的处理器,以执行主检查器或投票方案。

内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/193162/

(1)
词条目录
  1. 可靠性、可用性和可维护性
  2. 定义
  3. 故障类型
  4. 硬件特征

轻触这里

关闭目录

目录