可用性

并非所有的可用性都是一样的

什么是可用性?

可用性是衡量系统持续运行水平的一种方式。可用性指系统的实际运行(或运行服务)时间,除以系统本应运行的时间。

典型的可用性衡量标准是什么?

人们通常用几个"9"来划分可用性等级,并进一步描述为“高可用"或“容错。”如果一个系统在99%的时间内都是可用的(2个9水平),那就意味着它在1%的时间内是不可用的。如果一年有525,600分钟可用时间,那么您可以预测到"2个9水平"的系统会有5,256分钟或88小时,或4天处于停机状态。根据您具体的 停机时间,代价可能是非常昂贵的。

可用性 几个 9 每年的停机时间 通常被描述为
99.9% 3个9 不超过526分钟 可用
99.99% 4个9 不超过53分钟 高可用
99.999% 5个9 不超过5分钟 容错

如果系统的平均可用性水平为"4个9"或"5个9",则通常被称为"高可用"或"容错"系统。

通常有哪些方法可以提高可用性?

企业可采用多种已得到验证的方法来提高可用性,包括提高系统的可靠性和恢复力,实施备份和恢复程序,或部署提供故障转移服务的(物理或虚拟)冗余集群。

坚固耐用、无风扇设计、IP40防护等级

采用可靠的系统,恢复能力强

采用更可靠的系统是提高可用性一个办法。系统越稳固可靠,发生故障的可能性就越小。故障越少,系统运行的时间就越长,顾名思义,系统可用时间也就越长。

实施弹性更强的系统是提高可用性的另一个相关方法--能够使系统从故障中快速恢复。通过减少修复系统和恢复服务所需的时间,您可以降低停机时间,提高整体可用性。有趣的是,如果一个系统每次都能快速反弹,那么它发生故障的频率就不那么重要了。

实施备份与恢复

不过,可靠性和弹性也有其局限性。在很多情况下,除了系统的可用性,您还需要考虑数据安全性和数据完整性。

企业若采取更全面的可用性方法,通常会定期备份数据,并在清单中保留备用系统。如果生产系统发生灾难性故障,他们能够在备用系统上重启服务,从存档文件中恢复所需数据。

设置备份和恢复服务对技能有一定的要求。而恢复时间也会有所不同,从几个小时到几天不等,这取决于应用、数据量和备件可用性的情况。

采用本地和虚拟集群及故障转移服务

对于一些企业来说,几小时或几天后恢复服务可能是可以接受的。但是,对于停机成本较高的公司来说,他们则需要为应用和数据找到一种更有弹性的方法。

集群和故障转移与备份和恢复方式的原来相同,但会提前做一些工作来缩短恢复服务的时间,比如通过复制系统,瞬间就能恢复系统。这些冗余系统能够将多个系统组合在一起,共享数据。通常情况下,一个系统作为主系统,供用户进行对应用程序和数据的访问,而一个辅助系统作为备份,在不需要时处于休眠(被动)状态或用于运行其他应用程序(主动)。如果主系统发生故障,只要建立了共享数据连接,应用程序便可"转移"到辅助系统,并在那里恢复运行。

随着虚拟化技术的出现,集群和故障转移的概念已经延伸到虚拟系统。如今,通过应用虚拟化和集群技术,能够将物理系统和在虚拟机(VM)上运行的故障转移应用结合起来,充分利用虚拟机的可移植性。

Stratus 提供哪些服务?

Stratus提供广泛的边缘解决方案,能够覆盖整个可用性范围。从 everRun 等纯软件产品,到 ztC Edge ftServer 这种包含硬件、软件和服务的完整解决方案,Stratus 能够帮助客户轻松、经济高效地交付高可用和容错的工作负载。