什么是可用性?
可用性是衡量系统持续运行水平的一种方式。可用性指系统的实际运行(或运行服务)时间,除以系统本应运行的时间。
可用性 | 几个 9 | 每年的停机时间 | 通常被描述为 |
---|---|---|---|
99.9% | 3个9 | 不超过526分钟 | 可用 |
99.99% | 4个9 | 不超过53分钟 | 高可用 |
99.999% | 5个9 | 不超过5分钟 | 容错 |
如果系统的平均可用性水平为"4个9"或"5个9",则通常被称为"高可用"或"容错"系统。
通常有哪些方法可以提高可用性?
企业可采用多种已得到验证的方法来提高可用性,包括提高系统的可靠性和恢复力,实施备份和恢复程序,或部署提供故障转移服务的(物理或虚拟)冗余集群。
坚固耐用、无风扇设计、IP40防护等级
采用可靠的系统,恢复能力强
采用更可靠的系统是提高可用性一个办法。系统越稳固可靠,发生故障的可能性就越小。故障越少,系统运行的时间就越长,顾名思义,系统可用时间也就越长。
实施弹性更强的系统是提高可用性的另一个相关方法--能够使系统从故障中快速恢复。通过减少修复系统和恢复服务所需的时间,您可以降低停机时间,提高整体可用性。有趣的是,如果一个系统每次都能快速反弹,那么它发生故障的频率就不那么重要了。
实施备份与恢复
不过,可靠性和弹性也有其局限性。在很多情况下,除了系统的可用性,您还需要考虑数据安全性和数据完整性。
企业若采取更全面的可用性方法,通常会定期备份数据,并在清单中保留备用系统。如果生产系统发生灾难性故障,他们能够在备用系统上重启服务,从存档文件中恢复所需数据。
设置备份和恢复服务对技能有一定的要求。而恢复时间也会有所不同,从几个小时到几天不等,这取决于应用、数据量和备件可用性的情况。
采用本地和虚拟集群及故障转移服务
对于一些企业来说,几小时或几天后恢复服务可能是可以接受的。但是,对于停机成本较高的公司来说,他们则需要为应用和数据找到一种更有弹性的方法。
集群和故障转移与备份和恢复方式的原来相同,但会提前做一些工作来缩短恢复服务的时间,比如通过复制系统,瞬间就能恢复系统。这些冗余系统能够将多个系统组合在一起,共享数据。通常情况下,一个系统作为主系统,供用户进行对应用程序和数据的访问,而一个辅助系统作为备份,在不需要时处于休眠(被动)状态或用于运行其他应用程序(主动)。如果主系统发生故障,只要建立了共享数据连接,应用程序便可"转移"到辅助系统,并在那里恢复运行。
随着虚拟化技术的出现,集群和故障转移的概念已经延伸到虚拟系统。如今,通过应用虚拟化和集群技术,能够将物理系统和在虚拟机(VM)上运行的故障转移应用结合起来,充分利用虚拟机的可移植性。