大数据系统运维高可用性概述:
衡量系统运行稳定性的关键指标是系统的可用性,可用性(availability)指的是系统的无故障运行时间的百分比,计算公式为:无故障运行时间/计划对外服务时间*100%。
为了保证系统有较高的可用性,会采取一些高可用(High Availability,简称HA)技术来减少故障中断时间。高可用技术的核心思想是冗余,即关键部件要不止一个,在原部件故障或者维修的的时候,备用的零部件要能顶替原有部件的作用。
当发生大规模故障时,如机房整体电力故障,对外网络被物理切断,在一定区域内的部件冗余也失效,此时就需要考虑容灾相关的方案。通过在其他物理区域的数据中心建立备份系统。