Bootstrap

导致系统不可用的原因有哪些?保障系统稳定高可用的方案有哪些?

导致服务器不可用的因素分为

其中无计划宕机原因有:

  • 系统级的故障 –  包括主机、操作系统、中间件、数据库、网络、电源以及外围设备

  • 数据和中介的故障 – 包括人员误操作、硬盘故障、数据乱了

  • 还有:自然灾害、人为破坏、以及供电问题。

有计划的宕机原因有:

  • 日常任务:备份,容量规划,用户和安全管理,后台批处理应用

  • 运维相关:数据库维护、应用维护、中间件维护、操作系统维护、网络维护

  • 升级相关:数据库、应用、中间件、操作系统、网络、包括硬件升级

保障系统稳定高可用的方案有:

High Availability,is a characteristic of a system which aims to ensure an agreed level of operational performance, usually uptime, for a higher than normal period. --

是的,要干出高可用的系统,这TMD就是一套严谨科学的工程管理,其中包括但不限于了:

  • 软件的设计、编码、测试、上线和软件配置管理的水平

  • 工程师的人员技能水平

  • 运维的管理和技术水平

  • 数据中心的运营管理水平

  • 依赖于第三方服务的管理水平

深层交的东西则是——对工程这门科学的尊重:

  • 对待技术的态度

  • 一个公司的工程文化

  • 领导者对工程的尊重

以上来自陈皓老师的《