导致系统不可用的原因有哪些?保障系统稳定高可用的方案有哪些?

其中无计划宕机原因有:

系统级的故障 – 包括主机、操作系统、中间件、数据库、网络、电源以及外围设备
数据和中介的故障 – 包括人员误操作、硬盘故障、数据乱了
还有:自然灾害、人为破坏、以及供电问题。
有计划的宕机原因有:

日常任务:备份,容量规划,用户和安全管理,后台批处理应用
运维相关:数据库维护、应用维护、中间件维护、操作系统维护、网络维护
升级相关:数据库、应用、中间件、操作系统、网络、包括硬件升级
保障系统稳定高可用的方案有:
High Availability,is a characteristic of a system which aims to ensure an agreed level of operational performance, usually uptime, for a higher than normal period. --
是的,要干出高可用的系统,这TMD就是一套严谨科学的工程管理,其中包括但不限于了:
软件的设计、编码、测试、上线和软件配置管理的水平
工程师的人员技能水平
运维的管理和技术水平
数据中心的运营管理水平
依赖于第三方服务的管理水平
深层交的东西则是——对工程这门科学的尊重:
对待技术的态度
一个公司的工程文化
领导者对工程的尊重