Bootstrap

13 Prometheus之云时代的监控目标及挑战

传统IT环境中人员更关注底层基础设施的运维、项目管理,对业务需求的理解和响应比较被动。云计算中IT人员需要更关注业务的需求,探索新的业务模式,主动发现客户需求,寻找新的技术和解决方案,而不仅仅关注底层平台的运维和资源管理

监控系统的目标是:提供对复杂信息系统的全面监控,反映云资源池的健康状况和可用性情况,得到一个可控制、可预测的云环境,支持云业务安全、稳定、高效、持续地运行;同时,有效地控制管理成本,规范管理工作,实现运行管理的智能化和高效性,提高整体的维护水平;及时掌握各种资源现状和运行信息,为决策提供支持。

监控是运维团队眼睛的延伸。监控系统应当解决三个问题:“出问题了吗?”“哪里出了问题?”“是什么问题?”

通过建立完善的监控体系,可以达到以下目的。

云计算监控又面临如下的挑战

合理的监控体系架构

在业务逻辑、应用程序和运行环境层级上收集数据,在每一层,以事件、日志和指标为监控对象。可以在所有服务器上使用特定文件来存储日志,但最好将所有日志发送到公共日志服务中,这样更利于聚合、查询和清除。此外,在应用程序栈的所有层级中收集指标,能更好地了解系统的活动状态。在操作系统级别,可以收集CPU、内存、磁盘或网络的使用率等。

事件路由器负责事件的存储和转发:支持监控可视化、趋势分析、告警、异常检测等。通过采集、存储和聚合所有监控信息,能实现更深入的分析和健康检查。事件路由器用于存储与服务(和它们支持的应用程序与运行环境)有关的配置,可以实现基于阈值的告警和健康检查。

监控系统是服务可靠性层级中的最底层。离开了监控系统,就没有能力辨别一个系统是否在正常提供服务。没有一套设计周全的监控体系就如同蒙着眼睛狂奔。作为一个合格的系统运维人员,需要先于用户发现系统中存在的问题。没有监控的支持,上层应急事件处理、事后总结/问题根因分析、测试+发布、容量规划、软件开发、产品设计也就没有了根基