13 Prometheus之云时代的监控目标及挑战

2022-03-09 作者: 穿过生命散发芬芳

传统IT环境中人员更关注底层基础设施的运维、项目管理，对业务需求的理解和响应比较被动。云计算中IT人员需要更关注业务的需求，探索新的业务模式，主动发现客户需求，寻找新的技术和解决方案，而不仅仅关注底层平台的运维和资源管理。

监控系统的目标是：提供对复杂信息系统的全面监控，反映云资源池的健康状况和可用性情况，得到一个可控制、可预测的云环境，支持云业务安全、稳定、高效、持续地运行；同时，有效地控制管理成本，规范管理工作，实现运行管理的智能化和高效性，提高整体的维护水平；及时掌握各种资源现状和运行信息，为决策提供支持。

监控是运维团队眼睛的延伸。监控系统应当解决三个问题：“出问题了吗？”“哪里出了问题？”“是什么问题？”

通过建立完善的监控体系，可以达到以下目的。

云计算监控又面临如下的挑战：

合理的监控体系架构

在业务逻辑、应用程序和运行环境层级上收集数据，在每一层，以事件、日志和指标为监控对象。可以在所有服务器上使用特定文件来存储日志，但最好将所有日志发送到公共日志服务中，这样更利于聚合、查询和清除。此外，在应用程序栈的所有层级中收集指标，能更好地了解系统的活动状态。在操作系统级别，可以收集CPU、内存、磁盘或网络的使用率等。

事件路由器负责事件的存储和转发：支持监控可视化、趋势分析、告警、异常检测等。通过采集、存储和聚合所有监控信息，能实现更深入的分析和健康检查。事件路由器用于存储与服务（和它们支持的应用程序与运行环境）有关的配置，可以实现基于阈值的告警和健康检查。

监控系统是服务可靠性层级中的最底层。离开了监控系统，就没有能力辨别一个系统是否在正常提供服务。没有一套设计周全的监控体系就如同蒙着眼睛狂奔。作为一个合格的系统运维人员，需要先于用户发现系统中存在的问题。没有监控的支持，上层应急事件处理、事后总结/问题根因分析、测试+发布、容量规划、软件开发、产品设计也就没有了根基。

13 Prometheus之云时代的监控目标及挑战

关于我们

热门标签

Elsewhere