Volcano 监控设计解读,一看就懂
摘要:Volcano 方便AI,大数据,基因,渲染等诸多行业通用计算框架介入,提供高性能任务调度引擎,高性能异构芯片管理,高性能任务运行管理等能力。
Volcano 是一个 Kubernetes 云原生的批量计算平台,也是CNCF的首个批量计算项目。
Volcano 方便AI,大数据,基因,渲染等诸多行业通用计算框架介入,提供高性能任务调度引擎,高性能异构芯片管理,高性能任务运行管理等能力。
监控目标态设计
为AI调度系统开发监控的目的
监控目标
监控基础指标设计

监控架构设计

目前在Volcano 中引入了三个监控组件,Kube State Metrics,Prometheus以及Grafana。
在 Kubernetes 体系中传统数值类时序数据一般是由Prometheus来管理的,状态类信息和配置类信息都是存在etcd里的,但是有时候需要配合起来完成监控目标,因此就需要将状态类数据和配置数据导入Prometheus,Kube State Metrics 实现了一个标准的 Prometheus Exporter 来从API Server 获取状态数据以及字段配置数据,协助完成状态数据和时序数据的统一管理。
Grafana 中我们初始化 Provision 了一个 Volcano Overview Dashboard,这个Dashboard包含了Volcano的全局监控信息,包括Volcano的公平性数据以及调度有效性数据。
在Volcano上部署监控套件
在线部署
make generate-yaml TAG=latest RELEASE_DIR=installer
kubectl create -finstaller/volcano-monitoring-latest.yaml
离线部署需要的额外工作
检查生成好的 installer/volcano-monitoring-latest.yaml 文件,下载yaml中的所有image,推送到离线环境中的镜像仓库,并且修改所有image字段指向离线仓库。
如何使用
登录 Volcano 的监控面板

在Kubernetes集群中用管理员账号获取当前Volcano监控Namespace中的service信息,我们可以看到grafana的NodePort是30004,在集群中任意Node节点上访问30004端口即可看到Grafana的界面。
第一次登录需要输入默认用户名和密码admin/admin,后续需要重新设置新密码,设置完成新密码,选择 Volcano Overview Dashboard。
Volcano Job 延迟热力图 / Volcano Job 调度延迟排名

通过Volcano Legency Heatmap 我们可以看到当前Job延时发生的具体情况,在集群被打满的情况下,延时很容易快速达到16秒以上,如果当前集群申请的资源没有满,那么可能是没有配置合理的插件导致的。

通过 Volcano Job Scheduling Legecny 我们可以看到当前运行比较长的Vocalno Job运行时间长度,通过比对Scheduler日志,我们可以逐步找到相应的原因,并且调整插件来优化这个过程。
Volcano 公平性数据

Job Scheduling Coefficient Of Variation 是 Volcano 监控的公平性指标,展示了不同Job调度时间长度之间的差异值,目前的插件策略下,是相对比较极端的,部分Job在非常短的时间内被调度完成,剩余的时间比较长。
Volcano 调度效率数据

通过Volcano调度效率数据,我们可以看到整体集群的资源申请request情况,通过Node Resource Coefficient Of Variation 我们可以看到不同节点之间的资源分布情况。
当前社区进度及未来展望
当前Volcano的性能监控指标KPI并没有完整到可以支撑我们做样本和特征分析,为了实现最终的智能调度,现分为以下三个阶段实现。