Prometheus 指标
Kueue 导出的 Prometheus 指标
Kueue 公开 prometheus 指标以监视系统健康状况和 ClusterQueues 的状态。
Kueue 健康状况
使用以下指标监视 kueue 控制器健康状况
指标名称 | 类型 | 描述 | 标签 |
---|---|---|---|
kueue_admission_attempts_total | 计数器 | 尝试 准入 工作负载的总数。每次准入尝试可能尝试准入多个工作负载。 | result : 可能的值为 success 或 inadmissible |
kueue_admission_attempt_duration_seconds | 直方图 | 准入尝试的延迟。 | result : 可能的值为 success 或 inadmissible |
ClusterQueue 状态
使用以下指标来监控 ClusterQueue 的状态
指标名称 | 类型 | 描述 | 标签 |
---|---|---|---|
kueue_pending_workloads | 仪表盘 | 待处理的工作负载数。 | cluster_queue :ClusterQueue 的名称status :可能的值为 active 或 inadmissible |
kueue_quota_reserved_workloads_total | 计数器 | 配额保留工作负载的总数。 | cluster_queue :ClusterQueue 的名称 |
kueue_quota_reserved_wait_time_seconds | 直方图 | 从工作负载创建或重新排队到获得配额保留之间的时间。 | cluster_queue :ClusterQueue 的名称 |
kueue_admitted_workloads_total | 计数器 | 已准入工作负载的总数。 | cluster_queue :ClusterQueue 的名称 |
kueue_evicted_workloads_total | 计数器 | 已驱逐工作负载的总数。 | cluster_queue :ClusterQueue 的名称reason :可能的值为 Preempted 、PodsReadyTimeout 、AdmissionCheck 、ClusterQueueStopped 或 InactiveWorkload |
kueue_admission_wait_time_seconds | 直方图 | 从工作负载创建或重新排队到准入之间的时间。 | cluster_queue :ClusterQueue 的名称 |
kueue_admission_checks_wait_time_seconds | 直方图 | 从工作负载获得配额保留到准入之间的时间。 | cluster_queue :ClusterQueue 的名称 |
kueue_admitted_active_workloads | 仪表盘 | 处于活动状态(未暂停且未完成)的已准入工作负载数 | cluster_queue :ClusterQueue 的名称 |
kueue_cluster_queue_status | 仪表盘 | 报告 ClusterQueue 的状态 | cluster_queue :ClusterQueue 的名称status :可能的值为 pending 、active 或 terminated 。对于 ClusterQueue,该指标仅针对其中一种状态报告值为 1。 |
可选指标
仅当在 管理器配置 中启用了 metrics.enableClusterQueueResources
时,以下指标才可用。
指标名称 | 类型 | 描述 | 标签 |
---|---|---|---|
kueue_cluster_queue_resource_usage | 仪表盘 | 报告 ClusterQueue 的总资源使用情况 | cohort :队列所属的组cluster_queue :ClusterQueue 的名称flavor :引用的类型resource :资源名称 |
kueue_cluster_queue_nominal_quota | 仪表盘 | 报告 ClusterQueue 的资源配额 | cohort :队列所属的组cluster_queue :ClusterQueue 的名称flavor :引用的类型resource :资源名称 |
kueue_cluster_queue_borrowing_limit | 仪表盘 | 报告 ClusterQueue 的资源借用限制 | cohort :队列所属的组cluster_queue :ClusterQueue 的名称flavor :引用的类型resource :资源名称 |
kueue_cluster_queue_weighted_share | 仪表盘 | 报告一个值,表示 ClusterQueue 提供的所有资源中,使用量高于名义配额与组中可借用资源之比的最大值。 | cluster_queue :ClusterQueue 的名称 |