Prometheus 指标

Kueue 导出的 Prometheus 指标

Kueue 公开 prometheus 指标以监视系统健康状况和 ClusterQueues 的状态。

Kueue 健康状况

使用以下指标监视 kueue 控制器健康状况

指标名称类型描述标签
kueue_admission_attempts_total计数器尝试 准入 工作负载的总数。每次准入尝试可能尝试准入多个工作负载。result: 可能的值为 successinadmissible
kueue_admission_attempt_duration_seconds直方图准入尝试的延迟。result: 可能的值为 successinadmissible

ClusterQueue 状态

使用以下指标来监控 ClusterQueue 的状态

指标名称类型描述标签
kueue_pending_workloads仪表盘待处理的工作负载数。cluster_queue:ClusterQueue 的名称

status:可能的值为 activeinadmissible
kueue_quota_reserved_workloads_total计数器配额保留工作负载的总数。cluster_queue:ClusterQueue 的名称
kueue_quota_reserved_wait_time_seconds直方图从工作负载创建或重新排队到获得配额保留之间的时间。cluster_queue:ClusterQueue 的名称
kueue_admitted_workloads_total计数器已准入工作负载的总数。cluster_queue:ClusterQueue 的名称
kueue_evicted_workloads_total计数器已驱逐工作负载的总数。cluster_queue:ClusterQueue 的名称

reason:可能的值为 PreemptedPodsReadyTimeoutAdmissionCheckClusterQueueStoppedInactiveWorkload
kueue_admission_wait_time_seconds直方图从工作负载创建或重新排队到准入之间的时间。cluster_queue:ClusterQueue 的名称
kueue_admission_checks_wait_time_seconds直方图从工作负载获得配额保留到准入之间的时间。cluster_queue:ClusterQueue 的名称
kueue_admitted_active_workloads仪表盘处于活动状态(未暂停且未完成)的已准入工作负载数cluster_queue:ClusterQueue 的名称
kueue_cluster_queue_status仪表盘报告 ClusterQueue 的状态cluster_queue:ClusterQueue 的名称

status:可能的值为 pendingactiveterminated。对于 ClusterQueue,该指标仅针对其中一种状态报告值为 1。

可选指标

仅当在 管理器配置 中启用了 metrics.enableClusterQueueResources 时,以下指标才可用。

指标名称类型描述标签
kueue_cluster_queue_resource_usage仪表盘报告 ClusterQueue 的总资源使用情况cohort:队列所属的组

cluster_queue:ClusterQueue 的名称

flavor:引用的类型

resource:资源名称
kueue_cluster_queue_nominal_quota仪表盘报告 ClusterQueue 的资源配额cohort:队列所属的组

cluster_queue:ClusterQueue 的名称

flavor:引用的类型

resource:资源名称
kueue_cluster_queue_borrowing_limit仪表盘报告 ClusterQueue 的资源借用限制cohort:队列所属的组

cluster_queue:ClusterQueue 的名称

flavor:引用的类型

resource:资源名称
kueue_cluster_queue_weighted_share仪表盘报告一个值,表示 ClusterQueue 提供的所有资源中,使用量高于名义配额与组中可借用资源之比的最大值。cluster_queue:ClusterQueue 的名称