任务
执行常见的 Kueue 任务
以下任务展示了如何基于 Kueue 用户角色(例如批处理管理员和批处理用户)执行操作。
批处理管理员
批处理管理员管理集群基础设施并建立配额和队列。
作为批处理管理员,你可以学习如何
- 为 Kueue 对象设置基于角色的访问控制。
- 使用 ClusterQueues 和 LocalQueues 管理集群配额。
- 设置 使用就绪 Pod 的全有或全无。
- 作为批处理管理员,你可以学习如何 监控待处理工作负载。
- 作为批处理管理员,你可以学习如何 使用自定义 WorkloadPriority 运行 Kueue 管理的作业。
- 作为批处理管理员,你可以学习如何 设置 MultiKueue 环境。
批处理用户
批处理用户运行工作负载。典型的批处理用户包括研究员、AI/ML 工程师、数据科学家等。
作为批处理用户,你可以学习如何
- 运行 Kueue 托管的批处理/作业.
- 运行 Kueue 托管的 Flux MiniCluster.
- 运行 Kueue 托管的 Kubeflow 作业。Kueue 支持 MPIJob v2beta1、PyTorchJob、TFJob、XGBoostJob、PaddleJob 和 MXJob。
- 运行 Kueue 托管的 KubeRay RayJob.
- 运行 Kueue 托管的 KubeRay RayCluster.
- 从 Python 提交 Kueue 作业.
- 运行 Kueue 托管的普通 Pod.
- 运行 Kueue 托管的 JobSet.
平台开发者
平台开发者将 Kueue 与其他软件集成和/或为 Kueue 做出贡献。
作为平台开发者,你可以学习如何
故障排除
有时会出现问题。你可以按照故障排除指南来了解系统状态。