运行 XGBoostJob

运行 Kueue 调度的 XGBoostJob

此页面展示了在运行训练算子 XGBoostJob 时如何利用 Kueue 的调度和资源管理功能。

本指南适用于对 Kueue 有基本了解的批处理用户。有关更多信息，请参阅 Kueue 概述。

开始之前

查看管理集群配额，了解初始集群设置的详细信息。

查看训练算子安装指南。

请注意，最低要求的训练算子版本为 v1.7.0。

你可以修改已安装版本中的 kueue 配置，将 XGBoostJob 包含为允许的工作负载。

XGBoostJob 定义

a. 队列选择

目标本地队列应在 XGBoostJob 配置的 metadata.labels 部分中指定。

metadata:
  labels:
    kueue.x-k8s.io/queue-name: user-queue

b. 在 XGBoostJob 中选择性设置 Suspend 字段

spec:
  runPolicy:
    suspend: true

默认情况下，Kueue 会通过 webhook 将 suspend 设置为 true，并在 XGBoostJob 被接纳时取消暂停。

示例 XGBoostJob

此示例基于 https://github.com/kubeflow/training-operator/blob/afba76bc5a168cbcbc8685c7661f36e9b787afd1/examples/xgboost/xgboostjob.yaml。

apiVersion: kubeflow.org/v1
kind: XGBoostJob
metadata:
  name: xgboost-dist-iris-test-train
  namespace: default
  labels:
    kueue.x-k8s.io/queue-name: user-queue
spec:
  xgbReplicaSpecs:
    Master:
      replicas: 1
      restartPolicy: Never
      template:
        spec:
          containers:
            - name: xgboost
              image: docker.io/kubeflow/xgboost-dist-iris:latest
              resources:
                requests:
                  cpu: 0.5
                  memory: 256Mi
              ports:
                - containerPort: 9991
                  name: xgboostjob-port
              imagePullPolicy: Always
              args:
                - --job_type=Train
                - --xgboost_parameter=objective:multi:softprob,num_class:3
                - --n_estimators=10
                - --learning_rate=0.1
                - --model_path=/tmp/xgboost-model
                - --model_storage_type=local
    Worker:
      replicas: 2
      restartPolicy: ExitCode
      template:
        spec:
          containers:
            - name: xgboost
              image: docker.io/kubeflow/xgboost-dist-iris:latest
              resources:
                requests:
                  cpu: 0.5
                  memory: 256Mi
              ports:
                - containerPort: 9991
                  name: xgboostjob-port
              imagePullPolicy: Always
              args:
                - --job_type=Train
                - --xgboost_parameter="objective:multi:softprob,num_class:3"
                - --n_estimators=10
                - --learning_rate=0.1

反馈

此页面有帮助吗？

很高兴听到这个消息！请告诉我们如何改进。

很遗憾听到这个消息。请告诉我们如何改进。

上次修改时间：2024 年 3 月 28 日：[网站] 文档：修复 Kubernetes 作业指南中的失效链接（#1926）（02ae017e）