add sglang-235b yaml

nwangfw · nwangfw · commit 2065f3ce5baf · 2025-07-31T21:04:07.000-07:00
Signed-off-by: Ning Wang &lt;n.wang.chn@hotmail.com&gt;
diff --git a/test/regression/v0.4.0/sglang/qwen-235b/sglang-base.yaml b/test/regression/v0.4.0/sglang/qwen-235b/sglang-base.yaml
@@ -0,0 +1,54 @@
+apiVersion: apps/v1
+kind: Deployment
+metadata:
+  labels:
+    model.aibrix.ai/name: qwen3-235b
+    model.aibrix.ai/port: "8000"
+  name: qwen3-235b
+  namespace: default
+spec:
+  replicas: 2
+  selector:
+    matchLabels:
+      model.aibrix.ai/name: qwen3-235b
+  template:
+    metadata:
+      labels:
+        model.aibrix.ai/name: qwen3-235b
+    spec:
+      containers:
+        - name: sglang-server
+          image: kvcache-container-image-hb2-cn-beijing.cr.volces.com/aibrix/sglang:v0.4.9.post3-cu126-nixl-v0.4.1
+          command: ["sh", "-c"]
+          args:
+            - |
+              python3 -m sglang.launch_server \
+                --model-path models/Qwen3-235B-A22B \
+                --served-model-name qwen3-235b \
+                --host 0.0.0.0 \
+                --port 8000 \
+                --trust-remote-code \
+                --enable-metrics \
+                --mem-fraction-static 0.8 \
+                --log-level debug
+          resources:
+            limits:
+              nvidia.com/gpu: 1
+          volumeMounts:
+            - name: model-vol
+              mountPath: /models
+              readOnly: true
+            - mountPath: /dev/shm
+              name: shared-mem
+          securityContext:
+            capabilities:
+              add:
+                - IPC_LOCK
+      volumes:
+        - name: model-vol
+          hostPath:
+            path: /data01/models
+            type: Directory
+        - emptyDir:
+            medium: Memory
+          name: shared-mem
diff --git a/test/regression/v0.4.0/sglang/qwen-235b/sglang-router-1p1d-tp8.yaml b/test/regression/v0.4.0/sglang/qwen-235b/sglang-router-1p1d-tp8.yaml
@@ -0,0 +1,239 @@
+apiVersion: orchestration.aibrix.ai/v1alpha1
+kind: StormService
+metadata:
+  name: sglang-router-1p1d-tp8
+  namespace: default
+spec:
+  replicas: 1
+  updateStrategy:
+    type: InPlaceUpdate
+  stateful: true
+  selector:
+    matchLabels:
+      app:  sglang-router-1p1d-tp8
+  template:
+    metadata:
+      labels:
+        app:  sglang-router-1p1d-tp8
+    spec:
+      roles:
+        - name: routing
+          replicas: 1
+          stateful: true
+          template:
+            spec:
+              containers:
+                - name: mini-lb
+                  image: kvcache-container-image-hb2-cn-beijing.cr.volces.com/aibrix/sglang-router:v0.1.6
+                  command: ["sh", "-c"]
+                  args:
+                    - |
+                      python3 -m sglang_router.launch_router \
+                        --pd-disaggregation \
+                        --host 0.0.0.0 \
+                        --policy random \
+                        --service-discovery \
+                        --service-discovery-port 30000 \
+                        --prefill-selector storm-service-name=$STORM_SERVICE_NAME role-name=prefill \
+                        --decode-selector storm-service-name=$STORM_SERVICE_NAME role-name=decode \
+                        --service-discovery-namespace default
+        - name: prefill
+          replicas: 1
+          stateful: true
+          template:
+            metadata:
+              annotations:
+                k8s.volcengine.com/pod-networks: |
+                  [
+                    {
+                      "cniConf":{
+                          "name":"rdma"
+                      }
+                    },
+                    {
+                      "cniConf":{
+                          "name":"rdma"
+                      }
+                    },
+                    {
+                      "cniConf":{
+                          "name":"rdma"
+                      }
+                    },
+                    {
+                      "cniConf":{
+                          "name":"rdma"
+                      }
+                    },
+                    {
+                      "cniConf":{
+                          "name":"rdma"
+                      }
+                    },
+                    {
+                      "cniConf":{
+                          "name":"rdma"
+                      }
+                    },
+                    {
+                      "cniConf":{
+                          "name":"rdma"
+                      }
+                    },
+                    {
+                      "cniConf":{
+                          "name":"rdma"
+                      }
+                    }
+                  ]
+            spec:
+              containers:
+                - name: prefill
+                  image: kvcache-container-image-hb2-cn-beijing.cr.volces.com/aibrix/sglang:v0.4.9.post3-cu126-nixl-v0.4.1
+                  command: ["sh", "-c"]
+                  args:
+                    - |
+                      python3 -m sglang.launch_server \
+                        --model-path models/Qwen3-235B-A22B \
+                        --served-model-name qwen3-235b \
+                        --host 0.0.0.0 \
+                        --port 30000 \
+                        --disaggregation-mode prefill \
+                        --disaggregation-transfer-backend=mooncake \
+                        --tp-size 8 \
+                        --trust-remote-code \
+                        --mem-fraction-static 0.8 \
+                        --log-level debug
+                  env:
+                    - name: GLOO_SOCKET_IFNAME
+                      value: eth0
+                    - name: NCCL_SOCKET_IFNAME
+                      value: eth0
+                    - name: NCCL_IB_DISABLE
+                      value: "0"
+                    - name: NCCL_IB_GID_INDEX
+                      value: "7"
+                    - name: NCCL_DEBUG
+                      value: "INFO"
+                  volumeMounts:
+                    - name: model-vol
+                      mountPath: /models
+                      readOnly: true
+                    - mountPath: /dev/shm
+                      name: shared-mem
+                  resources:
+                    limits:
+                      nvidia.com/gpu: 8
+                      vke.volcengine.com/rdma: "8"
+                  securityContext:
+                    capabilities:
+                      add:
+                        - IPC_LOCK
+              volumes:
+                - name: model-vol
+                  hostPath:
+                    path: /data01/models
+                    type: Directory
+                - emptyDir:
+                    medium: Memory
+                  name: shared-mem
+        - name: decode
+          replicas: 1
+          stateful: true
+          template:
+            metadata:
+              annotations:
+                k8s.volcengine.com/pod-networks: |
+                  [
+                    {
+                      "cniConf":{
+                          "name":"rdma"
+                      }
+                    },
+                    {
+                      "cniConf":{
+                          "name":"rdma"
+                      }
+                    },
+                    {
+                      "cniConf":{
+                          "name":"rdma"
+                      }
+                    },
+                    {
+                      "cniConf":{
+                          "name":"rdma"
+                      }
+                    },
+                    {
+                      "cniConf":{
+                          "name":"rdma"
+                      }
+                    },
+                    {
+                      "cniConf":{
+                          "name":"rdma"
+                      }
+                    },
+                    {
+                      "cniConf":{
+                          "name":"rdma"
+                      }
+                    },
+                    {
+                      "cniConf":{
+                          "name":"rdma"
+                      }
+                    }
+                  ]
+            spec:
+              containers:
+                - name: decode
+                  image: kvcache-container-image-hb2-cn-beijing.cr.volces.com/aibrix/sglang:v0.4.9.post3-cu126-nixl-v0.4.1
+                  command: ["sh", "-c"]
+                  args:
+                    - |
+                      python3 -m sglang.launch_server \
+                        --model-path models/Qwen3-235B-A22B \
+                        --served-model-name qwen3-235b \
+                        --host 0.0.0.0 \
+                        --port 30000 \
+                        --disaggregation-mode decode \
+                        --disaggregation-transfer-backend=mooncake \
+                        --tp-size 8 \
+                        --trust-remote-code \
+                        --mem-fraction-static 0.8 \
+                        --log-level debug
+                  env:
+                    - name: GLOO_SOCKET_IFNAME
+                      value: eth0
+                    - name: NCCL_SOCKET_IFNAME
+                      value: eth0
+                    - name: NCCL_IB_DISABLE
+                      value: "0"
+                    - name: NCCL_IB_GID_INDEX
+                      value: "7"
+                    - name: NCCL_DEBUG
+                      value: "INFO"
+                  volumeMounts:
+                    - name: model-vol
+                      mountPath: /models
+                      readOnly: true
+                    - mountPath: /dev/shm
+                      name: shared-mem
+                  resources:
+                    limits:
+                      nvidia.com/gpu: 8
+                      vke.volcengine.com/rdma: "8"
+                  securityContext:
+                    capabilities:
+                      add:
+                        - IPC_LOCK
+              volumes:
+                - name: model-vol
+                  hostPath:
+                    path: /data01/models
+                    type: Directory
+                - emptyDir:
+                    medium: Memory
+                  name: shared-mem
diff --git a/test/regression/v0.4.0/sglang/qwen-32b/sglang-base.yaml b/test/regression/v0.4.0/sglang/qwen-32b/sglang-base.yaml
@@ -2,19 +2,19 @@ apiVersion: apps/v1
 kind: Deployment
 metadata:
   labels:
-    model.aibrix.ai/name: qwen3-8b
+    model.aibrix.ai/name: qwen3-32b
     model.aibrix.ai/port: "8000"
-  name: qwen3-8b
+  name: qwen3-32b
   namespace: default
 spec:
-  replicas: 1
+  replicas: 2
   selector:
     matchLabels:
-      model.aibrix.ai/name: qwen3-8b
+      model.aibrix.ai/name: qwen3-32b
   template:
     metadata:
       labels:
-        model.aibrix.ai/name: qwen3-8b
+        model.aibrix.ai/name: qwen3-32b
     spec:
       containers:
         - name: sglang-server
@@ -52,4 +52,3 @@ spec:
         - emptyDir:
             medium: Memory
           name: shared-mem
-
diff --git a/test/regression/v0.4.0/sglang/qwen-8b/sglang-base.yaml b/test/regression/v0.4.0/sglang/qwen-8b/sglang-base.yaml
@@ -7,7 +7,7 @@ metadata:
   name: qwen3-8b
   namespace: default
 spec:
-  replicas: 1
+  replicas: 2
   selector:
     matchLabels:
       model.aibrix.ai/name: qwen3-8b