vllm-project
diff --git a/‎test/regression/v0.4.0/vllm/1p1d.yaml‎
Lines changed: 7 additions & 2 deletions b/‎test/regression/v0.4.0/vllm/1p1d.yaml‎
Lines changed: 7 additions & 2 deletions
diff --git a/‎test/regression/v0.4.0/vllm/2p2d-tp2.yaml‎
Lines changed: 173 additions & 0 deletions b/‎test/regression/v0.4.0/vllm/2p2d-tp2.yaml‎
Lines changed: 173 additions & 0 deletions
diff --git a/‎test/regression/v0.4.0/vllm/4p3d.yaml‎
Lines changed: 162 additions & 0 deletions b/‎test/regression/v0.4.0/vllm/4p3d.yaml‎
Lines changed: 162 additions & 0 deletions
@@ -2,6 +2,7 @@ apiVersion: orchestration.aibrix.ai/v1alpha1
 kind: StormService
 metadata:
   name: vllm-1p1d
+  namespace: default
 spec:
   replicas: 1
   updateStrategy:
@@ -42,7 +43,7 @@ spec:
                       --port "8000" \
                       --uvicorn-log-level warning \
                       --model /models/Qwen3-8B \
-                      --served-model-name qwen3-8B \
+                      --served-model-name qwen3-8b \
                       --kv-transfer-config '{"kv_connector":"NixlConnector","kv_role":"kv_both"}'
                   env:
                     - name: UCX_TLS
@@ -87,6 +88,8 @@ spec:
                 - emptyDir:
                     medium: Memory
                   name: shared-mem
+              nodeSelector:
+                kubernetes.io/hostname: 192.168.0.6
         - name: decode
           replicas: 1
           stateful: true
@@ -113,7 +116,7 @@ spec:
                       --port "8000" \
                       --uvicorn-log-level warning \
                       --model /models/Qwen3-8B \
-                      --served-model-name qwen3-8B \
+                      --served-model-name qwen3-8b \
                       --kv-transfer-config '{"kv_connector":"NixlConnector","kv_role":"kv_both"}'
                   env:
                     - name: UCX_TLS
@@ -158,3 +161,5 @@ spec:
                 - emptyDir:
                     medium: Memory
                   name: shared-mem
+              nodeSelector:
+                kubernetes.io/hostname: 192.168.0.6
@@ -0,0 +1,173 @@
+apiVersion: orchestration.aibrix.ai/v1alpha1
+kind: StormService
+metadata:
+  name: vllm-2p2d-tp2
+  namespace: default
+spec:
+  replicas: 1
+  updateStrategy:
+    type: InPlaceUpdate
+  stateful: true
+  selector:
+    matchLabels:
+      app: vllm-2p2d-tp2
+  template:
+    metadata:
+      labels:
+        app: vllm-2p2d-tp2
+    spec:
+      roles:
+        - name: prefill
+          replicas: 2
+          stateful: true
+          template:
+            metadata:
+              annotations:
+                k8s.volcengine.com/pod-networks: |
+                  [
+                    {
+                      "cniConf":{
+                          "name":"rdma"
+                      }
+                    },
+                    {
+                      "cniConf":{
+                          "name":"rdma"
+                      }
+                    }
+                  ]
+            spec:
+              containers:
+                - name: prefill
+                  image: kvcache-container-image-hb2-cn-beijing.cr.volces.com/aibrix/vllm-openai:v0.9.2-cu128-nixl-v0.4.1-lmcache-0.3.1.post1
+                  command: ["sh", "-c"]
+                  args:
+                    - |
+                      python3 -m vllm.entrypoints.openai.api_server \
+                      --host "0.0.0.0" \
+                      --port "8000" \
+                      --uvicorn-log-level warning \
+                      --model /models/Qwen3-32B \
+                      --served-model-name qwen3-32b \
+                      --tensor-parallel-size 2 \
+                      --kv-transfer-config '{"kv_connector":"NixlConnector","kv_role":"kv_both"}'
+                  env:
+                    - name: UCX_TLS
+                      value: cuda_ipc,cuda_copy,tcp
+                    - name: VLLM_SERVER_DEV_MODE
+                      value: "1"
+                    - name: VLLM_NIXL_SIDE_CHANNEL_PORT
+                      value: "5558"
+                    - name: VLLM_WORKER_MULTIPROC_METHOD
+                      value: spawn
+                    - name: VLLM_ENABLE_V1_MULTIPROCESSING
+                      value: "0"
+                    - name: GLOO_SOCKET_IFNAME
+                      value: eth0
+                    - name: NCCL_SOCKET_IFNAME
+                      value: eth0
+                    - name: NCCL_IB_DISABLE
+                      value: "0"
+                    - name: NCCL_IB_GID_INDEX
+                      value: "7"
+                    - name: NCCL_DEBUG
+                      value: "INFO"
+                  volumeMounts:
+                    - name: model-vol
+                      mountPath: /models
+                      readOnly: true
+                    - mountPath: /dev/shm
+                      name: shared-mem
+                  resources:
+                    limits:
+                      nvidia.com/gpu: 2
+                      vke.volcengine.com/rdma: "2"
+                  securityContext:
+                    capabilities:
+                      add:
+                        - IPC_LOCK
+              volumes:
+                - name: model-vol
+                  hostPath:
+                    path: /data01/models
+                    type: Directory
+                - emptyDir:
+                    medium: Memory
+                  name: shared-mem
+        - name: decode
+          replicas: 2
+          stateful: true
+          template:
+            metadata:
+              annotations:
+                k8s.volcengine.com/pod-networks: |
+                  [
+                    {
+                      "cniConf":{
+                          "name":"rdma"
+                      }
+                    },
+                    {
+                      "cniConf":{
+                          "name":"rdma"
+                      }
+                    }
+                  ]
+            spec:
+              containers:
+                - name: decode
+                  image: kvcache-container-image-hb2-cn-beijing.cr.volces.com/aibrix/vllm-openai:v0.9.2-cu128-nixl-v0.4.1-lmcache-0.3.1.post1
+                  command: ["sh", "-c"]
+                  args:
+                    - |
+                      python3 -m vllm.entrypoints.openai.api_server \
+                      --host "0.0.0.0" \
+                      --port "8000" \
+                      --uvicorn-log-level warning \
+                      --model /models/Qwen3-32B \
+                      --served-model-name qwen3-32b \
+                      --tensor-parallel-size 2 \
+                      --kv-transfer-config '{"kv_connector":"NixlConnector","kv_role":"kv_both"}'
+                  env:
+                    - name: UCX_TLS
+                      value: cuda_ipc,cuda_copy,tcp
+                    - name: VLLM_SERVER_DEV_MODE
+                      value: "1"
+                    - name: VLLM_NIXL_SIDE_CHANNEL_PORT
+                      value: "5558"
+                    - name: VLLM_WORKER_MULTIPROC_METHOD
+                      value: spawn
+                    - name: VLLM_ENABLE_V1_MULTIPROCESSING
+                      value: "0"
+                    - name: GLOO_SOCKET_IFNAME
+                      value: eth0
+                    - name: NCCL_SOCKET_IFNAME
+                      value: eth0
+                    - name: NCCL_IB_DISABLE
+                      value: "0"
+                    - name: NCCL_IB_GID_INDEX
+                      value: "7"
+                    - name: NCCL_DEBUG
+                      value: "INFO"
+                  volumeMounts:
+                    - name: model-vol
+                      mountPath: /models
+                      readOnly: true
+                    - mountPath: /dev/shm
+                      name: shared-mem
+                  resources:
+                    limits:
+                      nvidia.com/gpu: 2
+                      vke.volcengine.com/rdma: "2"
+                  securityContext:
+                    capabilities:
+                      add:
+                        - IPC_LOCK
+              volumes:
+                - name: model-vol
+                  hostPath:
+                    path: /data01/models
+                    type: Directory
+                - emptyDir:
+                    medium: Memory
+                  name: shared-mem
@@ -0,0 +1,162 @@
+apiVersion: orchestration.aibrix.ai/v1alpha1
+kind: StormService
+metadata:
+  name: vllm-4p3d
+  namespace: default
+spec:
+  replicas: 1
+  updateStrategy:
+    type: InPlaceUpdate
+  stateful: true
+  selector:
+    matchLabels:
+      app: vllm-4p3d
+  template:
+    metadata:
+      labels:
+        app: vllm-4p3d
+    spec:
+      roles:
+        - name: prefill
+          replicas: 4
+          stateful: true
+          template:
+            metadata:
+              annotations:
+                k8s.volcengine.com/pod-networks: |
+                  [
+                    {
+                      "cniConf":{
+                          "name":"rdma"
+                      }
+                    }
+                  ]
+            spec:
+              containers:
+                - name: prefill
+                  image: kvcache-container-image-hb2-cn-beijing.cr.volces.com/aibrix/vllm-openai:v0.9.2-cu128-nixl-v0.4.1-lmcache-0.3.1.post1
+                  command: ["sh", "-c"]
+                  args:
+                    - |
+                      python3 -m vllm.entrypoints.openai.api_server \
+                      --host "0.0.0.0" \
+                      --port "8000" \
+                      --uvicorn-log-level warning \
+                      --model /models/Qwen3-8B \
+                      --served-model-name qwen3-8b \
+                      --kv-transfer-config '{"kv_connector":"NixlConnector","kv_role":"kv_both"}'
+                  env:
+                    - name: UCX_TLS
+                      value: cuda_ipc,cuda_copy,tcp
+                    - name: VLLM_SERVER_DEV_MODE
+                      value: "1"
+                    - name: VLLM_NIXL_SIDE_CHANNEL_PORT
+                      value: "5558"
+                    - name: VLLM_WORKER_MULTIPROC_METHOD
+                      value: spawn
+                    - name: VLLM_ENABLE_V1_MULTIPROCESSING
+                      value: "0"
+                    - name: GLOO_SOCKET_IFNAME
+                      value: eth0
+                    - name: NCCL_SOCKET_IFNAME
+                      value: eth0
+                    - name: NCCL_IB_DISABLE
+                      value: "0"
+                    - name: NCCL_IB_GID_INDEX
+                      value: "7"
+                    - name: NCCL_DEBUG
+                      value: "INFO"
+                  volumeMounts:
+                    - name: model-vol
+                      mountPath: /models
+                      readOnly: true
+                    - mountPath: /dev/shm
+                      name: shared-mem
+                  resources:
+                    limits:
+                      nvidia.com/gpu: 1
+                      vke.volcengine.com/rdma: "1"
+                  securityContext:
+                    capabilities:
+                      add:
+                        - IPC_LOCK
+              volumes:
+                - name: model-vol
+                  hostPath:
+                    path: /data01/models
+                    type: Directory
+                - emptyDir:
+                    medium: Memory
+                  name: shared-mem
+        - name: decode
+          replicas: 3
+          stateful: true
+          template:
+            metadata:
+              annotations:
+                k8s.volcengine.com/pod-networks: |
+                  [
+                    {
+                      "cniConf":{
+                          "name":"rdma"
+                      }
+                    }
+                  ]
+            spec:
+              containers:
+                - name: decode
+                  image: kvcache-container-image-hb2-cn-beijing.cr.volces.com/aibrix/vllm-openai:v0.9.2-cu128-nixl-v0.4.1-lmcache-0.3.1.post1
+                  command: ["sh", "-c"]
+                  args:
+                    - |
+                      python3 -m vllm.entrypoints.openai.api_server \
+                      --host "0.0.0.0" \
+                      --port "8000" \
+                      --uvicorn-log-level warning \
+                      --model /models/Qwen3-8B \
+                      --served-model-name qwen3-8b \
+                      --kv-transfer-config '{"kv_connector":"NixlConnector","kv_role":"kv_both"}'
+                  env:
+                    - name: UCX_TLS
+                      value: cuda_ipc,cuda_copy,tcp
+                    - name: VLLM_SERVER_DEV_MODE
+                      value: "1"
+                    - name: VLLM_NIXL_SIDE_CHANNEL_PORT
+                      value: "5558"
+                    - name: VLLM_WORKER_MULTIPROC_METHOD
+                      value: spawn
+                    - name: VLLM_ENABLE_V1_MULTIPROCESSING
+                      value: "0"
+                    - name: GLOO_SOCKET_IFNAME
+                      value: eth0
+                    - name: NCCL_SOCKET_IFNAME
+                      value: eth0
+                    - name: NCCL_IB_DISABLE
+                      value: "0"
+                    - name: NCCL_IB_GID_INDEX
+                      value: "7"
+                    - name: NCCL_DEBUG
+                      value: "INFO"
+                  volumeMounts:
+                    - name: model-vol
+                      mountPath: /models
+                      readOnly: true
+                    - mountPath: /dev/shm
+                      name: shared-mem
+                  resources:
+                    limits:
+                      nvidia.com/gpu: 1
+                      vke.volcengine.com/rdma: "1"
+                  securityContext:
+                    capabilities:
+                      add:
+                        - IPC_LOCK
+              volumes:
+                - name: model-vol
+                  hostPath:
+                    path: /data01/models
+                    type: Directory
+                - emptyDir:
+                    medium: Memory
+                  name: shared-mem
+