vllm-project
diff --git a/‎test/regression/v0.4.0/sglang/qwen-32b/sglang-base.yaml‎
Lines changed: 55 additions & 0 deletions b/‎test/regression/v0.4.0/sglang/qwen-32b/sglang-base.yaml‎
Lines changed: 55 additions & 0 deletions
diff --git a/‎test/regression/v0.4.0/sglang/qwen-32b/sglang-router-2p2d-tp2-kv.yaml‎ renamed to ‎test/regression/v0.4.0/sglang/qwen-32b/sglang-router-2p2d-tp2-cache.yaml‎ b/‎test/regression/v0.4.0/sglang/qwen-32b/sglang-router-2p2d-tp2-kv.yaml‎ renamed to ‎test/regression/v0.4.0/sglang/qwen-32b/sglang-router-2p2d-tp2-cache.yaml‎
diff --git a/‎test/regression/v0.4.0/sglang/qwen-8b/sglang-base.yaml‎
Lines changed: 54 additions & 0 deletions b/‎test/regression/v0.4.0/sglang/qwen-8b/sglang-base.yaml‎
Lines changed: 54 additions & 0 deletions
diff --git a/‎test/regression/v0.4.0/sglang/qwen-8b/sglang-router-1p1d-kv.yaml‎ renamed to ‎test/regression/v0.4.0/sglang/qwen-8b/sglang-router-1p1d-cache.yaml‎ b/‎test/regression/v0.4.0/sglang/qwen-8b/sglang-router-1p1d-kv.yaml‎ renamed to ‎test/regression/v0.4.0/sglang/qwen-8b/sglang-router-1p1d-cache.yaml‎
diff --git a/‎test/regression/v0.4.0/sglang/qwen-8b/sglang-router-4p3d-kv.yaml‎ renamed to ‎test/regression/v0.4.0/sglang/qwen-8b/sglang-router-4p3d-cache.yaml‎ b/‎test/regression/v0.4.0/sglang/qwen-8b/sglang-router-4p3d-kv.yaml‎ renamed to ‎test/regression/v0.4.0/sglang/qwen-8b/sglang-router-4p3d-cache.yaml‎
diff --git a/‎test/regression/v0.4.0/vllm/vllm-base.yaml‎
Lines changed: 51 additions & 0 deletions b/‎test/regression/v0.4.0/vllm/vllm-base.yaml‎
Lines changed: 51 additions & 0 deletions
@@ -0,0 +1,55 @@
+apiVersion: apps/v1
+kind: Deployment
+metadata:
+  labels:
+    model.aibrix.ai/name: qwen3-8b
+    model.aibrix.ai/port: "8000"
+  name: qwen3-8b
+  namespace: default
+spec:
+  replicas: 1
+  selector:
+    matchLabels:
+      model.aibrix.ai/name: qwen3-8b
+  template:
+    metadata:
+      labels:
+        model.aibrix.ai/name: qwen3-8b
+    spec:
+      containers:
+        - name: sglang-server
+          image: kvcache-container-image-hb2-cn-beijing.cr.volces.com/aibrix/sglang:v0.4.9.post3-cu126-nixl-v0.4.1
+          command: ["sh", "-c"]
+          args:
+            - |
+              python3 -m sglang.launch_server \
+                --model-path /models/Qwen3-32B \
+                --served-model-name qwen3-32b \
+                --host 0.0.0.0 \
+                --port 8000 \
+                --trust-remote-code \
+                --enable-metrics \
+                --mem-fraction-static 0.8 \
+                --log-level debug
+          resources:
+            limits:
+              nvidia.com/gpu: 1
+          volumeMounts:
+            - name: model-vol
+              mountPath: /models
+              readOnly: true
+            - mountPath: /dev/shm
+              name: shared-mem
+          securityContext:
+            capabilities:
+              add:
+                - IPC_LOCK
+      volumes:
+        - name: model-vol
+          hostPath:
+            path: /data01/models
+            type: Directory
+        - emptyDir:
+            medium: Memory
+          name: shared-mem
+
@@ -0,0 +1,54 @@
+apiVersion: apps/v1
+kind: Deployment
+metadata:
+  labels:
+    model.aibrix.ai/name: qwen3-8b
+    model.aibrix.ai/port: "8000"
+  name: qwen3-8b
+  namespace: default
+spec:
+  replicas: 1
+  selector:
+    matchLabels:
+      model.aibrix.ai/name: qwen3-8b
+  template:
+    metadata:
+      labels:
+        model.aibrix.ai/name: qwen3-8b
+    spec:
+      containers:
+        - name: sglang-server
+          image: kvcache-container-image-hb2-cn-beijing.cr.volces.com/aibrix/sglang:v0.4.9.post3-cu126-nixl-v0.4.1
+          command: ["sh", "-c"]
+          args:
+            - |
+              python3 -m sglang.launch_server \
+                --model-path /models/Qwen3-8B \
+                --served-model-name qwen3-8b \
+                --host 0.0.0.0 \
+                --port 8000 \
+                --trust-remote-code \
+                --enable-metrics \
+                --mem-fraction-static 0.8 \
+                --log-level debug
+          resources:
+            limits:
+              nvidia.com/gpu: 1
+          volumeMounts:
+            - name: model-vol
+              mountPath: /models
+              readOnly: true
+            - mountPath: /dev/shm
+              name: shared-mem
+          securityContext:
+            capabilities:
+              add:
+                - IPC_LOCK
+      volumes:
+        - name: model-vol
+          hostPath:
+            path: /data01/models
+            type: Directory
+        - emptyDir:
+            medium: Memory
+          name: shared-mem
@@ -0,0 +1,51 @@
+apiVersion: apps/v1
+kind: Deployment
+metadata:
+  labels:
+    model.aibrix.ai/name: qwen3-8b
+    model.aibrix.ai/port: "8000"
+  name: qwen3-8b
+  namespace: default
+spec:
+  replicas: 1
+  selector:
+    matchLabels:
+      model.aibrix.ai/name: qwen3-8b
+  template:
+    metadata:
+      labels:
+        model.aibrix.ai/name: qwen3-8b
+    spec:
+      containers:
+        - name: vllm-openai
+          image: kvcache-container-image-hb2-cn-beijing.cr.volces.com/aibrix/vllm-openai:v0.9.2-cu128-nixl-v0.4.1-lmcache-0.3.1.post1
+          command: ["sh", "-c"]
+          args:
+            - |
+              python3 -m vllm.entrypoints.openai.api_server \
+              --host "0.0.0.0" \
+              --port "8000" \
+              --uvicorn-log-level warning \
+              --model /models/Qwen3-8B \
+              --served-model-name qwen3-8b
+          resources:
+            limits:
+              nvidia.com/gpu: 1
+          volumeMounts:
+            - name: model-vol
+              mountPath: /models
+              readOnly: true
+            - mountPath: /dev/shm
+              name: shared-mem
+          securityContext:
+            capabilities:
+              add:
+                - IPC_LOCK
+      volumes:
+        - name: model-vol
+          hostPath:
+            path: /data01/models
+            type: Directory
+        - emptyDir:
+            medium: Memory
+          name: shared-mem