moves to 235B-A22B-FP8 non-instruct

Elnifio · Elnifio · commit d242f78b058a · 2025-11-06T23:40:06.000-08:00
Signed-off-by: Elnifio &lt;elnifio0519@gmail.com&gt;
diff --git a/recipes/qwen3-235b-a22b-fp8/model-cache/model-cache.yaml b/recipes/qwen3-235b-a22b-fp8/model-cache/model-cache.yaml
diff --git a/recipes/qwen3-235b-a22b-fp8/model-cache/model-download.yaml b/recipes/qwen3-235b-a22b-fp8/model-cache/model-download.yaml
@@ -23,13 +23,13 @@ spec:
                 name: hf-token-secret
           env:
             - name: MODEL_NAME
-              value: Qwen/Qwen3-235B-A22B-Instruct-2507-FP8
+              value: Qwen/Qwen3-235B-A22B-FP8
             - name: HF_HOME
               value: /model-store
             - name: HF_HUB_ENABLE_HF_TRANSFER
               value: "1"
             - name: MODEL_REVISION
-              value: e156cb4efae43fbee1a1ab073f946a1377e6b969
+              value: 39eb2b067ea6b8e3e1dd97d3cd0c7ffeaf3e1a35
           args:
             - |
               set -eux
diff --git a/recipes/qwen3-235b-a22b-fp8/trtllm/disagg/deploy.yaml b/recipes/qwen3-235b-a22b-fp8/trtllm/disagg/deploy.yaml
@@ -114,7 +114,7 @@ spec:
         mainContainer:
           env: 
             - name: MODEL_PATH
-              value: /mnt/model-cache/hub/models--Qwen--Qwen3-235B-A22B-Instruct-2507-FP8/snapshots/e156cb4efae43fbee1a1ab073f946a1377e6b969
+              value: /mnt/model-cache/hub/models--Qwen--Qwen3-235B-A22B-FP8/snapshots/39eb2b067ea6b8e3e1dd97d3cd0c7ffeaf3e1a35
             - name: ENGINE_ARGS
               value: /engine_configs/prefill.yaml
           image: nvcr.io/nvidia/ai-dynamo/tensorrtllm-runtime:my-tag
@@ -126,7 +126,7 @@ spec:
             - |
               python3 -m dynamo.trtllm \
                 --model-path "${MODEL_PATH}" \
-                --served-model-name "Qwen/Qwen3-235B-A22B-Instruct-2507-FP8" \
+                --served-model-name "Qwen/Qwen3-235B-A22B-FP8" \
                 --extra-engine-args "${ENGINE_ARGS}" \
                 --disaggregation-mode prefill \
                 --disaggregation-strategy prefill_first
@@ -166,7 +166,7 @@ spec:
         mainContainer:
           env: 
             - name: MODEL_PATH
-              value: /mnt/model-cache/hub/models--Qwen--Qwen3-235B-A22B-Instruct-2507-FP8/snapshots/e156cb4efae43fbee1a1ab073f946a1377e6b969
+              value: /mnt/model-cache/hub/models--Qwen--Qwen3-235B-A22B-FP8/snapshots/39eb2b067ea6b8e3e1dd97d3cd0c7ffeaf3e1a35
             - name: ENGINE_ARGS
               value: /engine_configs/decode.yaml
           image: nvcr.io/nvidia/ai-dynamo/tensorrtllm-runtime:my-tag
@@ -178,7 +178,7 @@ spec:
             - |
               python3 -m dynamo.trtllm \
                 --model-path "${MODEL_PATH}" \
-                --served-model-name "Qwen/Qwen3-235B-A22B-Instruct-2507-FP8" \
+                --served-model-name "Qwen/Qwen3-235B-A22B-FP8" \
                 --extra-engine-args "${ENGINE_ARGS}" \
                 --disaggregation-mode decode \
                 --disaggregation-strategy prefill_first
diff --git a/recipes/qwen3-235b-a22b-fp8/trtllm/disagg/perf.yaml b/recipes/qwen3-235b-a22b-fp8/trtllm/disagg/perf.yaml
@@ -109,7 +109,7 @@ spec:
           echo "done with concurrency $TOTAL_CONCURRENCY"
         env:
         - name: TARGET_MODEL
-          value: Qwen/Qwen3-235B-A22B-Instruct-2507-FP8
+          value: Qwen/Qwen3-235B-A22B-FP8
         - name: ENDPOINT
           value: qwen3-235b-a22b-disagg-frontend:8000
         - name: CONCURRENCY_PER_GPU