revert changes of debugging

byshiue · byshiue · commit a6c917eea63d · 2025-08-23T10:16:04.000Z
Signed-off-by: bhsueh &lt;11360707+byshiue@users.noreply.github.com&gt;
diff --git a/tensorrt_llm/evaluate/lm_eval.py b/tensorrt_llm/evaluate/lm_eval.py
@@ -398,10 +398,6 @@ def evaluate(self,
             system_instruction=self.system_prompt)
         # Normalize scores to range 0~100
         scores = results["results"][self.task_name]
-        if self.task_name == "gsm8k":
-            print(f"scores: {scores}, results: {results}")
-            import sys
-            sys.stdout.flush()
         for metric in scores.keys():
             if isinstance(scores[metric], (float, int)):
                 scores[metric] *= 100
diff --git a/tests/integration/defs/accuracy/accuracy_core.py b/tests/integration/defs/accuracy/accuracy_core.py
@@ -297,7 +297,7 @@ class GSM8K(AccuracyTask):
     ALPHA = 0.05
     BETA = 0.2
     SIGMA = 50
-    NUM_SAMPLES = 2  # Full sample
+    NUM_SAMPLES = 1319  # Full sample
 
     MAX_INPUT_LEN = 4096
     MAX_OUTPUT_LEN = 256
diff --git a/tests/integration/defs/accuracy/test_llm_api_pytorch.py b/tests/integration/defs/accuracy/test_llm_api_pytorch.py
@@ -2308,11 +2308,10 @@ def test_nvfp4(
                 **pytorch_config,
                 enable_attention_dp=attention_dp,
                 max_batch_size=32) as llm:
-            # task = MMLU(self.MODEL_NAME)
-            # task.evaluate(llm)
+            task = MMLU(self.MODEL_NAME)
+            task.evaluate(llm)
             task = GSM8K(self.MODEL_NAME)
             task.evaluate(llm)
-            assert False
 
     def test_eagle3(self):
         pytorch_config = dict(