llamastack · cheesecake100201 · Aug 12, 2025 · Aug 12, 2025 · Aug 12, 2025 · Aug 14, 2025
@@ -71,7 +71,7 @@ class HuggingFacePostTrainingConfig(BaseModel):
     dpo_beta: float = 0.1
     use_reference_model: bool = True
     dpo_loss_type: Literal["sigmoid", "hinge", "ipo", "kto_pair"] = "sigmoid"
-    dpo_output_dir: str
+    dpo_output_dir: str | None = None
 
     @classmethod
     def sample_run_config(cls, __distro_dir__: str, **kwargs: Any) -> dict[str, Any]:

@@ -135,7 +135,7 @@ async def handler(on_log_message_cb, on_status_change_cb, on_artifact_collected_
 
             resources_allocated, checkpoints = await recipe.train(
                 model=finetuned_model,
-                output_dir=f"{self.config.dpo_output_dir}/{job_uuid}",
+                output_dir=f"{self.config.dpo_output_dir}/{job_uuid}" if self.config.dpo_output_dir else None,
                 job_uuid=job_uuid,
                 dpo_config=algorithm_config,
                 config=training_config,