From 9ce1c2c3f7bbc30e54e9a100d2af705642319547 Mon Sep 17 00:00:00 2001
From: tastelikefeet <yuze.zyz@alibaab-inc.com>
Date: Mon, 15 Dec 2025 20:39:04 +0800
Subject: [PATCH] fix dpo sp

---
 swift/trainers/rlhf_trainer/dpo_trainer.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/swift/trainers/rlhf_trainer/dpo_trainer.py b/swift/trainers/rlhf_trainer/dpo_trainer.py
index b84a7051eb..2e759bee79 100644
--- a/swift/trainers/rlhf_trainer/dpo_trainer.py
+++ b/swift/trainers/rlhf_trainer/dpo_trainer.py
@@ -182,4 +182,5 @@ def training_step(self, model, inputs, *args, **kwargs):
 
     def prediction_step(self, model, inputs, *args, **kwargs):
         with self.template.forward_context(self.model, inputs):
+            inputs = self._prepare_inputs(inputs)
             return super().prediction_step(model, inputs, *args, **kwargs)