feat: add multiframe image input support for OpenAI Chat endpoint (#418)

nv-hwoo · web-flow · commit b7cedba53517 · 2025-07-15T17:52:06.000-07:00
* add multiframe image input support

* test more meaningful batch sizes
diff --git a/genai-perf/genai_perf/inputs/converters/openai_chat_completions_converter.py b/genai-perf/genai_perf/inputs/converters/openai_chat_completions_converter.py
@@ -44,10 +44,6 @@ def check_config(self) -> None:
                 raise GenAIPerfException(
                     f"The --batch-size-text flag is not supported for {self.config.endpoint.output_format.to_lowercase()}."
                 )
-            if self.config.input.image.batch_size != InputDefaults.BATCH_SIZE:
-                raise GenAIPerfException(
-                    f"The --batch-size-image flag is not supported for {self.config.endpoint.output_format.to_lowercase()}."
-                )
 
     def convert(
         self,
diff --git a/genai-perf/tests/test_converters/test_openai_chat_converter.py b/genai-perf/tests/test_converters/test_openai_chat_converter.py
@@ -346,6 +346,58 @@ def test_convert_multi_modal(self, rows, first_content, second_content) -> None:
 
         assert result == expected_result
 
+    @pytest.mark.parametrize(
+        "batch_size_image",
+        [
+            0,  # no images
+            1,
+            123,
+        ],
+    )
+    def test_convert_multi_modal_with_batched_image(self, batch_size_image):
+        """
+        Test multi-modal format of OpenAI Chat API with batched image input payloads
+        """
+        rows = [
+            {
+                "text": "hello world",
+                "image": [f"test_image_{i}" for i in range(batch_size_image)],
+            },
+        ]
+        generic_dataset = self.create_generic_dataset(rows)
+
+        config = ConfigCommand({"model_name": "test_model"})
+        config.endpoint.model_selection_strategy = ModelSelectionStrategy.ROUND_ROBIN
+        config.endpoint.output_format = OutputFormat.OPENAI_MULTIMODAL
+        config.endpoint.streaming = True
+        config.input.image.batch_size = batch_size_image
+
+        chat_converter = OpenAIChatCompletionsConverter(config)
+        payload = chat_converter.convert(generic_dataset)
+
+        expected_image_contents = [
+            {
+                "type": "image_url",
+                "image_url": {
+                    "url": f"test_image_{i}",
+                },
+            }
+            for i in range(batch_size_image)
+        ]
+
+        assert payload["data"][0]["payload"][0]["messages"] == [
+            {
+                "role": "user",
+                "content": [
+                    {
+                        "type": "text",
+                        "text": "hello world",
+                    },
+                    *expected_image_contents,
+                ],
+            }
+        ]
+
     def test_convert_with_payload_parameters(self):
         optional_data = {"session_id": "abcd"}
         generic_dataset = self.create_generic_dataset(