Investigate refactoring opportunities for batch management in Plugin and Compiler - no metadata changes

DariaMityagina · DariaMityagina · commit 30529c1e0499 · 2025-08-19T06:54:19.000Z
diff --git a/src/plugins/intel_npu/src/backend/src/zero_infer_request.cpp b/src/plugins/intel_npu/src/backend/src/zero_infer_request.cpp
@@ -81,10 +81,6 @@ std::optional<size_t> determine_dynamic_batch_size(const IODescriptor& desc,
         return std::nullopt;
     }
 
-    if (!desc.shapeFromIRModel.has_value() || !desc.shapeFromIRModel.value().is_dynamic()) {
-        return std::nullopt;
-    }
-
     if (batchSize.has_value()) {
         return batchSize.value();
     }
@@ -93,9 +89,7 @@ std::optional<size_t> determine_dynamic_batch_size(const IODescriptor& desc,
         return std::nullopt;
     }
 
-    if ((*desc.shapeFromIRModel)[intel_npu::utils::BATCH_AXIS].is_dynamic()) {
-        return tensor->get_shape()[intel_npu::utils::BATCH_AXIS];
-    }
+    return tensor->get_shape()[intel_npu::utils::BATCH_AXIS];
 
     return std::nullopt;
 }
diff --git a/src/plugins/intel_npu/src/common/include/intel_npu/common/igraph.hpp b/src/plugins/intel_npu/src/common/include/intel_npu/common/igraph.hpp
@@ -36,8 +36,6 @@ class IGraph : public std::enable_shared_from_this<IGraph> {
 
     virtual void set_argument_value(uint32_t argi, const void* argv) const = 0;
 
-    virtual void set_metadata(NetworkMetadata metadata) = 0;
-
     virtual void initialize(const Config& config) = 0;
 
     virtual ~IGraph() = default;
diff --git a/src/plugins/intel_npu/src/compiler_adapter/include/graph.hpp b/src/plugins/intel_npu/src/compiler_adapter/include/graph.hpp
@@ -35,8 +35,6 @@ class Graph : public IGraph {
 
     void set_argument_value(uint32_t argi, const void* argv) const override;
 
-    void set_metadata(NetworkMetadata metadata) override;
-
     void initialize(const Config& config) override;
 
     const NetworkMetadata& get_metadata() const override;
diff --git a/src/plugins/intel_npu/src/compiler_adapter/src/graph.cpp b/src/plugins/intel_npu/src/compiler_adapter/src/graph.cpp
@@ -42,10 +42,6 @@ Graph::Graph(const std::shared_ptr<ZeGraphExtWrappers>& zeGraphExt,
     }
 }
 
-void Graph::set_metadata(NetworkMetadata metadata) {
-    _metadata = metadata;
-}
-
 const NetworkMetadata& Graph::get_metadata() const {
     return _metadata;
 }
diff --git a/src/plugins/intel_npu/src/plugin/src/plugin.cpp b/src/plugins/intel_npu/src/plugin/src/plugin.cpp
@@ -655,18 +655,14 @@ std::shared_ptr<ov::ICompiledModel> Plugin::compile_model(const std::shared_ptr<
         localConfig.update({{ov::intel_npu::batch_mode.name(), strStream.str()}});
     }
 
-    bool modelDeBached = false;
-    ov::Dimension originalBatch;
     if (localConfig.isAvailable(ov::intel_npu::batch_mode.name()) && modelForCompilation->is_dynamic()) {
         bool autoOrPluginBatch = localConfig.get<BATCH_MODE>() == ov::intel_npu::BatchMode::PLUGIN ||
                                  localConfig.get<BATCH_MODE>() == ov::intel_npu::BatchMode::AUTO;
         bool pluginBatchingIsSupported = validateModelBatch(modelForCompilation, _logger);
         if (autoOrPluginBatch && pluginBatchingIsSupported) {
             try {
                 _logger.info("Attempting to handle batching on the plugin side.");
-                originalBatch = ov::get_batch(modelForCompilation);
                 ov::set_batch(modelForCompilation, 1);
-                modelDeBached = true;
             } catch (const std::exception& ex) {
                 _logger.info("Couldn't reshape the model. Batching will be handed by compiler.", ex.what());
             }
@@ -745,16 +741,6 @@ std::shared_ptr<ov::ICompiledModel> Plugin::compile_model(const std::shared_ptr<
         OPENVINO_THROW("NPU plugin: got an unexpected exception from compiler");
     }
 
-    if (modelDeBached) {
-        auto metadata = graph->get_metadata();
-        for (auto& in : metadata.inputs) {
-            if (in.shapeFromIRModel.has_value() && originalBatch.get_max_length() != 1) {
-                in.shapeFromIRModel.value()[intel_npu::utils::BATCH_AXIS] = originalBatch;
-            }
-        }
-        graph->set_metadata(metadata);
-    }
-
     std::shared_ptr<ov::ICompiledModel> compiledModel;
     try {
         compiledModel = std::make_shared<CompiledModel>(model, shared_from_this(), device, graph, localConfig);

Original file line number	Diff line number	Diff line change
`@@ -81,10 +81,6 @@ std::optional<size_t> determine_dynamic_batch_size(const IODescriptor& desc,`
`81`	`81`	`return std::nullopt;`
`82`	`82`	`}`
`83`	`83`
`84`		`- if (!desc.shapeFromIRModel.has_value() \|\| !desc.shapeFromIRModel.value().is_dynamic()) {`
`85`		`- return std::nullopt;`
`86`		`- }`
`87`		`-`
`88`	`84`	`if (batchSize.has_value()) {`
`89`	`85`	`return batchSize.value();`
`90`	`86`	`}`
`@@ -93,9 +89,7 @@ std::optional<size_t> determine_dynamic_batch_size(const IODescriptor& desc,`
`93`	`89`	`return std::nullopt;`
`94`	`90`	`}`
`95`	`91`
`96`		`- if ((*desc.shapeFromIRModel)[intel_npu::utils::BATCH_AXIS].is_dynamic()) {`
`97`		`- return tensor->get_shape()[intel_npu::utils::BATCH_AXIS];`
`98`		`- }`
	`92`	`+ return tensor->get_shape()[intel_npu::utils::BATCH_AXIS];`
`99`	`93`
`100`	`94`	`return std::nullopt;`
`101`	`95`	`}`
Original file line number	Diff line number	Diff line change
`@@ -42,10 +42,6 @@ Graph::Graph(const std::shared_ptr<ZeGraphExtWrappers>& zeGraphExt,`
`42`	`42`	`}`
`43`	`43`	`}`
`44`	`44`
`45`		`-void Graph::set_metadata(NetworkMetadata metadata) {`
`46`		`- _metadata = metadata;`
`47`		`-}`
`48`		`-`
`49`	`45`	`const NetworkMetadata& Graph::get_metadata() const {`
`50`	`46`	`return _metadata;`
`51`	`47`	`}`