DIOPI adapt codes for npu device (#2973)

CokeDong · web-flow · commit b366e923e463 · 2023-10-30T17:14:41.000+08:00
diff --git a/mmcv/ops/csrc/pytorch/focal_loss.cpp b/mmcv/ops/csrc/pytorch/focal_loss.cpp
@@ -5,9 +5,13 @@
 #include <diopi/diopirt.h>
 #include <diopi/functions.h>
 #include <diopi/functions_mmcv.h>
+#include <torch/csrc/utils/pybind.h>
 
 #include "csrc_dipu/diopirt/diopirt_impl.h"
+#include "csrc_dipu/runtime/device/deviceapis.h"
+#include "csrc_dipu/utils/helpfunc.hpp"
 
+using dipu::VENDOR_TYPE;
 using dipu::diopi_helper::toDiopiScalar;
 using dipu::diopi_helper::toDiopiTensorHandle;
 #endif
@@ -57,9 +61,16 @@ void sigmoid_focal_loss_forward_diopi(Tensor input, Tensor target,
   auto weight_p = toDiopiTensorHandle(weight);
   auto output_p = toDiopiTensorHandle(output);
   if (reinterpret_cast<void *>(diopiSigmoidFocalLossMmcv) != nullptr) {
-    auto ret = diopiSigmoidFocalLossMmcv(ch, output_p, input_p, target_p,
-                                         weight_p, gamma, alpha);
-    if (ret == diopiSuccess) return;
+    if (strcmp(dipu::VendorTypeToStr(VENDOR_TYPE), "NPU") == 0) {
+      pybind11::gil_scoped_release no_gil;
+      auto ret = diopiSigmoidFocalLossMmcv(ch, output_p, input_p, target_p,
+                                           weight_p, gamma, alpha);
+      if (ret == diopiSuccess) return;
+    } else {
+      auto ret = diopiSigmoidFocalLossMmcv(ch, output_p, input_p, target_p,
+                                           weight_p, gamma, alpha);
+      if (ret == diopiSuccess) return;
+    }
   }
   LOG(WARNING)
       << "Fallback to cpu: mmcv ext op sigmoid_focal_loss_forward_impl";
@@ -90,9 +101,16 @@ void sigmoid_focal_loss_backward_diopi(Tensor input, Tensor target,
   auto weight_p = toDiopiTensorHandle(weight);
   auto grad_input_p = toDiopiTensorHandle(grad_input);
   if (reinterpret_cast<void *>(diopiSigmoidFocalLossBackwardMmcv) != nullptr) {
-    auto ret = diopiSigmoidFocalLossBackwardMmcv(
-        ch, grad_input_p, input_p, target_p, weight_p, gamma, alpha);
-    if (ret == diopiSuccess) return;
+    if (strcmp(dipu::VendorTypeToStr(VENDOR_TYPE), "NPU") == 0) {
+      pybind11::gil_scoped_release no_gil;
+      auto ret = diopiSigmoidFocalLossBackwardMmcv(
+          ch, grad_input_p, input_p, target_p, weight_p, gamma, alpha);
+      if (ret == diopiSuccess) return;
+    } else {
+      auto ret = diopiSigmoidFocalLossBackwardMmcv(
+          ch, grad_input_p, input_p, target_p, weight_p, gamma, alpha);
+      if (ret == diopiSuccess) return;
+    }
   }
   LOG(WARNING)
       << "Fallback to cpu: mmcv ext op sigmoid_focal_loss_forward_impl";
diff --git a/mmcv/ops/csrc/pytorch/modulated_deform_conv.cpp b/mmcv/ops/csrc/pytorch/modulated_deform_conv.cpp
@@ -5,9 +5,13 @@
 #include <diopi/diopirt.h>
 #include <diopi/functions.h>
 #include <diopi/functions_mmcv.h>
+#include <torch/csrc/utils/pybind.h>
 
 #include "csrc_dipu/diopirt/diopirt_impl.h"
+#include "csrc_dipu/runtime/device/deviceapis.h"
+#include "csrc_dipu/utils/helpfunc.hpp"
 
+using dipu::VENDOR_TYPE;
 using dipu::diopi_helper::toDiopiScalar;
 using dipu::diopi_helper::toDiopiTensorHandle;
 #endif
@@ -273,11 +277,20 @@ void modulated_deform_conv_forward_diopi(
   auto output_p = toDiopiTensorHandle(output);
   auto columns_p = toDiopiTensorHandle(columns);
   if (reinterpret_cast<void*>(diopiModulatedDeformConvMmcv) != nullptr) {
-    auto ret = diopiModulatedDeformConvMmcv(
-        ch, output_p, columns_p, ones_p, input_p, weight_p, bias_p, offset_p,
-        mask_p, kernel_h, kernel_w, stride_h, stride_w, pad_h, pad_w,
-        dilation_h, dilation_w, group, deformable_group, with_bias);
-    if (ret == diopiSuccess) return;
+    if (strcmp(dipu::VendorTypeToStr(VENDOR_TYPE), "NPU") == 0) {
+      pybind11::gil_scoped_release no_gil;
+      auto ret = diopiModulatedDeformConvMmcv(
+          ch, output_p, columns_p, ones_p, input_p, weight_p, bias_p, offset_p,
+          mask_p, kernel_h, kernel_w, stride_h, stride_w, pad_h, pad_w,
+          dilation_h, dilation_w, group, deformable_group, with_bias);
+      if (ret == diopiSuccess) return;
+    } else {
+      auto ret = diopiModulatedDeformConvMmcv(
+          ch, output_p, columns_p, ones_p, input_p, weight_p, bias_p, offset_p,
+          mask_p, kernel_h, kernel_w, stride_h, stride_w, pad_h, pad_w,
+          dilation_h, dilation_w, group, deformable_group, with_bias);
+      if (ret == diopiSuccess) return;
+    }
   }
   LOG(WARNING) << "Fallback to cpu: mmcv ext op modulated_deform_conv_forward";
   auto input_cpu = input.cpu();
@@ -331,12 +344,24 @@ void modulated_deform_conv_backward_diopi(
 
   if (reinterpret_cast<void*>(diopiModulatedDeformConvBackwardMmcv) !=
       nullptr) {
-    auto ret = diopiModulatedDeformConvBackwardMmcv(
-        ch, grad_input_p, grad_weight_p, grad_bias_p, grad_offset_p,
-        grad_mask_p, input_p, weight_p, bias_p, ones_p, offset_p, mask_p,
-        columns_p, grad_output_p, kernel_h, kernel_w, stride_h, stride_w, pad_h,
-        pad_w, dilation_h, dilation_w, group, deformable_group, with_bias);
-    if (ret == diopiSuccess) return;
+    if (strcmp(dipu::VendorTypeToStr(VENDOR_TYPE), "NPU") == 0) {
+      pybind11::gil_scoped_release no_gil;
+      auto ret = diopiModulatedDeformConvBackwardMmcv(
+          ch, grad_input_p, grad_weight_p, grad_bias_p, grad_offset_p,
+          grad_mask_p, input_p, weight_p, bias_p, ones_p, offset_p, mask_p,
+          columns_p, grad_output_p, kernel_h, kernel_w, stride_h, stride_w,
+          pad_h, pad_w, dilation_h, dilation_w, group, deformable_group,
+          with_bias);
+      if (ret == diopiSuccess) return;
+    } else {
+      auto ret = diopiModulatedDeformConvBackwardMmcv(
+          ch, grad_input_p, grad_weight_p, grad_bias_p, grad_offset_p,
+          grad_mask_p, input_p, weight_p, bias_p, ones_p, offset_p, mask_p,
+          columns_p, grad_output_p, kernel_h, kernel_w, stride_h, stride_w,
+          pad_h, pad_w, dilation_h, dilation_w, group, deformable_group,
+          with_bias);
+      if (ret == diopiSuccess) return;
+    }
   }
   LOG(WARNING) << "Fallback to cpu: mmcv ext op modulated_deform_conv_forward";
   auto input_cpu = input.cpu();
diff --git a/mmcv/ops/csrc/pytorch/nms.cpp b/mmcv/ops/csrc/pytorch/nms.cpp
@@ -5,10 +5,14 @@
 #include <diopi/diopirt.h>
 #include <diopi/functions.h>
 #include <diopi/functions_mmcv.h>
+#include <torch/csrc/utils/pybind.h>
 
 #include "csrc_dipu/base/basedef.h"
 #include "csrc_dipu/diopirt/diopirt_impl.h"
+#include "csrc_dipu/runtime/device/deviceapis.h"
+#include "csrc_dipu/utils/helpfunc.hpp"
 
+using dipu::VENDOR_TYPE;
 using dipu::diopi_helper::toDiopiScalar;
 using dipu::diopi_helper::toDiopiTensorHandle;
 #endif
@@ -45,11 +49,21 @@ Tensor nms_diopi(Tensor boxes, Tensor scores, float iou_threshold, int offset) {
   auto scores_p = toDiopiTensorHandle(scores);
   bool is_mock_cuda = boxes.device().type() == dipu::DIPU_DEVICE_TYPE;
   if (is_mock_cuda && reinterpret_cast<void*>(diopiNmsMmcv) != nullptr) {
-    auto ret =
-        diopiNmsMmcv(ch, outhandle, boxes_p, scores_p, iou_threshold, offset);
-    if (ret == diopiSuccess) {
-      auto tensorhandle = reinterpret_cast<Tensor*>(*outhandle);
-      return *tensorhandle;
+    if (strcmp(dipu::VendorTypeToStr(VENDOR_TYPE), "NPU") == 0) {
+      pybind11::gil_scoped_release no_gil;
+      auto ret =
+          diopiNmsMmcv(ch, outhandle, boxes_p, scores_p, iou_threshold, offset);
+      if (ret == diopiSuccess) {
+        auto tensorhandle = reinterpret_cast<Tensor*>(*outhandle);
+        return *tensorhandle;
+      }
+    } else {
+      auto ret =
+          diopiNmsMmcv(ch, outhandle, boxes_p, scores_p, iou_threshold, offset);
+      if (ret == diopiSuccess) {
+        auto tensorhandle = reinterpret_cast<Tensor*>(*outhandle);
+        return *tensorhandle;
+      }
     }
   }
   LOG(WARNING) << "Fallback to cpu: mmcv ext op nms";
diff --git a/mmcv/ops/csrc/pytorch/roi_align.cpp b/mmcv/ops/csrc/pytorch/roi_align.cpp
@@ -5,10 +5,14 @@
 #include <diopi/diopirt.h>
 #include <diopi/functions.h>
 #include <diopi/functions_mmcv.h>
+#include <torch/csrc/utils/pybind.h>
 
 #include "csrc_dipu/base/basedef.h"
 #include "csrc_dipu/diopirt/diopirt_impl.h"
+#include "csrc_dipu/runtime/device/deviceapis.h"
+#include "csrc_dipu/utils/helpfunc.hpp"
 
+using dipu::VENDOR_TYPE;
 using dipu::diopi_helper::toDiopiScalar;
 using dipu::diopi_helper::toDiopiTensorHandle;
 #endif
@@ -56,10 +60,18 @@ void roi_align_forward_diopi(Tensor input, Tensor rois, Tensor output,
   auto argmax_x_p = toDiopiTensorHandle(argmax_x);
   bool is_mock_cuda = input.device().type() == dipu::DIPU_DEVICE_TYPE;
   if (is_mock_cuda && reinterpret_cast<void *>(diopiRoiAlignMmcv) != nullptr) {
-    auto ret = diopiRoiAlignMmcv(
-        ch, out_p, argmax_y_p, argmax_x_p, input_p, rois_p, aligned_height,
-        aligned_width, sampling_ratio, pool_mode, spatial_scale, aligned);
-    if (ret == diopiSuccess) return;
+    if (strcmp(dipu::VendorTypeToStr(VENDOR_TYPE), "NPU") == 0) {
+      pybind11::gil_scoped_release no_gil;
+      auto ret = diopiRoiAlignMmcv(
+          ch, out_p, argmax_y_p, argmax_x_p, input_p, rois_p, aligned_height,
+          aligned_width, sampling_ratio, pool_mode, spatial_scale, aligned);
+      if (ret == diopiSuccess) return;
+    } else {
+      auto ret = diopiRoiAlignMmcv(
+          ch, out_p, argmax_y_p, argmax_x_p, input_p, rois_p, aligned_height,
+          aligned_width, sampling_ratio, pool_mode, spatial_scale, aligned);
+      if (ret == diopiSuccess) return;
+    }
   }
   LOG(WARNING) << "Fallback to cpu: mmcv ext op roi_align_forward";
   auto input_cpu = input.cpu();
@@ -96,11 +108,20 @@ void roi_align_backward_diopi(Tensor grad_output, Tensor rois, Tensor argmax_y,
   bool is_mock_cuda = grad_output.device().type() == dipu::DIPU_DEVICE_TYPE;
   if (is_mock_cuda &&
       reinterpret_cast<void *>(diopiRoiAlignBackwardMmcv) != nullptr) {
-    auto ret = diopiRoiAlignBackwardMmcv(ch, grad_input_, grad_output_, rois_,
-                                         argmax_y_, argmax_x_, aligned_height,
-                                         aligned_width, sampling_ratio,
-                                         pool_mode, spatial_scale, aligned);
-    if (ret == diopiSuccess) return;
+    if (strcmp(dipu::VendorTypeToStr(VENDOR_TYPE), "NPU") == 0) {
+      pybind11::gil_scoped_release no_gil;
+      auto ret = diopiRoiAlignBackwardMmcv(ch, grad_input_, grad_output_, rois_,
+                                           argmax_y_, argmax_x_, aligned_height,
+                                           aligned_width, sampling_ratio,
+                                           pool_mode, spatial_scale, aligned);
+      if (ret == diopiSuccess) return;
+    } else {
+      auto ret = diopiRoiAlignBackwardMmcv(ch, grad_input_, grad_output_, rois_,
+                                           argmax_y_, argmax_x_, aligned_height,
+                                           aligned_width, sampling_ratio,
+                                           pool_mode, spatial_scale, aligned);
+      if (ret == diopiSuccess) return;
+    }
   }
   LOG(WARNING) << "Fallback to cpu: mmcv ext op roi_align_backward";
   auto grad_output_cpu = grad_output.cpu();
diff --git a/mmcv/ops/csrc/pytorch/voxelization.cpp b/mmcv/ops/csrc/pytorch/voxelization.cpp
@@ -5,9 +5,13 @@
 #include <diopi/diopirt.h>
 #include <diopi/functions.h>
 #include <diopi/functions_mmcv.h>
+#include <torch/csrc/utils/pybind.h>
 
 #include "csrc_dipu/diopirt/diopirt_impl.h"
+#include "csrc_dipu/runtime/device/deviceapis.h"
+#include "csrc_dipu/utils/helpfunc.hpp"
 
+using dipu::VENDOR_TYPE;
 using dipu::diopi_helper::toDiopiScalar;
 using dipu::diopi_helper::toDiopiTensorHandle;
 #endif
@@ -84,11 +88,20 @@ void hard_voxelize_forward_diopi(const at::Tensor &points,
   auto num_points_per_voxel_p = toDiopiTensorHandle(num_points_per_voxel);
   auto voxel_num_p = toDiopiTensorHandle(voxel_num);
   if (reinterpret_cast<void *>(diopiHardVoxelizeMmcv) != nullptr) {
-    auto ret = diopiHardVoxelizeMmcv(
-        ch, voxels_p, coors_p, num_points_per_voxel_p, voxel_num_p, points_p,
-        voxel_size_p, coors_range_p, max_points, max_voxels, NDim,
-        deterministic);
-    if (ret == diopiSuccess) return;
+    if (strcmp(dipu::VendorTypeToStr(VENDOR_TYPE), "NPU") == 0) {
+      pybind11::gil_scoped_release no_gil;
+      auto ret = diopiHardVoxelizeMmcv(
+          ch, voxels_p, coors_p, num_points_per_voxel_p, voxel_num_p, points_p,
+          voxel_size_p, coors_range_p, max_points, max_voxels, NDim,
+          deterministic);
+      if (ret == diopiSuccess) return;
+    } else {
+      auto ret = diopiHardVoxelizeMmcv(
+          ch, voxels_p, coors_p, num_points_per_voxel_p, voxel_num_p, points_p,
+          voxel_size_p, coors_range_p, max_points, max_voxels, NDim,
+          deterministic);
+      if (ret == diopiSuccess) return;
+    }
   }
   LOG(WARNING) << "Fallback to cpu: mmcv ext op hard_voxelize_forward";
   auto points_cpu = points.cpu();
@@ -146,9 +159,16 @@ void dynamic_voxelize_forward_diopi(const at::Tensor &points,
   auto coors_range_p = toDiopiTensorHandle(coors_range);
   auto coors_p = toDiopiTensorHandle(coors);
   if (reinterpret_cast<void *>(diopiDynamicVoxelizeMmcv) != nullptr) {
-    auto ret = diopiDynamicVoxelizeMmcv(ch, coors_p, points_p, voxel_size_p,
-                                        coors_range_p, NDim);
-    if (ret == diopiSuccess) return;
+    if (strcmp(dipu::VendorTypeToStr(VENDOR_TYPE), "NPU") == 0) {
+      pybind11::gil_scoped_release no_gil;
+      auto ret = diopiDynamicVoxelizeMmcv(ch, coors_p, points_p, voxel_size_p,
+                                          coors_range_p, NDim);
+      if (ret == diopiSuccess) return;
+    } else {
+      auto ret = diopiDynamicVoxelizeMmcv(ch, coors_p, points_p, voxel_size_p,
+                                          coors_range_p, NDim);
+      if (ret == diopiSuccess) return;
+    }
   }
   LOG(WARNING) << "Fallback to cpu: mmcv ext op dynamic_voxelize_forward";
   auto points_cpu = points.cpu();
diff --git a/setup.py b/setup.py
@@ -244,10 +244,12 @@ def get_extensions():
             dipu_path = os.getenv('DIPU_PATH')
             vendor_include_dirs = os.getenv('VENDOR_INCLUDE_DIRS')
             nccl_include_dirs = os.getenv('NCCL_INCLUDE_DIRS')
+            pytorch_dir = os.getenv('PYTORCH_DIR')
             include_dirs.append(dipu_root)
             include_dirs.append(diopi_path + '/include')
             include_dirs.append(dipu_path + '/dist/include')
             include_dirs.append(vendor_include_dirs)
+            include_dirs.append(pytorch_dir + 'torch/include')
             if nccl_include_dirs:
                 include_dirs.append(nccl_include_dirs)
             library_dirs += [dipu_root]