[ascend]Zzf/linear (#1231)

zhangzefeng92 · NeosZhang · web-flow · commit d820aad9536f · 2024-06-12T21:20:45.000+08:00
* reimpl linear with aclnn

---------

Co-authored-by: NeosZhang &lt;zhangqiu1994@outlook.com&gt;
diff --git a/impl/ascend/aclnn/adaptor.hpp b/impl/ascend/aclnn/adaptor.hpp
@@ -275,7 +275,7 @@ void callAclnnImpl(diopiContextHandle_t ctx, const Args&... args) {
 
     /* 1. call xxxGetWorkspaceSize function. */
     static const auto workspaceSizeFuncAddr = getOpApiFuncAddr(workspaceApi);
-    ASCEND_CHECK_ABORT(workspaceSizeFuncAddr != nullptr, "[%s] can't get workSpaceName function.", api);
+    ASCEND_CHECK_THROW(workspaceSizeFuncAddr != nullptr, "[%s] can't get workSpaceName function.", api);
     using WorkspaceSizeFuncType = int (*)(std::decay_t<decltype(convertType(std::declval<Args>()))>..., uint64_t*, aclOpExecutor**);
     static const auto workspaceSizeFunc = reinterpret_cast<WorkspaceSizeFuncType>(workspaceSizeFuncAddr);
 
@@ -288,18 +288,18 @@ void callAclnnImpl(diopiContextHandle_t ctx, const Args&... args) {
     aclOpExecutor* executor = nullptr;
     auto convertedParams = convertParams(args...);
     auto workspaceStatus = std::apply(workspaceSizeFunc, std::tuple_cat(convertedParams.params(), std::make_tuple(&workspaceSize, &executor)));
-    ASCEND_CHECK_ABORT(workspaceStatus == ACL_SUCCESS, "[%s]'s workspaceStatus is not equal to ACL_SUCCESS. aclnnStatus is %d.", api, workspaceStatus);
+    ASCEND_CHECK_THROW(workspaceStatus == ACL_SUCCESS, "[%s]'s workspaceStatus is not equal to ACL_SUCCESS. aclnnStatus is %d.", api, workspaceStatus);
 
     AclWorkspace workspace(ctx, workspaceSize);
 
     /* 2. call aclnnXXX function */
     static const auto opApiFuncAddr = getOpApiFuncAddr(api);
-    ASCEND_CHECK_ABORT(opApiFuncAddr != nullptr, "[%s] can't get op function.", api);
+    ASCEND_CHECK_THROW(opApiFuncAddr != nullptr, "[%s] can't get op function.", api);
     using OpApiFuncType = int (*)(void*, uint64_t, aclOpExecutor*, aclrtStream);
     static const auto opApiFunc = reinterpret_cast<OpApiFuncType>(opApiFuncAddr);
 
     auto ret = opApiFunc(workspace.addr(), workspaceSize, executor, stream);
-    ASCEND_CHECK_ABORT(ret == ACL_SUCCESS, "[%s] failed. aclnnStatus is %d.", api, ret);
+    ASCEND_CHECK_THROW(ret == ACL_SUCCESS, "[%s] failed. aclnnStatus is %d.", api, ret);
 }
 
 #define DIOPI_ASCEND_CALL_ACLNN(api, ctx, ...)                                                       \
diff --git a/impl/ascend/ascend_tensor.hpp b/impl/ascend/ascend_tensor.hpp
@@ -60,6 +60,16 @@ namespace ascend {
         }                                                             \
     } while (0);
 
+#define ASCEND_CHECK_THROW(condition, ...)                                                        \
+    do {                                                                                          \
+        if (!(condition)) {                                                                       \
+            printf("[%s:%s:%d]: ", __FILE__, __FUNCTION__, __LINE__);                             \
+            printf(__VA_ARGS__);                                                                  \
+            printf("\n");                                                                         \
+            throw std::runtime_error(std::string("ascend device error:") + aclGetRecentErrMsg()); \
+        }                                                                                         \
+    } while (0);
+
 #define ASCEND_CHECK_NULLPTR_ABORT(ptr) ASCEND_CHECK_ABORT(ptr, "Variable is nullptr, pls check.")
 
 inline void error(const char* file, int lineNum, const char* funcName, const char* format, ...) {
diff --git a/impl/ascend/functions/linear.cpp b/impl/ascend/functions/linear.cpp
@@ -4,111 +4,69 @@
  * @copyright  (c) 2023, DeepLink.
  */
 
-#include <numeric>
-
-#include "../common/acloprunner.hpp"
+#include "../aclnn/acl_scalar.hpp"
+#include "../aclnn/adaptor.hpp"
 
 namespace impl {
 namespace ascend {
 diopiError_t diopiLinear(diopiContextHandle_t ctx, diopiTensorHandle_t out, diopiConstTensorHandle_t input, diopiConstTensorHandle_t weight,
                          diopiConstTensorHandle_t bias) {
-    // convert inputs to AscendTensor
-    AscendTensor inputCopy(input);
-    AscendTensor outputCopy(out);
-    AscendTensor weightCopy(weight);
-    const std::vector<int64_t> outputPrimaryShape = outputCopy.shape();
-
-    if (inputCopy.numel() == 0 || weightCopy.numel() == 0) {
-        diopiScalar_t zero = constructDiopiScalarT(outputCopy.dtype(), 0.0);
-        diopiFill(ctx, out, &zero);
-        return diopiSuccess;
-    }
-
-    // mm's input matrix must be 2D, it needs to be converted if it isn't
-    if (inputCopy.shape().size() > 2) {
-        transTensorTo2D(ctx, inputCopy);
-    }
-    if (outputCopy.shape().size() > 2) {
-        transTensorTo2D(ctx, outputCopy);
+    diopiTensorHandle_t weightT;
+    diopiSize_t weightSize;
+    diopiGetTensorShape(weight, &weightSize);
+    diopiDtype_t weightDtype;
+    diopiGetTensorDtype(weight, &weightDtype);
+    std::vector<int64_t> weightTShape(weightSize.data, weightSize.data + weightSize.len);
+    weightTShape[weightSize.len - 1] = weightSize.data[weightSize.len - 2];
+    weightTShape[weightSize.len - 2] = weightSize.data[weightSize.len - 1];
+    diopiSize_t weightTSize = {weightTShape.data(), static_cast<int64_t>(weightTShape.size())};
+    diopiRequireTensor(ctx, &weightT, &weightTSize, nullptr, weightDtype, diopi_device);
+    std::vector<int64_t> dims = {1, 0};
+    DIOPI_ASCEND_CALL_ACLNN(aclnnPermute, ctx, weight, dims, weightT);
+    DIOPI_ASCEND_CALL_ACLNN(aclnnMatmul, ctx, input, weightT, out, 0);
+
+    if (nullptr != bias) {
+        diopiDtype_t outDtype;
+        diopiGetTensorDtype(out, &outDtype);
+        diopiScalar_t alpha = constructDiopiScalarT(outDtype, 1);
+        DIOPI_ASCEND_CALL_ACLNN(aclnnInplaceAdd, ctx, out, bias, &alpha);
     }
 
-    AclOpRunner<3, 1> runner("MatMulV2", ctx);
-    runner.addInput(inputCopy).addInput(weightCopy).setAttr<uint8_t>("transpose_x1", false).setAttr<uint8_t>("transpose_x2", true).addOutput(outputCopy);
-
-    // if bias is not nullptr, also add bias to input
-    if (bias) {
-        runner.addInput(bias);
-    }
-    runner.run();
-
     return diopiSuccess;
 }
 
 diopiError_t diopiLinearBackward(diopiContextHandle_t ctx, diopiTensorHandle_t gradInput, diopiTensorHandle_t gradWeight, diopiTensorHandle_t gradBias,
                                  diopiConstTensorHandle_t gradOutput, diopiConstTensorHandle_t input, diopiConstTensorHandle_t weight) {
-    AscendTensor gradWeightCopy(gradWeight);
-    AscendTensor gradOutputCopy(gradOutput);
-    AscendTensor inputCopy(input);
-    AscendTensor weightCopy(weight);
-
-    const std::vector<int64_t> gradInputPrimaryShape = inputCopy.shape();
-    bool transTensorTo2DFalg = false;
-
-    if (gradOutputCopy.numel() == 0 || weightCopy.numel() == 0 || inputCopy.numel() == 0) {
-        diopiScalar_t zero = constructDiopiScalarT(inputCopy.dtype(), 0.0);
-        diopiFill(ctx, gradInput, &zero);
-        diopiFill(ctx, gradWeight, &zero);
-        diopiFill(ctx, gradBias, &zero);
-        return diopiSuccess;
-    }
-
-    if (weightCopy.shape().size() > 2) transTensorTo2D(ctx, weightCopy);
-    if (gradOutputCopy.shape().size() > 2) transTensorTo2D(ctx, gradOutputCopy);
-
     if (nullptr != gradInput) {
-        AscendTensor gradInputCopy(gradInput);
-        if (inputCopy.shape().size() > 2) {
-            transTensorTo2DFalg = true;
-            transTensorTo2D(ctx, gradInputCopy);
-        }
-
-        AclOpRunner<2, 1>("MatMul", ctx)
-            .addInput(gradOutputCopy)
-            .addInput(weightCopy)
-            .setAttr<uint8_t>("transpose_x1", false)
-            .setAttr<uint8_t>("transpose_x2", false)
-            .addOutput(gradInputCopy)
-            .run();
-
-        if (transTensorTo2DFalg) {
-            gradInputCopy.view(gradInputPrimaryShape);
-        }
+        DIOPI_ASCEND_CALL_ACLNN(aclnnMatmul, ctx, gradOutput, weight, gradInput, 0);
     }
 
-    if (inputCopy.shape().size() > 2) transTensorTo2D(ctx, inputCopy);
-
     if (nullptr != gradWeight) {
-        if (gradWeightCopy.shape().size() > 2) transTensorTo2D(ctx, gradWeightCopy);
-
-        AclOpRunner<2, 1>("MatMul", ctx)
-            .addInput(gradOutputCopy)
-            .addInput(inputCopy)
-            .setAttr<uint8_t>("transpose_x1", true)
-            .setAttr<uint8_t>("transpose_x2", false)
-            .addOutput(gradWeightCopy)
-            .run();
+        AscendTensor input2D(input);
+        if (input2D.dim() > 2) transTensorTo2D(ctx, input2D);
+        AscendTensor gradOutput2D(gradOutput);
+        if (gradOutput2D.dim() > 2) transTensorTo2D(ctx, gradOutput2D);
+
+        diopiTensorHandle_t gradOutput2DT;
+        std::vector<int64_t> gradOutput2DTShape = {gradOutput2D.shape()[1], gradOutput2D.shape()[0]};
+        diopiSize_t gradOutput2DTSize = {gradOutput2DTShape.data(), static_cast<int64_t>(gradOutput2DTShape.size())};
+        diopiRequireTensor(ctx, &gradOutput2DT, &gradOutput2DTSize, nullptr, gradOutput2D.dtype(), diopi_device);
+
+        std::vector<int64_t> dims = {1, 0};
+        DIOPI_ASCEND_CALL_ACLNN(aclnnPermute, ctx, gradOutput2D, dims, gradOutput2DT);
+        DIOPI_ASCEND_CALL_ACLNN(aclnnMatmul, ctx, gradOutput2DT, input2D, gradWeight, 0);
     }
 
-    AscendTensor reshapedGradOutputCopy;
-    makeTensorLike(ctx, reshapedGradOutputCopy, gradOutputCopy, gradOutputCopy.dtype());
-    reshape(ctx, gradOutputCopy, reshapedGradOutputCopy, gradOutputCopy.shape());
+    if (nullptr != gradBias) {
+        diopiSize_t gradOutputSize;
+        diopiGetTensorShape(gradOutput, &gradOutputSize);
+        std::vector<int64_t> dims(gradOutputSize.len - 1);
+        std::iota(std::begin(dims), std::end(dims), 0);
 
-    diopiTensorHandle_t diopiGradOutputCopy = const_cast<diopiTensorHandle_t>(reshapedGradOutputCopy.tensorHandle());
-    if (gradBias) {
-        std::vector<int64_t> dimVec(gradOutputCopy.shape().size() - 1);
-        std::iota(std::begin(dimVec), std::end(dimVec), 0);
-        diopiSize_t dim = vectorToDiopiSize(dimVec);
-        diopiSum(ctx, gradBias, diopiGradOutputCopy, dim);
+        diopiDtype_t biasDtype;
+        diopiGetTensorDtype(gradBias, &biasDtype);
+        aclDataType dtype = getAclDataType(biasDtype);
+        DIOPI_ASCEND_CALL_ACLNN(aclnnReduceSum, ctx, gradOutput, dims, false, dtype, gradBias);
     }
 
     return diopiSuccess;