Fix alpha handling of GPU reformatter

tongyuantongyu · tongyuantongyu · commit 8687970c1b76 · 2023-02-24T22:04:29.000+08:00
diff --git a/reformat/reformat.cu b/reformat/reformat.cu
@@ -127,13 +127,8 @@ void import_pixel_cuda(md_view<F, 3> dst,
     import_opaque_kernel<<<dimGrid, dimBlock, 0, stream>>>(dst, src, F(a), F(b));
   }
   else {
-    if (c == 4) {
-      import_alpha_kernel<<<dimGrid, dimBlock, 0, stream>>>(dst, dst_alpha, src, F(a), F(b));
-    }
-    else {
-      import_opaque_kernel<<<dimGrid, dimBlock, 0, stream>>>(dst, src, F(a), F(b));
-      cudaMemsetAsync(dst_alpha.data, 0, dst_alpha.size() * sizeof(F), stream);
-    }
+    assert(src.shape[2] == 4);
+    import_alpha_kernel<<<dimGrid, dimBlock, 0, stream>>>(dst, dst_alpha, src, F(a), F(b));
   }
 }
 
diff --git a/reformat/reformat.h b/reformat/reformat.h
@@ -218,6 +218,30 @@ std::string pixel_importer_cpu::import_alpha(md_view<float, 3> dst,
   return "";
 }
 
+
+template<typename T>
+std::string pixel_exporter_cpu::fetch_alpha(md_view<const float, 3> src, cudaStream_t stream) {
+  auto [c, h, w] = src.shape;
+
+  if (h * w > max_size) {
+    return "dimension too big";
+  }
+
+  auto err = cudaMemcpyAsync(buffer_alpha.get(), src.data, h * w * 4, cudaMemcpyDeviceToHost, stream);
+  if (err != cudaSuccess) {
+    return std::string("CUDA error: ") + cudaGetErrorName(err);
+  }
+
+  err = cudaStreamSynchronize(stream);
+  if (err != cudaSuccess) {
+    return std::string("CUDA error: ") + cudaGetErrorName(err);
+  }
+
+  current_buffer_shape = src.shape;
+  alpha_filled = true;
+  return "";
+}
+
 template<std::unsigned_integral U>
 std::string pixel_exporter_cpu::fetch_color(md_view<const float, 3> src,
                                             md_uview<U, 3> dst,
@@ -320,29 +344,6 @@ std::string pixel_exporter_cpu::fetch_color(md_view<const float, 3> src,
   return "";
 }
 
-template<typename T>
-std::string pixel_exporter_cpu::fetch_alpha(md_view<const float, 3> src, cudaStream_t stream) {
-  auto [c, h, w] = src.shape;
-
-  if (h * w > max_size) {
-    return "dimension too big";
-  }
-
-  auto err = cudaMemcpyAsync(buffer_alpha.get(), src.data, h * w * 4, cudaMemcpyDeviceToHost, stream);
-  if (err != cudaSuccess) {
-    return std::string("CUDA error: ") + cudaGetErrorName(err);
-  }
-
-  err = cudaStreamSynchronize(stream);
-  if (err != cudaSuccess) {
-    return std::string("CUDA error: ") + cudaGetErrorName(err);
-  }
-
-  current_buffer_shape = src.shape;
-  alpha_filled = true;
-  return "";
-}
-
 // -----------------------------------------------------------------------------
 // GPU part
 
@@ -523,7 +524,7 @@ std::string pixel_exporter_gpu<F, eSize>::fetch_alpha(md_view<const F, 3> src, c
     return "dimension too big";
   }
 
-  auto err = cudaMemcpyAsync(gpu_buffer_alpha, src.data, h * w, cudaMemcpyDeviceToDevice, stream);
+  auto err = cudaMemcpyAsync(gpu_buffer_alpha, src.data, h * w * sizeof(F), cudaMemcpyDeviceToDevice, stream);
   if (err != cudaSuccess) {
     return std::string("CUDA error: ") + cudaGetErrorName(err);
   }

Original file line number	Diff line number	Diff line change
`@@ -127,13 +127,8 @@ void import_pixel_cuda(md_view<F, 3> dst,`
`127`	`127`	`import_opaque_kernel<<<dimGrid, dimBlock, 0, stream>>>(dst, src, F(a), F(b));`
`128`	`128`	`}`
`129`	`129`	`else {`
`130`		`- if (c == 4) {`
`131`		`- import_alpha_kernel<<<dimGrid, dimBlock, 0, stream>>>(dst, dst_alpha, src, F(a), F(b));`
`132`		`- }`
`133`		`- else {`
`134`		`- import_opaque_kernel<<<dimGrid, dimBlock, 0, stream>>>(dst, src, F(a), F(b));`
`135`		`- cudaMemsetAsync(dst_alpha.data, 0, dst_alpha.size() * sizeof(F), stream);`
`136`		`- }`
	`130`	`+ assert(src.shape[2] == 4);`
	`131`	`+ import_alpha_kernel<<<dimGrid, dimBlock, 0, stream>>>(dst, dst_alpha, src, F(a), F(b));`
`137`	`132`	`}`
`138`	`133`	`}`
`139`	`134`