remove more GemmDataTypes

yingluAMD · yingluAMD · commit 8370a17e60cb · 2025-09-05T14:16:27.000+08:00
diff --git a/include/ck/tensor_operation/gpu/block/blockwise_gemm_xdlops.hpp b/include/ck/tensor_operation/gpu/block/blockwise_gemm_xdlops.hpp
@@ -38,9 +38,8 @@ template <index_t BlockSize,
           index_t MRepeat,
           index_t NRepeat,
           index_t KPack,
-          typename ComputeTypeA    = FloatA,
-          typename ComputeTypeB    = FloatB,
-          typename ComputeTypeGemm = FloatAcc>
+          typename ComputeTypeA_ = FloatA,
+          typename ComputeTypeB_ = FloatB>
 struct BlockwiseGemmXdlops_k0mk1_k0nk1_m0n0m1n1m2m3m4n2_v1
 {
     static constexpr auto I0 = Number<0>{};
@@ -50,6 +49,11 @@ struct BlockwiseGemmXdlops_k0mk1_k0nk1_m0n0m1n1m2m3m4n2_v1
 
     using ThisThreadBlock = ThisThreadBlock<BlockSize>;
 
+    using ComputeTypeA  = conditional_t<is_same_v<ComputeTypeA_, ck::xf32_t>, float, ComputeTypeA_>;
+    using ComputeTypeB  = conditional_t<is_same_v<ComputeTypeB_, ck::xf32_t>, float, ComputeTypeB_>;
+    using GemmDataTypeA = ComputeTypeA_;
+    using GemmDataTypeB = ComputeTypeB_;
+
     static constexpr index_t MPerBlock = AK0MK1BlockDesc{}.GetLength(I1);
     static constexpr index_t NPerBlock = BK0NK1BlockDesc{}.GetLength(I1);
     static constexpr index_t KPerBlock =
@@ -64,14 +68,8 @@ struct BlockwiseGemmXdlops_k0mk1_k0nk1_m0n0m1n1m2m3m4n2_v1
     static constexpr index_t NWaves   = NPerBlock / (NRepeat * NPerXDL);
     static constexpr index_t WaveSize = BlockSize / MWaves / NWaves;
 
-    static constexpr auto xdlops_gemm = XdlopsGemm<ComputeTypeA,
-                                                   MPerXDL,
-                                                   NPerXDL,
-                                                   KPack,
-                                                   ComputeTypeB,
-                                                   false,
-                                                   false,
-                                                   ComputeTypeGemm>{};
+    static constexpr auto xdlops_gemm =
+        XdlopsGemm<GemmDataTypeA, MPerXDL, NPerXDL, KPack, GemmDataTypeB, false, false>{};
 
     static constexpr index_t KPerThread = KPerBlock / xdlops_gemm.K0PerXdlops;
 
@@ -179,6 +177,12 @@ struct BlockwiseGemmXdlops_k0mk1_k0nk1_m0n0m1n1m2m3m4n2_v1
 
         static_assert(MPerBlock % (MPerXDL * MRepeat) == 0 && NPerBlock % (NPerXDL * NRepeat) == 0,
                       "wrong!");
+        if constexpr(is_same_v<ComputeTypeA, ck::xf32_t> || is_same_v<ComputeTypeB, ck::xf32_t>)
+        {
+            static_assert(
+                is_same_v<ComputeTypeA_, ComputeTypeA_>,
+                "ComputeTypeA and ComputeTypeB must be both xf32_t when one of them is xf32_t");
+        }
     }
 
     __host__ __device__ static constexpr auto GetCThreadDescriptor_M0_N0_M1_N1_M2_M3_M4_N2()
@@ -406,10 +410,9 @@ template <index_t BlockSize,
           index_t MRepeat,
           index_t NRepeat,
           index_t KPack,
-          typename ComputeTypeA    = FloatA,
-          typename ComputeTypeB    = FloatB,
-          index_t NumMacClusters   = CK_EXPERIMENTAL_INTER_WAVE_SCHEDULING_MAC_CLUSTERS,
-          typename ComputeTypeGemm = FloatAcc>
+          typename ComputeTypeA  = FloatA,
+          typename ComputeTypeB  = FloatB,
+          index_t NumMacClusters = CK_EXPERIMENTAL_INTER_WAVE_SCHEDULING_MAC_CLUSTERS>
 struct BlockwiseGemmXdlopsInterwave_k0mk1_k0nk1_m0n0m1n1m2m3m4n2_v1
     : public BlockwiseGemmXdlops_k0mk1_k0nk1_m0n0m1n1m2m3m4n2_v1<BlockSize,
                                                                  FloatA,
@@ -423,8 +426,7 @@ struct BlockwiseGemmXdlopsInterwave_k0mk1_k0nk1_m0n0m1n1m2m3m4n2_v1
                                                                  NRepeat,
                                                                  KPack,
                                                                  ComputeTypeA,
-                                                                 ComputeTypeB,
-                                                                 ComputeTypeGemm>
+                                                                 ComputeTypeB>
 {
     using Base = BlockwiseGemmXdlops_k0mk1_k0nk1_m0n0m1n1m2m3m4n2_v1<BlockSize,
                                                                      FloatA,
@@ -438,8 +440,7 @@ struct BlockwiseGemmXdlopsInterwave_k0mk1_k0nk1_m0n0m1n1m2m3m4n2_v1
                                                                      NRepeat,
                                                                      KPack,
                                                                      ComputeTypeA,
-                                                                     ComputeTypeB,
-                                                                     ComputeTypeGemm>;
+                                                                     ComputeTypeB>;
 
 #if CK_EXPERIMENTAL_INTER_WAVE_SCHEDULING
     using Base::a_block_desc_m0_m1_m2_k;
@@ -610,9 +611,8 @@ template <index_t BlockSize,
           index_t NRepeat,
           index_t KPack,
           LoopScheduler LoopSched,
-          typename ComputeTypeA    = FloatA,
-          typename ComputeTypeB    = FloatB,
-          typename ComputeTypeGemm = FloatAcc>
+          typename ComputeTypeA = FloatA,
+          typename ComputeTypeB = FloatB>
 constexpr auto BlockwiseGemmXdlops_k0mk1_k0nk1_m0n0m1n1m2m3m4n2_Selector()
 {
     if constexpr(LoopSched == LoopScheduler::Default)
@@ -629,8 +629,7 @@ constexpr auto BlockwiseGemmXdlops_k0mk1_k0nk1_m0n0m1n1m2m3m4n2_Selector()
                                                                    NRepeat,
                                                                    KPack,
                                                                    ComputeTypeA,
-                                                                   ComputeTypeB,
-                                                                   ComputeTypeGemm>{};
+                                                                   ComputeTypeB>{};
     }
     else if constexpr(LoopSched == LoopScheduler::Interwave)
     {
@@ -648,8 +647,7 @@ constexpr auto BlockwiseGemmXdlops_k0mk1_k0nk1_m0n0m1n1m2m3m4n2_Selector()
             KPack,
             ComputeTypeA,
             ComputeTypeB,
-            CK_EXPERIMENTAL_INTER_WAVE_SCHEDULING_MAC_CLUSTERS,
-            ComputeTypeGemm>{};
+            CK_EXPERIMENTAL_INTER_WAVE_SCHEDULING_MAC_CLUSTERS>{};
     }
 };
 
diff --git a/include/ck/tensor_operation/gpu/device/impl/device_gemm_xdl_cshuffle_lds_direct_load.hpp b/include/ck/tensor_operation/gpu/device/impl/device_gemm_xdl_cshuffle_lds_direct_load.hpp
@@ -78,7 +78,7 @@ struct DeviceGemm_Xdl_CShuffle_LdsDirectLoad : public DeviceGemm<ALayout,
         ELayout,
         ADataType,
         BDataType,
-        ADataType,
+        ComputeDataType,
         AccDataType,
         CShuffleDataType,
         ck::Tuple<>,
@@ -115,7 +115,6 @@ struct DeviceGemm_Xdl_CShuffle_LdsDirectLoad : public DeviceGemm<ALayout,
         CDEBlockTransferScalarPerVector_NPerBlock,
         LoopSched,
         PipelineVer,
-        BDataType,
         ComputeDataType>;
 
     using Argument = typename GridwiseGemm::Argument;
diff --git a/include/ck/tensor_operation/gpu/grid/gridwise_gemm_multiple_abd_xdl_cshuffle.hpp b/include/ck/tensor_operation/gpu/grid/gridwise_gemm_multiple_abd_xdl_cshuffle.hpp
@@ -107,14 +107,8 @@ struct GridwiseGemmMultipleABD_xdl_cshuffle
     using BComputeDataType =
         conditional_t<is_same_v<BComputeDataType_, ck::half_t>, ck::bhalf_t, BComputeDataType_>;
 #else
-    static constexpr bool is_xf32 = is_same_v<AComputeDataType_, ck::xf32_t>;
-    static_assert(!is_xf32 || is_same_v<AComputeDataType_, BComputeDataType_>,
-                  "A and B compute type should be the same when using xf32_t");
-    using AComputeDataType =
-        conditional_t<is_same_v<AComputeDataType_, ck::xf32_t>, float, AComputeDataType_>;
-    using BComputeDataType =
-        conditional_t<is_same_v<BComputeDataType_, ck::xf32_t>, float, BComputeDataType_>;
-    using GemmDataType = AComputeDataType_;
+    using AComputeDataType = AComputeDataType_;
+    using BComputeDataType = BComputeDataType_;
 #endif
 
     __host__ __device__ static constexpr auto GetABlockDescriptor_AK0PerBlock_MPerBlock_AK1()
@@ -697,8 +691,7 @@ struct GridwiseGemmMultipleABD_xdl_cshuffle
                                                                      NPerXdl,
                                                                      BComputeDataType,
                                                                      is_single_rate_mfma,
-                                                                     is_scale_mfma,
-                                                                     GemmDataType>::selected_mfma.k_per_blk);
+                                                                     is_scale_mfma>::selected_mfma.k_per_blk);
 
         auto blockwise_gemm = BlockwiseGemmXdlops_k0mk1_k0nk1_m0n0m1n1m2m3m4n2_Selector<
             BlockSize,
@@ -714,8 +707,7 @@ struct GridwiseGemmMultipleABD_xdl_cshuffle
             KPack,
             LoopSched,
             AComputeDataType,
-            BComputeDataType,
-            GemmDataType>();
+            BComputeDataType>();
 
         auto c_thread_buf = blockwise_gemm.GetCThreadBuffer();
 
diff --git a/include/ck/tensor_operation/gpu/grid/gridwise_gemm_multiple_d_xdl_cshuffle.hpp b/include/ck/tensor_operation/gpu/grid/gridwise_gemm_multiple_d_xdl_cshuffle.hpp
@@ -107,14 +107,12 @@ struct GridwiseGemmMultipleD_xdl_cshuffle
     using BComputeDataType =
         conditional_t<is_same_v<BComputeDataType_, ck::half_t>, ck::bhalf_t, BComputeDataType_>;
 #else
-    static constexpr bool is_xf32 = is_same_v<AComputeDataType_, ck::xf32_t>;
-    static_assert(!is_xf32 || is_same_v<AComputeDataType_, BComputeDataType_>,
-                  "A and B compute type should be the same when using xf32_t");
     using AComputeDataType =
         conditional_t<is_same_v<AComputeDataType_, ck::xf32_t>, float, AComputeDataType_>;
     using BComputeDataType =
         conditional_t<is_same_v<BComputeDataType_, ck::xf32_t>, float, BComputeDataType_>;
-    using GemmDataType = AComputeDataType_;
+    using GemmDataTypeA = AComputeDataType_;
+    using GemmDataTypeB = BComputeDataType_;
 #endif
 
     __host__ __device__ static constexpr auto GetABlockDescriptor_AK0PerBlock_MPerBlock_AK1()
@@ -661,31 +659,28 @@ struct GridwiseGemmMultipleD_xdl_cshuffle
                 ? true
                 : false;
         constexpr auto is_scale_mfma = false;
-        // todo: GemmDataType
-        constexpr index_t KPack = math::max(lcm_AK1_BK1,
-                                            MfmaSelector<AComputeDataType,
-                                                         MPerXdl,
-                                                         NPerXdl,
-                                                         BComputeDataType,
-                                                         is_single_rate_mfma,
-                                                         is_scale_mfma,
-                                                         GemmDataType>::selected_mfma.k_per_blk);
-        auto blockwise_gemm     = BlockwiseGemmXdlops_k0mk1_k0nk1_m0n0m1n1m2m3m4n2_Selector<
-                BlockSize,
-                AComputeDataType,
-                BComputeDataType,
-                AccDataType,
-                decltype(a_block_desc_ak0_m_ak1),
-                decltype(b_block_desc_bk0_n_bk1),
-                MPerXdl,
-                NPerXdl,
-                MXdlPerWave,
-                NXdlPerWave,
-                KPack,
-                LoopSched,
-                AComputeDataType,
-                BComputeDataType,
-                GemmDataType>();
+        constexpr index_t KPack      = math::max(lcm_AK1_BK1,
+                                            MfmaSelector<GemmDataTypeA,
+                                                              MPerXdl,
+                                                              NPerXdl,
+                                                              GemmDataTypeB,
+                                                              is_single_rate_mfma,
+                                                              is_scale_mfma>::selected_mfma.k_per_blk);
+        auto blockwise_gemm          = BlockwiseGemmXdlops_k0mk1_k0nk1_m0n0m1n1m2m3m4n2_Selector<
+                     BlockSize,
+                     AComputeDataType,
+                     BComputeDataType,
+                     AccDataType,
+                     decltype(a_block_desc_ak0_m_ak1),
+                     decltype(b_block_desc_bk0_n_bk1),
+                     MPerXdl,
+                     NPerXdl,
+                     MXdlPerWave,
+                     NXdlPerWave,
+                     KPack,
+                     LoopSched,
+                     GemmDataTypeA,
+                     GemmDataTypeB>();
 
         auto c_thread_buf = blockwise_gemm.GetCThreadBuffer();
 
diff --git a/include/ck/tensor_operation/gpu/grid/gridwise_gemm_multiple_d_xdl_cshuffle_lds_direct_load.hpp b/include/ck/tensor_operation/gpu/grid/gridwise_gemm_multiple_d_xdl_cshuffle_lds_direct_load.hpp
@@ -140,8 +140,7 @@ template <typename ALayout,
           index_t CDEShuffleBlockTransferScalarPerVector_NPerBlock,
           LoopScheduler LoopSched,
           PipelineVersion PipelineVer = PipelineVersion::v4,
-          typename BComputeDataType   = AComputeDataType_,
-          typename GemmDataType       = EDataType>
+          typename BComputeDataType_  = AComputeDataType_>
 struct GridwiseGemmMultipleD_Xdl_CShuffle_LdsDirectLoad
 {
     static constexpr index_t NumDTensor = DsDataType::Size();
@@ -169,7 +168,12 @@ struct GridwiseGemmMultipleD_Xdl_CShuffle_LdsDirectLoad
     using AComputeDataType =
         conditional_t<is_same_v<AComputeDataType_, ck::half_t>, ck::bhalf_t, AComputeDataType_>;
 #else
-    using AComputeDataType = AComputeDataType_;
+    using AComputeDataType =
+        conditional_t<is_same_v<AComputeDataType_, ck::xf32_t>, float, AComputeDataType_>;
+    using BComputeDataType =
+        conditional_t<is_same_v<BComputeDataType_, ck::xf32_t>, float, BComputeDataType_>;
+    using GemmDataTypeA = AComputeDataType_;
+    using GemmDataTypeB = BComputeDataType_;
 #endif
 
     __host__ __device__ static constexpr auto GetABlockDescriptor_AK0PerBlock_MPerBlock_AK1()
@@ -633,13 +637,12 @@ struct GridwiseGemmMultipleD_Xdl_CShuffle_LdsDirectLoad
         constexpr auto is_scale_mfma = false;
 
         constexpr index_t KPack = math::max(lcm_AK1_BK1,
-                                            MfmaSelector<AComputeDataType,
+                                            MfmaSelector<GemmDataTypeA,
                                                          MPerXdl,
                                                          NPerXdl,
-                                                         BComputeDataType,
+                                                         GemmDataTypeB,
                                                          is_single_rate_mfma,
-                                                         is_scale_mfma,
-                                                         GemmDataType>::selected_mfma.k_per_blk);
+                                                         is_scale_mfma>::selected_mfma.k_per_blk);
 
         auto blockwise_gemm = BlockwiseGemmXdlops_k0mk1_k0nk1_m0n0m1n1m2m3m4n2_Selector<
             BlockSize,
@@ -654,9 +657,8 @@ struct GridwiseGemmMultipleD_Xdl_CShuffle_LdsDirectLoad
             NXdlPerWave,
             KPack,
             LoopSched,
-            AComputeDataType_,
-            BComputeDataType,
-            GemmDataType>();
+            GemmDataTypeA,
+            GemmDataTypeB>();
 
         auto c_thread_buf = blockwise_gemm.GetCThreadBuffer();
 
diff --git a/include/ck/tensor_operation/gpu/warp/xdlops_gemm.hpp b/include/ck/tensor_operation/gpu/warp/xdlops_gemm.hpp