Update ck (#144799)

Updates the CK version and re-implements kernel generation Pull Request resolved: https://github.com/pytorch/pytorch/pull/144799 Approved by: https://github.com/jianyuh
2025-10-20 12:54:11 +08:00 · 2025-02-18 17:00:27 +00:00
parent a00d2b5144
commit 5d675de754
1818 changed files with 260 additions and 233944 deletions
--- a/.gitignore
+++ b/.gitignore
@ -125,6 +125,13 @@ torch/utils/benchmark/utils/valgrind_wrapper/callgrind.h
 torch/utils/benchmark/utils/valgrind_wrapper/valgrind.h
 torch/version.py
 minifier_launcher.py
+aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_fwd_d*
+aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_bwd_d*
+aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_bwd_convert*
+aten/src/ATen/native/transformers/hip/flash_attn/ck/fwd_blob*
+aten/src/ATen/native/transformers/hip/flash_attn/ck/bwd_blob*
+aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_fwd_api*
+aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_bwd_api*
 # Root level file used in CI to specify certain env configs.
 # E.g., see .circleci/config.yaml
 env
--- a/aten/src/ATen/CMakeLists.txt
+++ b/aten/src/ATen/CMakeLists.txt
@ -183,6 +183,8 @@ if(USE_FLASH_ATTENTION)
          endif()
        endif()
        message(STATUS "USE_CK_FLASH_ATTENTION is set; building PyTorch with CK Flash Attention enabled")
+        message(STATUS "Generating CK kernel instances...")
+        add_subdirectory(native/transformers/hip/flash_attn/ck)
        file(GLOB flash_attention_hip_ck_hip "native/transformers/hip/flash_attn/ck/*.hip")
        list(APPEND native_transformers_hip_hip ${flash_attention_hip_ck_hip})
      endif()
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/CMakeLists.txt
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/CMakeLists.txt
@ -0,0 +1,63 @@
+# generate a list of kernels, but not actually emit files at config stage
+execute_process(
+  COMMAND python3 ${CMAKE_CURRENT_LIST_DIR}/../../../../../../../../third_party/composable_kernel/example/ck_tile/01_fmha/generate.py
+  --api fwd --receipt 4 --list_blobs ${CMAKE_CURRENT_LIST_DIR}/fwd_blob_list.txt
+  RESULT_VARIABLE ret
+)
+
+if(ret AND NOT ret EQUAL 0)
+  message( FATAL_ERROR "CK Tile FMHA FAILED to generate a list of FWD kernels via Python.")
+endif()
+
+execute_process(
+  COMMAND python3 ${CMAKE_CURRENT_LIST_DIR}/../../../../../../../../third_party/composable_kernel/example/ck_tile/01_fmha/generate.py
+  --api bwd --receipt 4 --list_blobs ${CMAKE_CURRENT_LIST_DIR}/bwd_blob_list.txt
+  RESULT_VARIABLE ret
+)
+
+if(ret AND NOT ret EQUAL 0)
+  message( FATAL_ERROR "CK Tile FMHA FAILED to generate a list of BWD kernels via Python.")
+endif()
+
+# Generate the files for both fwd and bwd
+execute_process(COMMAND python3 ${CMAKE_CURRENT_LIST_DIR}/../../../../../../../../third_party/composable_kernel/example/ck_tile/01_fmha/generate.py --api fwd --receipt 4 --output_dir ${CMAKE_CURRENT_LIST_DIR}
+)
+
+if(ret AND NOT ret EQUAL 0)
+  message( FATAL_ERROR "CK Tile FMHA FAILED to generate FWD kernels.")
+endif()
+
+execute_process(COMMAND python3 ${CMAKE_CURRENT_LIST_DIR}/../../../../../../../../third_party/composable_kernel/example/ck_tile/01_fmha/generate.py --api bwd --receipt 4 --output_dir ${CMAKE_CURRENT_LIST_DIR}
+  RESULT_VARIABLE ret
+)
+
+if(ret AND NOT ret EQUAL 0)
+  message( FATAL_ERROR "CK Tile FMHA FAILED to generate BWD kernels.")
+endif()
+
+# Change make_kernel to make_kernel_pt for fwd
+execute_process(
+  COMMAND bash -c "${CMAKE_CURRENT_LIST_DIR}/add_make_kernel_pt.sh ${CMAKE_CURRENT_LIST_DIR}/fwd_blob_list.txt"
+  RESULT_VARIABLE ret)
+
+if(ret AND NOT ret EQUAL 0)
+  message( FATAL_ERROR "CK Tile FMHA FAILED to change make_kernel to make_kernel_pt for the fwd pass")
+endif()
+
+# Change make_kernel to make_kernel_pt for bwd
+execute_process(
+  COMMAND bash -c "${CMAKE_CURRENT_LIST_DIR}/add_make_kernel_pt.sh ${CMAKE_CURRENT_LIST_DIR}/bwd_blob_list.txt"
+  RESULT_VARIABLE ret)
+
+if(ret AND NOT ret EQUAL 0)
+  message( FATAL_ERROR "CK Tile FMHA FAILED to change make_kernel to make_kernel_pt for the bwd pass")
+endif()
+
+# Change file extensions to .hip
+execute_process(COMMAND bash -c "for file in ${CMAKE_CURRENT_LIST_DIR}/*.cpp; do mv -- \"$file\" \"\${file%.cpp}.hip\"; done"
+  RESULT_VARIABLE ret
+)
+
+if(ret AND NOT ret EQUAL 0)
+  message( FATAL_ERROR "CK Tile FMHA FAILED to change the generated instances extensions from .cpp to .hpp")
+endif()
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/add_make_kernel_pt.sh
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/add_make_kernel_pt.sh
@ -0,0 +1,30 @@
+#!/bin/bash
+
+# Check if the input file is provided
+if [ "$#" -ne 1 ]; then
+    echo "Usage: $0 <file_list.txt>"
+    exit 1
+fi
+
+# Assign the input file to a variable
+file_list=$1
+
+# Check if the file exists
+if [ ! -f "$file_list" ]; then
+    echo "Error: File '$file_list' not found!"
+    exit 1
+fi
+
+# Loop through each line in the file list
+while IFS= read -r file; do
+    # Check if the file exists in the current directory
+    if [ -f "$file" ]; then
+        # Use sed to replace "make_kernel" with "make_kernel_pt" in place
+        sed -i 's/make_kernel/make_kernel_pt/g' "$file"
+        echo "Updated: $file"
+    else
+        echo "Skipping: $file (not found)"
+    fi
+done < "$file_list"
+
+echo "Replacement completed."
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_bwd.hpp
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_bwd.hpp
@ -15,11 +15,19 @@
 #include <utility>
 #include <variant>

+struct FmhaBwdFp16
+{
+};
+
+struct FmhaBwdBf16
+{
+};
+
 template <typename DataType>
 struct FmhaBwdTypeConfig;

 template <>
-struct FmhaBwdTypeConfig<ck_tile::half_t>
+struct FmhaBwdTypeConfig<FmhaBwdFp16>
 {
    using QDataType             = ck_tile::half_t;
    using KDataType             = ck_tile::half_t;
@ -39,7 +47,7 @@ struct FmhaBwdTypeConfig<ck_tile::half_t>
 };

 template <>
-struct FmhaBwdTypeConfig<ck_tile::bf16_t>
+struct FmhaBwdTypeConfig<FmhaBwdBf16>
 {
    using QDataType             = ck_tile::bf16_t;
    using KDataType             = ck_tile::bf16_t;
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_00042c36bc588e60a7c8a9ba297a8a25d8ac0660.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_00042c36bc588e60a7c8a9ba297a8a25d8ac0660.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 32, 32, 32, 32, 64, 32, 32>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<2, 2, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    true,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<32,
-                                                         ck_tile::fp16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0029076f83a3dc695a167beda6fe19230a2b114b.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0029076f83a3dc695a167beda6fe19230a2b114b.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 64, 256, 16, 256, 16, 32, 256, 256>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      false,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      false,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<256,
-                                                         ck_tile::fp16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         false,
-                                                         false,
-                                                         false,
-                                                         false,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_006c417a52a1bd7c55e45d111483d26f4480caeb.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_006c417a52a1bd7c55e45d111483d26f4480caeb.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 64, 256, 16, 256, 16, 32, 256, 256>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<256,
-                                                         ck_tile::bf16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_008f2429c678d13386a06e8d8b15c4b480940ff3.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_008f2429c678d13386a06e8d8b15c4b480940ff3.hip
@ -1,73 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_bwd_convert_dq_trait_0 =
-    ck_tile::TileFmhaBwdConvertQGradTraits<true, true, 2>;
-
-using fmha_bwd_convert_dq_pipeline_problem_0 =
-    ck_tile::BlockFmhaBwdConvertQGradPipelineProblem<
-        typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-        typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-        /* BlockSize = */ 256,
-        64,
-        128,
-        128,
-        false,
-        true,
-        fmha_bwd_convert_dq_trait_0>;
-
-using fmha_bwd_convert_dq_0 =
-    typename ck_tile::BlockFmhaBwdConvertQGrad<fmha_bwd_convert_dq_pipeline_problem_0>;
-
-using fmha_bwd_convert_dq_kernel_0 =
-    ck_tile::FmhaBwdConvertQGradKernel<fmha_bwd_convert_dq_0>;
-
-using convert_dq_trait_0 = fmha_bwd_convert_dq_traits_<128,
-                                                             ck_tile::bf16_t,
-                                                             false,
-                                                             true,
-                                                             true,
-                                                             true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_convert_dq_<convert_dq_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_convert_dq_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_convert_dq_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_convert_dq_oneshot_<convert_dq_trait_0>(const ck_tile::stream_config& s,
-                                                            fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_convert_dq_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_convert_dq_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_convert_dq_get_name_<convert_dq_trait_0>()
-{
-    using k_ = fmha_bwd_convert_dq_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_00a2adbe938d458d51ca5fc4020667a215b672a4.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_00a2adbe938d458d51ca5fc4020667a215b672a4.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 64, 32, 64, 32, 32, 64, 64>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      false,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      false,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<64,
-                                                         ck_tile::bf16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         false,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_012c0f480917c329f4c3c6c666cf32af2d82b294.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_012c0f480917c329f4c3c6c666cf32af2d82b294.hip
@ -1,80 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_fwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::sequence<128, 64, 32, 64, 32, 64>;
-using fmha_warp_tile_0 = ck_tile::sequence<32, 32, 16>;
-
-using fmha_shape_0 = ck_tile::TileFmhaShape<fmha_block_tile_0,
-                                      ck_tile::sequence<4, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      ck_tile::sequence<4, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      true>;
-
-using fmha_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                    true,
-                                                    true,
-                                                    true,
-                                                    ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                    false,
-                                                    true,
-                                                    false,
-                                                    false,
-                                                    -1>;
-using fmha_mask_0 = ck_tile::SimplifiedGenericAttentionMask<false>;
-
-using fmha_pipeline_problem_0 = ck_tile::BlockFmhaPipelineProblem<
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SMPLComputeDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::PDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::OaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::ODataType,
-    fmha_shape_0,
-    true,
-    fmha_mask_0,
-    fmha_trait_0>;
-
-using fmha_pipeline_0 = ck_tile::BlockFmhaPipelineQRKSVSAsync<
-    fmha_pipeline_problem_0>;
-
-using fmha_epilogue_0 =
-    ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<typename FmhaFwdTypeConfig<ck_tile::bf16_t>::OaccDataType,
-                                           typename FmhaFwdTypeConfig<ck_tile::bf16_t>::ODataType,
-                                           true, true>>;
-
-using fmha_kernel_0 =
-    ck_tile::FmhaFwdKernel<ck_tile::FmhaFwdTilePartitioner_HBS<fmha_shape_0>,
-                  fmha_pipeline_0,
-                  fmha_epilogue_0>;
-
-using trait_0 = fmha_fwd_traits_<64, ck_tile::bf16_t, true,128, 64, 32, 64, 32, 64, true,
-                        ck_tile::BlockFmhaPipelineEnum::QRKSVS_ASYNC, fmha_mask_0, ck_tile::BlockAttentionBiasEnum::ALIBI, true, false, false, true, true, true, true>;
-
-#include <iostream>
-
-template<>
-float fmha_fwd_<trait_0>(const ck_tile::stream_config& s, fmha_fwd_args a)
-{
-    using k_ = fmha_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids] = fmha_fwd_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks             = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_014c209d5cfc6b965bfd78c64bf132c0154e32be.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_014c209d5cfc6b965bfd78c64bf132c0154e32be.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 64, 32, 64, 32, 32, 64, 64>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    true,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<64,
-                                                         ck_tile::bf16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0153ec18d3ded0f8bdc6459ea5757ebd94d9faf2.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0153ec18d3ded0f8bdc6459ea5757ebd94d9faf2.hip
@ -1,73 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_bwd_convert_dq_trait_0 =
-    ck_tile::TileFmhaBwdConvertQGradTraits<true, true, 2>;
-
-using fmha_bwd_convert_dq_pipeline_problem_0 =
-    ck_tile::BlockFmhaBwdConvertQGradPipelineProblem<
-        typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-        typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-        /* BlockSize = */ 256,
-        64,
-        128,
-        128,
-        true,
-        true,
-        fmha_bwd_convert_dq_trait_0>;
-
-using fmha_bwd_convert_dq_0 =
-    typename ck_tile::BlockFmhaBwdConvertQGrad<fmha_bwd_convert_dq_pipeline_problem_0>;
-
-using fmha_bwd_convert_dq_kernel_0 =
-    ck_tile::FmhaBwdConvertQGradKernel<fmha_bwd_convert_dq_0>;
-
-using convert_dq_trait_0 = fmha_bwd_convert_dq_traits_<128,
-                                                             ck_tile::bf16_t,
-                                                             true,
-                                                             true,
-                                                             true,
-                                                             true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_convert_dq_<convert_dq_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_convert_dq_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_convert_dq_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_convert_dq_oneshot_<convert_dq_trait_0>(const ck_tile::stream_config& s,
-                                                            fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_convert_dq_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_convert_dq_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_convert_dq_get_name_<convert_dq_trait_0>()
-{
-    using k_ = fmha_bwd_convert_dq_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_01ac1a2ecf9a487809e46faa92e267df2d47de91.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_01ac1a2ecf9a487809e46faa92e267df2d47de91.hip
@ -1,73 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_bwd_convert_dq_trait_0 =
-    ck_tile::TileFmhaBwdConvertQGradTraits<false, false, 2>;
-
-using fmha_bwd_convert_dq_pipeline_problem_0 =
-    ck_tile::BlockFmhaBwdConvertQGradPipelineProblem<
-        typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-        typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-        /* BlockSize = */ 256,
-        64,
-        64,
-        256,
-        false,
-        false,
-        fmha_bwd_convert_dq_trait_0>;
-
-using fmha_bwd_convert_dq_0 =
-    typename ck_tile::BlockFmhaBwdConvertQGrad<fmha_bwd_convert_dq_pipeline_problem_0>;
-
-using fmha_bwd_convert_dq_kernel_0 =
-    ck_tile::FmhaBwdConvertQGradKernel<fmha_bwd_convert_dq_0>;
-
-using convert_dq_trait_0 = fmha_bwd_convert_dq_traits_<256,
-                                                             ck_tile::fp16_t,
-                                                             false,
-                                                             false,
-                                                             false,
-                                                             false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_convert_dq_<convert_dq_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_convert_dq_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_convert_dq_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_convert_dq_oneshot_<convert_dq_trait_0>(const ck_tile::stream_config& s,
-                                                            fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_convert_dq_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_convert_dq_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_convert_dq_get_name_<convert_dq_trait_0>()
-{
-    using k_ = fmha_bwd_convert_dq_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_01ca79005067e20e4eed5a72ff9187cde702cd1c.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_01ca79005067e20e4eed5a72ff9187cde702cd1c.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 64, 32, 64, 32, 32, 64, 64>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    true,
-    true,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<64,
-                                                         ck_tile::fp16_t,
-                                                         true,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_01cb354dddef6e99e4ac843f2adafcddfc58d520.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_01cb354dddef6e99e4ac843f2adafcddfc58d520.hip
@ -1,73 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_bwd_convert_dq_trait_0 =
-    ck_tile::TileFmhaBwdConvertQGradTraits<false, false, 2>;
-
-using fmha_bwd_convert_dq_pipeline_problem_0 =
-    ck_tile::BlockFmhaBwdConvertQGradPipelineProblem<
-        typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-        typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-        /* BlockSize = */ 256,
-        64,
-        128,
-        128,
-        false,
-        true,
-        fmha_bwd_convert_dq_trait_0>;
-
-using fmha_bwd_convert_dq_0 =
-    typename ck_tile::BlockFmhaBwdConvertQGrad<fmha_bwd_convert_dq_pipeline_problem_0>;
-
-using fmha_bwd_convert_dq_kernel_0 =
-    ck_tile::FmhaBwdConvertQGradKernel<fmha_bwd_convert_dq_0>;
-
-using convert_dq_trait_0 = fmha_bwd_convert_dq_traits_<128,
-                                                             ck_tile::bf16_t,
-                                                             false,
-                                                             false,
-                                                             false,
-                                                             true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_convert_dq_<convert_dq_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_convert_dq_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_convert_dq_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_convert_dq_oneshot_<convert_dq_trait_0>(const ck_tile::stream_config& s,
-                                                            fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_convert_dq_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_convert_dq_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_convert_dq_get_name_<convert_dq_trait_0>()
-{
-    using k_ = fmha_bwd_convert_dq_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_01d12033d59ce2799a2a024e5d9232325ccf1320.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_01d12033d59ce2799a2a024e5d9232325ccf1320.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 128, 128, 16, 128, 16, 32, 128, 128>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       false,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    true,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      false,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      false,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<128,
-                                                         ck_tile::fp16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         true,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_01d3b034a2d8d0b83c0aefa4faac6c3f28ce737f.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_01d3b034a2d8d0b83c0aefa4faac6c3f28ce737f.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 64, 256, 16, 256, 16, 32, 256, 256>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    true,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<256,
-                                                         ck_tile::fp16_t,
-                                                         true,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_01e2428c5447aa9a78f79f73f31cf685c586872d.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_01e2428c5447aa9a78f79f73f31cf685c586872d.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 64, 256, 16, 256, 16, 32, 256, 256>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    true,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<256,
-                                                         ck_tile::fp16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_01e8aedb7b7d77f44a46b2e9b7a826f245aaf4a7.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_01e8aedb7b7d77f44a46b2e9b7a826f245aaf4a7.hip
@ -1,80 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_fwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::sequence<128, 64, 32, 64, 32, 64>;
-using fmha_warp_tile_0 = ck_tile::sequence<32, 32, 16>;
-
-using fmha_shape_0 = ck_tile::TileFmhaShape<fmha_block_tile_0,
-                                      ck_tile::sequence<4, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      ck_tile::sequence<4, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      true>;
-
-using fmha_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                    false,
-                                                    true,
-                                                    true,
-                                                    ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                    false,
-                                                    false,
-                                                    false,
-                                                    false,
-                                                    -1>;
-using fmha_mask_0 = ck_tile::SimplifiedGenericAttentionMask<false>;
-
-using fmha_pipeline_problem_0 = ck_tile::BlockFmhaPipelineProblem<
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SMPLComputeDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::PDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::OaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::ODataType,
-    fmha_shape_0,
-    false,
-    fmha_mask_0,
-    fmha_trait_0>;
-
-using fmha_pipeline_0 = ck_tile::BlockFmhaPipelineQRKSVSAsync<
-    fmha_pipeline_problem_0>;
-
-using fmha_epilogue_0 =
-    ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<typename FmhaFwdTypeConfig<ck_tile::bf16_t>::OaccDataType,
-                                           typename FmhaFwdTypeConfig<ck_tile::bf16_t>::ODataType,
-                                           true, true>>;
-
-using fmha_kernel_0 =
-    ck_tile::FmhaFwdKernel<ck_tile::FmhaFwdTilePartitioner_SHB<fmha_shape_0>,
-                  fmha_pipeline_0,
-                  fmha_epilogue_0>;
-
-using trait_0 = fmha_fwd_traits_<64, ck_tile::bf16_t, false,128, 64, 32, 64, 32, 64, true,
-                        ck_tile::BlockFmhaPipelineEnum::QRKSVS_ASYNC, fmha_mask_0, ck_tile::BlockAttentionBiasEnum::ALIBI, false, false, false, true, false, true, true>;
-
-#include <iostream>
-
-template<>
-float fmha_fwd_<trait_0>(const ck_tile::stream_config& s, fmha_fwd_args a)
-{
-    using k_ = fmha_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids] = fmha_fwd_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks             = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_01e8f0df0c54ce619e5b66441b3c96a5e18b05d6.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_01e8f0df0c54ce619e5b66441b3c96a5e18b05d6.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 64, 256, 16, 256, 16, 32, 256, 256>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    true,
-    true,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<256,
-                                                         ck_tile::fp16_t,
-                                                         true,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_01ee0083f6df962c4a754cd3295b1a436c590a0e.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_01ee0083f6df962c4a754cd3295b1a436c590a0e.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 128, 128, 16, 128, 16, 32, 128, 128>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<false,
-                                                       false,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    true,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      false,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      false,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<128,
-                                                         ck_tile::fp16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         false,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_01f74764c3c3284fdd1b67d0ea781c2261ed0de6.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_01f74764c3c3284fdd1b67d0ea781c2261ed0de6.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 128, 128, 16, 128, 16, 32, 128, 128>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<false,
-                                                       true,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<128,
-                                                         ck_tile::fp16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         false,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0225857454eaab2eb664aef7a0849ce12c32fdf9.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0225857454eaab2eb664aef7a0849ce12c32fdf9.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 128, 128, 16, 128, 16, 32, 128, 128>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    true,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<128,
-                                                         ck_tile::fp16_t,
-                                                         true,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0237c76137df14fb808ade8bd6837045f2aaa5c9.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0237c76137df14fb808ade8bd6837045f2aaa5c9.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 64, 32, 64, 32, 32, 64, 64>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       false,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    true,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      false,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      false,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<64,
-                                                         ck_tile::fp16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         true,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0271bd8b7c270e1593871b638288a4923342c446.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0271bd8b7c270e1593871b638288a4923342c446.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 64, 256, 16, 256, 16, 32, 256, 256>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<256,
-                                                         ck_tile::bf16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_02d88a03cd3966dd0cff550065f58c3ffecfff6c.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_02d88a03cd3966dd0cff550065f58c3ffecfff6c.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 32, 32, 32, 32, 64, 32, 32>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<2, 2, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<false,
-                                                       true,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    true,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<32,
-                                                         ck_tile::bf16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         false,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_02ff94e3c787a7b06ffc90c25777fa74f225e32c.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_02ff94e3c787a7b06ffc90c25777fa74f225e32c.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 32, 32, 32, 32, 64, 32, 32>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<2, 2, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    true,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<32,
-                                                         ck_tile::fp16_t,
-                                                         true,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_030a759dcc92028b4c6f317fc230b98cb929e806.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_030a759dcc92028b4c6f317fc230b98cb929e806.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 32, 32, 32, 32, 64, 32, 32>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<2, 2, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      false,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      false,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<32,
-                                                         ck_tile::bf16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         false,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_031b12f9fd94e01aaff2c0da4f35f346822087e4.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_031b12f9fd94e01aaff2c0da4f35f346822087e4.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 64, 32, 64, 32, 32, 64, 64>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       false,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    true,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      false,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      false,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<64,
-                                                         ck_tile::fp16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         true,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_036887daf6cc092e7422a17882488e59cecfb643.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_036887daf6cc092e7422a17882488e59cecfb643.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 64, 32, 64, 32, 32, 64, 64>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      false,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      false,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<64,
-                                                         ck_tile::bf16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         false,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_037c6c80fcec3eb8b0bef50ad6af6d27bf5447f5.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_037c6c80fcec3eb8b0bef50ad6af6d27bf5447f5.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 64, 32, 64, 32, 32, 64, 64>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<false,
-                                                       false,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      false,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      false,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<64,
-                                                         ck_tile::bf16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         false,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0392491c5a6dfc742c2be483419a40f6a7a7ea56.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0392491c5a6dfc742c2be483419a40f6a7a7ea56.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 32, 32, 32, 32, 64, 32, 32>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<2, 2, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<false,
-                                                       true,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    true,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<32,
-                                                         ck_tile::fp16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         false,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_03a71615a088e972c998f9c7cb44566c268c5124.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_03a71615a088e972c998f9c7cb44566c268c5124.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 64, 32, 64, 32, 32, 64, 64>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    true,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<64,
-                                                         ck_tile::fp16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_03ff035717140f7385282419598cb4fb2881ce8e.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_03ff035717140f7385282419598cb4fb2881ce8e.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 128, 128, 16, 128, 16, 32, 128, 128>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       false,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      false,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      false,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<128,
-                                                         ck_tile::fp16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         true,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_041a0718891596ddac1fb0088637029233ccbe60.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_041a0718891596ddac1fb0088637029233ccbe60.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 64, 256, 16, 256, 16, 32, 256, 256>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       false,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    true,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      false,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      false,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<256,
-                                                         ck_tile::fp16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         true,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_042a156e9eb935555ab14a84461959b466c2fb5b.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_042a156e9eb935555ab14a84461959b466c2fb5b.hip
@ -1,80 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_fwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::sequence<128, 128, 32, 128, 32, 128>;
-using fmha_warp_tile_0 = ck_tile::sequence<32, 32, 16>;
-
-using fmha_shape_0 = ck_tile::TileFmhaShape<fmha_block_tile_0,
-                                      ck_tile::sequence<4, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      ck_tile::sequence<4, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      true>;
-
-using fmha_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                    true,
-                                                    true,
-                                                    true,
-                                                    ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                    false,
-                                                    true,
-                                                    false,
-                                                    false,
-                                                    -1>;
-using fmha_mask_0 = ck_tile::SimplifiedGenericAttentionMask<false>;
-
-using fmha_pipeline_problem_0 = ck_tile::BlockFmhaPipelineProblem<
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SMPLComputeDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::PDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::OaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::ODataType,
-    fmha_shape_0,
-    false,
-    fmha_mask_0,
-    fmha_trait_0>;
-
-using fmha_pipeline_0 = ck_tile::BlockFmhaPipelineQRKSVSAsync<
-    fmha_pipeline_problem_0>;
-
-using fmha_epilogue_0 =
-    ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<typename FmhaFwdTypeConfig<ck_tile::bf16_t>::OaccDataType,
-                                           typename FmhaFwdTypeConfig<ck_tile::bf16_t>::ODataType,
-                                           true, true>>;
-
-using fmha_kernel_0 =
-    ck_tile::FmhaFwdKernel<ck_tile::FmhaFwdTilePartitioner_SHB<fmha_shape_0>,
-                  fmha_pipeline_0,
-                  fmha_epilogue_0>;
-
-using trait_0 = fmha_fwd_traits_<128, ck_tile::bf16_t, false,128, 128, 32, 128, 32, 128, true,
-                        ck_tile::BlockFmhaPipelineEnum::QRKSVS_ASYNC, fmha_mask_0, ck_tile::BlockAttentionBiasEnum::ALIBI, true, false, false, true, true, true, true>;
-
-#include <iostream>
-
-template<>
-float fmha_fwd_<trait_0>(const ck_tile::stream_config& s, fmha_fwd_args a)
-{
-    using k_ = fmha_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids] = fmha_fwd_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks             = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_04641230fe9a50a221047f7a1df8a370f72805b9.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_04641230fe9a50a221047f7a1df8a370f72805b9.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 128, 128, 16, 128, 16, 32, 128, 128>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      false,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      false,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<128,
-                                                         ck_tile::fp16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         false,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_04c363e11d202c6d2f4bb753661c5a2043edc0ad.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_04c363e11d202c6d2f4bb753661c5a2043edc0ad.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 64, 32, 64, 32, 32, 64, 64>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<false,
-                                                       true,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    true,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<64,
-                                                         ck_tile::bf16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_04caeecbc01667ec6f5599358a0a20423aa9a00b.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_04caeecbc01667ec6f5599358a0a20423aa9a00b.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 32, 32, 32, 32, 64, 32, 32>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<2, 2, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    true,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<32,
-                                                         ck_tile::bf16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_04f39b453505f68a5091f68b1c3de48369d1e7ea.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_04f39b453505f68a5091f68b1c3de48369d1e7ea.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 64, 32, 64, 32, 32, 64, 64>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      false,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      false,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<64,
-                                                         ck_tile::bf16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         false,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_04ffca078cfab8bc6c4ccd1cc8994a1bb4a88ea7.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_04ffca078cfab8bc6c4ccd1cc8994a1bb4a88ea7.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 64, 32, 64, 32, 32, 64, 64>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<64,
-                                                         ck_tile::bf16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0502e718337eab7d47aa65cea7d3c5f641484520.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0502e718337eab7d47aa65cea7d3c5f641484520.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 64, 256, 16, 256, 16, 32, 256, 256>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      false,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      false,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<256,
-                                                         ck_tile::fp16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         false,
-                                                         false,
-                                                         false,
-                                                         false,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0513b2f3bd8ad51315aadb7f63737201898adca8.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0513b2f3bd8ad51315aadb7f63737201898adca8.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 64, 256, 16, 256, 16, 32, 256, 256>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<false,
-                                                       true,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<256,
-                                                         ck_tile::fp16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         false,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_053981d9e7af2ebc0f91e61ac5e25cbe68c95bd8.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_053981d9e7af2ebc0f91e61ac5e25cbe68c95bd8.hip
@ -1,80 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_fwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::sequence<128, 128, 32, 128, 32, 128>;
-using fmha_warp_tile_0 = ck_tile::sequence<32, 32, 16>;
-
-using fmha_shape_0 = ck_tile::TileFmhaShape<fmha_block_tile_0,
-                                      ck_tile::sequence<4, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      ck_tile::sequence<4, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      true>;
-
-using fmha_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                    true,
-                                                    true,
-                                                    true,
-                                                    ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                    false,
-                                                    false,
-                                                    false,
-                                                    false,
-                                                    -1>;
-using fmha_mask_0 = ck_tile::SimplifiedGenericAttentionMask<true>;
-
-using fmha_pipeline_problem_0 = ck_tile::BlockFmhaPipelineProblem<
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SMPLComputeDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::PDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::OaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::ODataType,
-    fmha_shape_0,
-    true,
-    fmha_mask_0,
-    fmha_trait_0>;
-
-using fmha_pipeline_0 = ck_tile::BlockFmhaPipelineQRKSVSAsync<
-    fmha_pipeline_problem_0>;
-
-using fmha_epilogue_0 =
-    ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<typename FmhaFwdTypeConfig<ck_tile::fp16_t>::OaccDataType,
-                                           typename FmhaFwdTypeConfig<ck_tile::fp16_t>::ODataType,
-                                           true, true>>;
-
-using fmha_kernel_0 =
-    ck_tile::FmhaFwdKernel<ck_tile::FmhaFwdTilePartitioner_HBS<fmha_shape_0>,
-                  fmha_pipeline_0,
-                  fmha_epilogue_0>;
-
-using trait_0 = fmha_fwd_traits_<128, ck_tile::fp16_t, true,128, 128, 32, 128, 32, 128, true,
-                        ck_tile::BlockFmhaPipelineEnum::QRKSVS_ASYNC, fmha_mask_0, ck_tile::BlockAttentionBiasEnum::ALIBI, false, false, false, true, true, true, true>;
-
-#include <iostream>
-
-template<>
-float fmha_fwd_<trait_0>(const ck_tile::stream_config& s, fmha_fwd_args a)
-{
-    using k_ = fmha_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids] = fmha_fwd_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks             = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_054fda16133a0d25077967b05425f9128e1fe1a5.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_054fda16133a0d25077967b05425f9128e1fe1a5.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 64, 32, 64, 32, 32, 64, 64>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<64,
-                                                         ck_tile::bf16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_05538339c21c92c53d237865d72debaaf2ee5075.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_05538339c21c92c53d237865d72debaaf2ee5075.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 128, 128, 16, 128, 16, 32, 128, 128>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    true,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<128,
-                                                         ck_tile::fp16_t,
-                                                         true,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0595316f0dfffda03e5296b959a49ec3f3c48d67.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0595316f0dfffda03e5296b959a49ec3f3c48d67.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 128, 128, 16, 128, 16, 32, 128, 128>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      false,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      false,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<128,
-                                                         ck_tile::fp16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         false,
-                                                         false,
-                                                         false,
-                                                         false,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_05dfe927fd64a564c5fad537fb7c41ee9c94c2c0.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_05dfe927fd64a564c5fad537fb7c41ee9c94c2c0.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 64, 32, 64, 32, 32, 64, 64>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<false,
-                                                       false,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    true,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      false,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      false,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<64,
-                                                         ck_tile::bf16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         false,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_05e60b3ab7477f9edc8576a8bf43e3a62b8d5ef8.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_05e60b3ab7477f9edc8576a8bf43e3a62b8d5ef8.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 64, 256, 16, 256, 16, 32, 256, 256>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<256,
-                                                         ck_tile::fp16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_05f794c7023cbb7e35f1fd1ae45bd2377bfbc520.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_05f794c7023cbb7e35f1fd1ae45bd2377bfbc520.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 32, 32, 32, 32, 64, 32, 32>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<2, 2, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<false,
-                                                       false,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    true,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      false,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      false,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<32,
-                                                         ck_tile::fp16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         false,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0628931bf5cc1daa6e106cf60bb21fa1aac6b1df.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0628931bf5cc1daa6e106cf60bb21fa1aac6b1df.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 32, 32, 32, 32, 64, 32, 32>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<2, 2, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       false,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    true,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      false,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      false,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<32,
-                                                         ck_tile::bf16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         true,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_062c8c3c1cf6c33af4574099e9b6ac54a55ad776.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_062c8c3c1cf6c33af4574099e9b6ac54a55ad776.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 128, 128, 16, 128, 16, 32, 128, 128>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<false,
-                                                       true,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<128,
-                                                         ck_tile::bf16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         false,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0682150e93f547e00f13cd8984779bf49b91e50c.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0682150e93f547e00f13cd8984779bf49b91e50c.hip
@ -1,80 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_fwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::sequence<128, 64, 16, 32, 32, 32>;
-using fmha_warp_tile_0 = ck_tile::sequence<32, 32, 16>;
-
-using fmha_shape_0 = ck_tile::TileFmhaShape<fmha_block_tile_0,
-                                      ck_tile::sequence<2, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      ck_tile::sequence<2, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      true>;
-
-using fmha_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                    true,
-                                                    true,
-                                                    true,
-                                                    ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                    false,
-                                                    true,
-                                                    true,
-                                                    false,
-                                                    -1>;
-using fmha_mask_0 = ck_tile::SimplifiedGenericAttentionMask<true>;
-
-using fmha_pipeline_problem_0 = ck_tile::BlockFmhaPipelineProblem<
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SMPLComputeDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::PDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::OaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::ODataType,
-    fmha_shape_0,
-    true,
-    fmha_mask_0,
-    fmha_trait_0>;
-
-using fmha_pipeline_0 = ck_tile::BlockFmhaPipelineQRKSVSAsync<
-    fmha_pipeline_problem_0>;
-
-using fmha_epilogue_0 =
-    ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<typename FmhaFwdTypeConfig<ck_tile::bf16_t>::OaccDataType,
-                                           typename FmhaFwdTypeConfig<ck_tile::bf16_t>::ODataType,
-                                           true, true>>;
-
-using fmha_kernel_0 =
-    ck_tile::FmhaFwdKernel<ck_tile::FmhaFwdTilePartitioner_HBS<fmha_shape_0>,
-                  fmha_pipeline_0,
-                  fmha_epilogue_0>;
-
-using trait_0 = fmha_fwd_traits_<32, ck_tile::bf16_t, true,128, 64, 16, 32, 32, 32, true,
-                        ck_tile::BlockFmhaPipelineEnum::QRKSVS_ASYNC, fmha_mask_0, ck_tile::BlockAttentionBiasEnum::NO_BIAS, true, true, false, true, true, true, true>;
-
-#include <iostream>
-
-template<>
-float fmha_fwd_<trait_0>(const ck_tile::stream_config& s, fmha_fwd_args a)
-{
-    using k_ = fmha_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids] = fmha_fwd_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks             = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_069c663be0267c009be4814e9e4e7c13ec999411.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_069c663be0267c009be4814e9e4e7c13ec999411.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 64, 256, 16, 256, 16, 32, 256, 256>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<false,
-                                                       true,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    true,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<256,
-                                                         ck_tile::fp16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         false,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_06ae52ef937cc27c544e32025ea0dadb7fad982d.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_06ae52ef937cc27c544e32025ea0dadb7fad982d.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 64, 32, 64, 32, 32, 64, 64>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<64,
-                                                         ck_tile::fp16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_06b74acd9abfbd1c4ec2f4c718eeb92a0bca7bab.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_06b74acd9abfbd1c4ec2f4c718eeb92a0bca7bab.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 64, 32, 64, 32, 32, 64, 64>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<false,
-                                                       true,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    true,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<64,
-                                                         ck_tile::bf16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         false,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_06ba94794a14f0f0022af6f5f3c16e1e16959d4c.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_06ba94794a14f0f0022af6f5f3c16e1e16959d4c.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 64, 32, 64, 32, 32, 64, 64>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    true,
-    true,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<64,
-                                                         ck_tile::fp16_t,
-                                                         true,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_071751b1012b90f7b57f8591cd06ae1fd27d9cd3.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_071751b1012b90f7b57f8591cd06ae1fd27d9cd3.hip
@ -1,80 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_fwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::sequence<128, 128, 32, 128, 32, 128>;
-using fmha_warp_tile_0 = ck_tile::sequence<32, 32, 16>;
-
-using fmha_shape_0 = ck_tile::TileFmhaShape<fmha_block_tile_0,
-                                      ck_tile::sequence<4, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      ck_tile::sequence<4, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      true>;
-
-using fmha_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                    false,
-                                                    true,
-                                                    true,
-                                                    ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                    false,
-                                                    true,
-                                                    true,
-                                                    false,
-                                                    -1>;
-using fmha_mask_0 = ck_tile::SimplifiedGenericAttentionMask<true>;
-
-using fmha_pipeline_problem_0 = ck_tile::BlockFmhaPipelineProblem<
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SMPLComputeDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::PDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::OaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::ODataType,
-    fmha_shape_0,
-    false,
-    fmha_mask_0,
-    fmha_trait_0>;
-
-using fmha_pipeline_0 = ck_tile::BlockFmhaPipelineQRKSVSAsync<
-    fmha_pipeline_problem_0>;
-
-using fmha_epilogue_0 =
-    ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<typename FmhaFwdTypeConfig<ck_tile::bf16_t>::OaccDataType,
-                                           typename FmhaFwdTypeConfig<ck_tile::bf16_t>::ODataType,
-                                           true, true>>;
-
-using fmha_kernel_0 =
-    ck_tile::FmhaFwdKernel<ck_tile::FmhaFwdTilePartitioner_SHB<fmha_shape_0>,
-                  fmha_pipeline_0,
-                  fmha_epilogue_0>;
-
-using trait_0 = fmha_fwd_traits_<128, ck_tile::bf16_t, false,128, 128, 32, 128, 32, 128, true,
-                        ck_tile::BlockFmhaPipelineEnum::QRKSVS_ASYNC, fmha_mask_0, ck_tile::BlockAttentionBiasEnum::NO_BIAS, true, true, false, true, false, true, true>;
-
-#include <iostream>
-
-template<>
-float fmha_fwd_<trait_0>(const ck_tile::stream_config& s, fmha_fwd_args a)
-{
-    using k_ = fmha_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids] = fmha_fwd_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks             = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0766e7aa4b263a811408b285213e47176ee2bdaf.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0766e7aa4b263a811408b285213e47176ee2bdaf.hip
@ -1,80 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_fwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::sequence<128, 64, 16, 32, 32, 32>;
-using fmha_warp_tile_0 = ck_tile::sequence<32, 32, 16>;
-
-using fmha_shape_0 = ck_tile::TileFmhaShape<fmha_block_tile_0,
-                                      ck_tile::sequence<2, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      ck_tile::sequence<2, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      true>;
-
-using fmha_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                    false,
-                                                    true,
-                                                    true,
-                                                    ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                    false,
-                                                    true,
-                                                    true,
-                                                    false,
-                                                    -1>;
-using fmha_mask_0 = ck_tile::SimplifiedGenericAttentionMask<true>;
-
-using fmha_pipeline_problem_0 = ck_tile::BlockFmhaPipelineProblem<
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SMPLComputeDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::PDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::OaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::ODataType,
-    fmha_shape_0,
-    false,
-    fmha_mask_0,
-    fmha_trait_0>;
-
-using fmha_pipeline_0 = ck_tile::BlockFmhaPipelineQRKSVSAsync<
-    fmha_pipeline_problem_0>;
-
-using fmha_epilogue_0 =
-    ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<typename FmhaFwdTypeConfig<ck_tile::bf16_t>::OaccDataType,
-                                           typename FmhaFwdTypeConfig<ck_tile::bf16_t>::ODataType,
-                                           true, true>>;
-
-using fmha_kernel_0 =
-    ck_tile::FmhaFwdKernel<ck_tile::FmhaFwdTilePartitioner_SHB<fmha_shape_0>,
-                  fmha_pipeline_0,
-                  fmha_epilogue_0>;
-
-using trait_0 = fmha_fwd_traits_<32, ck_tile::bf16_t, false,128, 64, 16, 32, 32, 32, true,
-                        ck_tile::BlockFmhaPipelineEnum::QRKSVS_ASYNC, fmha_mask_0, ck_tile::BlockAttentionBiasEnum::NO_BIAS, true, true, false, true, false, true, true>;
-
-#include <iostream>
-
-template<>
-float fmha_fwd_<trait_0>(const ck_tile::stream_config& s, fmha_fwd_args a)
-{
-    using k_ = fmha_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids] = fmha_fwd_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks             = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_076b3beb57b30afb30636f948e3989b346b38d20.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_076b3beb57b30afb30636f948e3989b346b38d20.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 128, 128, 16, 128, 16, 32, 128, 128>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<128,
-                                                         ck_tile::fp16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0789852b0cd3cc030c78b28f2fd5b6b0546382a4.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0789852b0cd3cc030c78b28f2fd5b6b0546382a4.hip
@ -1,80 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_fwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::sequence<128, 64, 32, 64, 32, 64>;
-using fmha_warp_tile_0 = ck_tile::sequence<32, 32, 16>;
-
-using fmha_shape_0 = ck_tile::TileFmhaShape<fmha_block_tile_0,
-                                      ck_tile::sequence<4, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      ck_tile::sequence<4, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      true>;
-
-using fmha_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                    false,
-                                                    true,
-                                                    true,
-                                                    ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                    false,
-                                                    false,
-                                                    true,
-                                                    false,
-                                                    -1>;
-using fmha_mask_0 = ck_tile::SimplifiedGenericAttentionMask<true>;
-
-using fmha_pipeline_problem_0 = ck_tile::BlockFmhaPipelineProblem<
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SMPLComputeDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::PDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::OaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::ODataType,
-    fmha_shape_0,
-    false,
-    fmha_mask_0,
-    fmha_trait_0>;
-
-using fmha_pipeline_0 = ck_tile::BlockFmhaPipelineQRKSVSAsync<
-    fmha_pipeline_problem_0>;
-
-using fmha_epilogue_0 =
-    ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<typename FmhaFwdTypeConfig<ck_tile::fp16_t>::OaccDataType,
-                                           typename FmhaFwdTypeConfig<ck_tile::fp16_t>::ODataType,
-                                           true, true>>;
-
-using fmha_kernel_0 =
-    ck_tile::FmhaFwdKernel<ck_tile::FmhaFwdTilePartitioner_SHB<fmha_shape_0>,
-                  fmha_pipeline_0,
-                  fmha_epilogue_0>;
-
-using trait_0 = fmha_fwd_traits_<64, ck_tile::fp16_t, false,128, 64, 32, 64, 32, 64, true,
-                        ck_tile::BlockFmhaPipelineEnum::QRKSVS_ASYNC, fmha_mask_0, ck_tile::BlockAttentionBiasEnum::NO_BIAS, false, true, false, true, false, true, true>;
-
-#include <iostream>
-
-template<>
-float fmha_fwd_<trait_0>(const ck_tile::stream_config& s, fmha_fwd_args a)
-{
-    using k_ = fmha_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids] = fmha_fwd_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks             = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_078b96ad691a85eebd18586db0b62b8911016d9c.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_078b96ad691a85eebd18586db0b62b8911016d9c.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 32, 32, 32, 32, 64, 32, 32>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<2, 2, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    true,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<32,
-                                                         ck_tile::bf16_t,
-                                                         true,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_07c3fc96d2bebe546dce6ebf46e5c7a519959599.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_07c3fc96d2bebe546dce6ebf46e5c7a519959599.hip
@ -1,80 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_fwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::sequence<128, 64, 16, 32, 32, 32>;
-using fmha_warp_tile_0 = ck_tile::sequence<32, 32, 16>;
-
-using fmha_shape_0 = ck_tile::TileFmhaShape<fmha_block_tile_0,
-                                      ck_tile::sequence<2, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      ck_tile::sequence<2, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      true>;
-
-using fmha_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                    false,
-                                                    true,
-                                                    true,
-                                                    ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                    false,
-                                                    false,
-                                                    false,
-                                                    false,
-                                                    -1>;
-using fmha_mask_0 = ck_tile::SimplifiedGenericAttentionMask<true>;
-
-using fmha_pipeline_problem_0 = ck_tile::BlockFmhaPipelineProblem<
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SMPLComputeDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::PDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::OaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::ODataType,
-    fmha_shape_0,
-    false,
-    fmha_mask_0,
-    fmha_trait_0>;
-
-using fmha_pipeline_0 = ck_tile::BlockFmhaPipelineQRKSVSAsync<
-    fmha_pipeline_problem_0>;
-
-using fmha_epilogue_0 =
-    ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<typename FmhaFwdTypeConfig<ck_tile::bf16_t>::OaccDataType,
-                                           typename FmhaFwdTypeConfig<ck_tile::bf16_t>::ODataType,
-                                           true, true>>;
-
-using fmha_kernel_0 =
-    ck_tile::FmhaFwdKernel<ck_tile::FmhaFwdTilePartitioner_SHB<fmha_shape_0>,
-                  fmha_pipeline_0,
-                  fmha_epilogue_0>;
-
-using trait_0 = fmha_fwd_traits_<32, ck_tile::bf16_t, false,128, 64, 16, 32, 32, 32, true,
-                        ck_tile::BlockFmhaPipelineEnum::QRKSVS_ASYNC, fmha_mask_0, ck_tile::BlockAttentionBiasEnum::NO_BIAS, false, false, false, true, false, true, true>;
-
-#include <iostream>
-
-template<>
-float fmha_fwd_<trait_0>(const ck_tile::stream_config& s, fmha_fwd_args a)
-{
-    using k_ = fmha_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids] = fmha_fwd_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks             = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_07ff04fcc273e469737512893ea3fb5876ac131d.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_07ff04fcc273e469737512893ea3fb5876ac131d.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 64, 32, 64, 32, 32, 64, 64>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    true,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<64,
-                                                         ck_tile::fp16_t,
-                                                         true,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0801c56831b4c6428200db6318638a2129bb197a.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0801c56831b4c6428200db6318638a2129bb197a.hip
@ -1,73 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_bwd_convert_dq_trait_0 =
-    ck_tile::TileFmhaBwdConvertQGradTraits<true, false, 2>;
-
-using fmha_bwd_convert_dq_pipeline_problem_0 =
-    ck_tile::BlockFmhaBwdConvertQGradPipelineProblem<
-        typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-        typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-        /* BlockSize = */ 256,
-        64,
-        128,
-        128,
-        false,
-        false,
-        fmha_bwd_convert_dq_trait_0>;
-
-using fmha_bwd_convert_dq_0 =
-    typename ck_tile::BlockFmhaBwdConvertQGrad<fmha_bwd_convert_dq_pipeline_problem_0>;
-
-using fmha_bwd_convert_dq_kernel_0 =
-    ck_tile::FmhaBwdConvertQGradKernel<fmha_bwd_convert_dq_0>;
-
-using convert_dq_trait_0 = fmha_bwd_convert_dq_traits_<128,
-                                                             ck_tile::fp16_t,
-                                                             false,
-                                                             true,
-                                                             false,
-                                                             false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_convert_dq_<convert_dq_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_convert_dq_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_convert_dq_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_convert_dq_oneshot_<convert_dq_trait_0>(const ck_tile::stream_config& s,
-                                                            fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_convert_dq_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_convert_dq_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_convert_dq_get_name_<convert_dq_trait_0>()
-{
-    using k_ = fmha_bwd_convert_dq_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0836d5dfc0f939ab9a4064b403339373caf35b56.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0836d5dfc0f939ab9a4064b403339373caf35b56.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 64, 32, 64, 32, 32, 64, 64>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<64,
-                                                         ck_tile::fp16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0842c4e3aabdf55405b3ce09ce1899245ddf11ad.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0842c4e3aabdf55405b3ce09ce1899245ddf11ad.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 128, 128, 16, 128, 16, 32, 128, 128>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    true,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<128,
-                                                         ck_tile::fp16_t,
-                                                         true,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_085722b43cde5f37242edb071f639da7c4a0bd48.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_085722b43cde5f37242edb071f639da7c4a0bd48.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 32, 32, 32, 32, 64, 32, 32>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<2, 2, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    true,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<32,
-                                                         ck_tile::bf16_t,
-                                                         true,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0878b9aa31429d23a93cd953cc6a2fc5f43d0d3a.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0878b9aa31429d23a93cd953cc6a2fc5f43d0d3a.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 64, 32, 64, 32, 32, 64, 64>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      false,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      false,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<64,
-                                                         ck_tile::fp16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         false,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_089a347aef8a920e3b59d5ffe71fc5bfe002609c.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_089a347aef8a920e3b59d5ffe71fc5bfe002609c.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 32, 32, 32, 32, 64, 32, 32>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<2, 2, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    true,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<32,
-                                                         ck_tile::fp16_t,
-                                                         true,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_089de13222caec1483207d4a54249f8da4f9c151.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_089de13222caec1483207d4a54249f8da4f9c151.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 64, 256, 16, 256, 16, 32, 256, 256>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       false,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    true,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      false,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      false,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<256,
-                                                         ck_tile::bf16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         true,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_091cb49c1958fb4342d79f367ea93cf2b472f785.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_091cb49c1958fb4342d79f367ea93cf2b472f785.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 64, 256, 16, 256, 16, 32, 256, 256>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<false,
-                                                       false,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    true,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      false,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      false,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<256,
-                                                         ck_tile::fp16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         false,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_093834d4d3fe76e1745e4482c6b51b550c6f3dfc.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_093834d4d3fe76e1745e4482c6b51b550c6f3dfc.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 32, 32, 32, 32, 64, 32, 32>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<2, 2, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<false,
-                                                       true,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<32,
-                                                         ck_tile::bf16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         false,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_09513bff5c1da6aadf11d2e8272a422eabff21bc.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_09513bff5c1da6aadf11d2e8272a422eabff21bc.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 64, 256, 16, 256, 16, 32, 256, 256>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<256,
-                                                         ck_tile::bf16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_096863cd93d1b105a617d0daa1d4f37d7fb6b893.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_096863cd93d1b105a617d0daa1d4f37d7fb6b893.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 64, 256, 16, 256, 16, 32, 256, 256>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<256,
-                                                         ck_tile::fp16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0968cebd81ade762c2f92fffc0153fa7a2b91eb5.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0968cebd81ade762c2f92fffc0153fa7a2b91eb5.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 128, 128, 16, 128, 16, 32, 128, 128>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<false,
-                                                       true,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    true,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<128,
-                                                         ck_tile::bf16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_096e888c52d0f4a5847d7515fcc66208b1ff40d3.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_096e888c52d0f4a5847d7515fcc66208b1ff40d3.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 128, 128, 16, 128, 16, 32, 128, 128>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<false,
-                                                       true,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    true,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<128,
-                                                         ck_tile::bf16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_097b3e1dae9bfb2e89398706508f8e01966fd4ea.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_097b3e1dae9bfb2e89398706508f8e01966fd4ea.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 128, 128, 16, 128, 16, 32, 128, 128>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<false,
-                                                       false,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    true,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      false,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      false,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<128,
-                                                         ck_tile::fp16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         false,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_09d76cca48b71dbcc9bd96734787209fee4c9a74.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_09d76cca48b71dbcc9bd96734787209fee4c9a74.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 32, 32, 32, 32, 64, 32, 32>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<2, 2, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<false,
-                                                       true,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<32,
-                                                         ck_tile::fp16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_09e50367b62bb09071e28b44235a7c112645a706.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_09e50367b62bb09071e28b44235a7c112645a706.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 64, 32, 64, 32, 32, 64, 64>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    true,
-    true,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<64,
-                                                         ck_tile::bf16_t,
-                                                         true,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_09ecb6347009f6a5d5530a6acf90f9f40288cbcf.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_09ecb6347009f6a5d5530a6acf90f9f40288cbcf.hip
@ -1,80 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_fwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::sequence<128, 64, 16, 32, 32, 32>;
-using fmha_warp_tile_0 = ck_tile::sequence<32, 32, 16>;
-
-using fmha_shape_0 = ck_tile::TileFmhaShape<fmha_block_tile_0,
-                                      ck_tile::sequence<2, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      ck_tile::sequence<2, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      true>;
-
-using fmha_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                    true,
-                                                    true,
-                                                    true,
-                                                    ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                    false,
-                                                    true,
-                                                    false,
-                                                    false,
-                                                    -1>;
-using fmha_mask_0 = ck_tile::SimplifiedGenericAttentionMask<true>;
-
-using fmha_pipeline_problem_0 = ck_tile::BlockFmhaPipelineProblem<
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SMPLComputeDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::PDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::OaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::ODataType,
-    fmha_shape_0,
-    true,
-    fmha_mask_0,
-    fmha_trait_0>;
-
-using fmha_pipeline_0 = ck_tile::BlockFmhaPipelineQRKSVSAsync<
-    fmha_pipeline_problem_0>;
-
-using fmha_epilogue_0 =
-    ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<typename FmhaFwdTypeConfig<ck_tile::fp16_t>::OaccDataType,
-                                           typename FmhaFwdTypeConfig<ck_tile::fp16_t>::ODataType,
-                                           true, true>>;
-
-using fmha_kernel_0 =
-    ck_tile::FmhaFwdKernel<ck_tile::FmhaFwdTilePartitioner_HBS<fmha_shape_0>,
-                  fmha_pipeline_0,
-                  fmha_epilogue_0>;
-
-using trait_0 = fmha_fwd_traits_<32, ck_tile::fp16_t, true,128, 64, 16, 32, 32, 32, true,
-                        ck_tile::BlockFmhaPipelineEnum::QRKSVS_ASYNC, fmha_mask_0, ck_tile::BlockAttentionBiasEnum::ALIBI, true, false, false, true, true, true, true>;
-
-#include <iostream>
-
-template<>
-float fmha_fwd_<trait_0>(const ck_tile::stream_config& s, fmha_fwd_args a)
-{
-    using k_ = fmha_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids] = fmha_fwd_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks             = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0a2b116fd5065109aae46ee547e4f49ad0e9d6e1.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0a2b116fd5065109aae46ee547e4f49ad0e9d6e1.hip
@ -1,80 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_fwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::sequence<128, 128, 32, 256, 32, 256>;
-using fmha_warp_tile_0 = ck_tile::sequence<32, 32, 16>;
-
-using fmha_shape_0 = ck_tile::TileFmhaShape<fmha_block_tile_0,
-                                      ck_tile::sequence<4, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      ck_tile::sequence<4, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      true>;
-
-using fmha_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                    true,
-                                                    true,
-                                                    true,
-                                                    ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                    false,
-                                                    true,
-                                                    true,
-                                                    false,
-                                                    -1>;
-using fmha_mask_0 = ck_tile::SimplifiedGenericAttentionMask<false>;
-
-using fmha_pipeline_problem_0 = ck_tile::BlockFmhaPipelineProblem<
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SMPLComputeDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::PDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::OaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::ODataType,
-    fmha_shape_0,
-    false,
-    fmha_mask_0,
-    fmha_trait_0>;
-
-using fmha_pipeline_0 = ck_tile::BlockFmhaPipelineQRKSVS<
-    fmha_pipeline_problem_0>;
-
-using fmha_epilogue_0 =
-    ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<typename FmhaFwdTypeConfig<ck_tile::bf16_t>::OaccDataType,
-                                           typename FmhaFwdTypeConfig<ck_tile::bf16_t>::ODataType,
-                                           true, true>>;
-
-using fmha_kernel_0 =
-    ck_tile::FmhaFwdKernel<ck_tile::FmhaFwdTilePartitioner_SHB<fmha_shape_0>,
-                  fmha_pipeline_0,
-                  fmha_epilogue_0>;
-
-using trait_0 = fmha_fwd_traits_<256, ck_tile::bf16_t, false,128, 128, 32, 256, 32, 256, true,
-                        ck_tile::BlockFmhaPipelineEnum::QRKSVS, fmha_mask_0, ck_tile::BlockAttentionBiasEnum::ALIBI, true, true, false, true, true, true, true>;
-
-#include <iostream>
-
-template<>
-float fmha_fwd_<trait_0>(const ck_tile::stream_config& s, fmha_fwd_args a)
-{
-    using k_ = fmha_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids] = fmha_fwd_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks             = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0a4e76d89b175e1d9fd2e9fb908d5fce1ebb945d.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0a4e76d89b175e1d9fd2e9fb908d5fce1ebb945d.hip
@ -1,80 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_fwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::sequence<128, 64, 16, 32, 32, 32>;
-using fmha_warp_tile_0 = ck_tile::sequence<32, 32, 16>;
-
-using fmha_shape_0 = ck_tile::TileFmhaShape<fmha_block_tile_0,
-                                      ck_tile::sequence<2, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      ck_tile::sequence<2, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      true>;
-
-using fmha_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                    false,
-                                                    true,
-                                                    true,
-                                                    ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                    false,
-                                                    true,
-                                                    true,
-                                                    false,
-                                                    -1>;
-using fmha_mask_0 = ck_tile::SimplifiedGenericAttentionMask<true>;
-
-using fmha_pipeline_problem_0 = ck_tile::BlockFmhaPipelineProblem<
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SMPLComputeDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::PDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::OaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::ODataType,
-    fmha_shape_0,
-    false,
-    fmha_mask_0,
-    fmha_trait_0>;
-
-using fmha_pipeline_0 = ck_tile::BlockFmhaPipelineQRKSVSAsync<
-    fmha_pipeline_problem_0>;
-
-using fmha_epilogue_0 =
-    ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<typename FmhaFwdTypeConfig<ck_tile::bf16_t>::OaccDataType,
-                                           typename FmhaFwdTypeConfig<ck_tile::bf16_t>::ODataType,
-                                           true, true>>;
-
-using fmha_kernel_0 =
-    ck_tile::FmhaFwdKernel<ck_tile::FmhaFwdTilePartitioner_SHB<fmha_shape_0>,
-                  fmha_pipeline_0,
-                  fmha_epilogue_0>;
-
-using trait_0 = fmha_fwd_traits_<32, ck_tile::bf16_t, false,128, 64, 16, 32, 32, 32, true,
-                        ck_tile::BlockFmhaPipelineEnum::QRKSVS_ASYNC, fmha_mask_0, ck_tile::BlockAttentionBiasEnum::ALIBI, true, true, false, true, false, true, true>;
-
-#include <iostream>
-
-template<>
-float fmha_fwd_<trait_0>(const ck_tile::stream_config& s, fmha_fwd_args a)
-{
-    using k_ = fmha_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids] = fmha_fwd_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks             = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0a55ed15ef58c941e06dda890aeb530e28eb7bba.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0a55ed15ef58c941e06dda890aeb530e28eb7bba.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 128, 128, 16, 128, 16, 32, 128, 128>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    true,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<128,
-                                                         ck_tile::bf16_t,
-                                                         true,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0a672fca51de618e3441cf8764e8e83eb782f2c7.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0a672fca51de618e3441cf8764e8e83eb782f2c7.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 128, 128, 16, 128, 16, 32, 128, 128>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      false,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      false,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<128,
-                                                         ck_tile::fp16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         false,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0a68c2f9a3acdd787b81be455cbc7836c8bfd90c.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0a68c2f9a3acdd787b81be455cbc7836c8bfd90c.hip
@ -1,80 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_fwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::sequence<128, 64, 16, 32, 32, 32>;
-using fmha_warp_tile_0 = ck_tile::sequence<32, 32, 16>;
-
-using fmha_shape_0 = ck_tile::TileFmhaShape<fmha_block_tile_0,
-                                      ck_tile::sequence<2, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      ck_tile::sequence<2, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      true>;
-
-using fmha_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                    true,
-                                                    true,
-                                                    true,
-                                                    ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                    false,
-                                                    false,
-                                                    false,
-                                                    false,
-                                                    -1>;
-using fmha_mask_0 = ck_tile::SimplifiedGenericAttentionMask<false>;
-
-using fmha_pipeline_problem_0 = ck_tile::BlockFmhaPipelineProblem<
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SMPLComputeDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::PDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::OaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::ODataType,
-    fmha_shape_0,
-    false,
-    fmha_mask_0,
-    fmha_trait_0>;
-
-using fmha_pipeline_0 = ck_tile::BlockFmhaPipelineQRKSVSAsync<
-    fmha_pipeline_problem_0>;
-
-using fmha_epilogue_0 =
-    ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<typename FmhaFwdTypeConfig<ck_tile::fp16_t>::OaccDataType,
-                                           typename FmhaFwdTypeConfig<ck_tile::fp16_t>::ODataType,
-                                           true, true>>;
-
-using fmha_kernel_0 =
-    ck_tile::FmhaFwdKernel<ck_tile::FmhaFwdTilePartitioner_SHB<fmha_shape_0>,
-                  fmha_pipeline_0,
-                  fmha_epilogue_0>;
-
-using trait_0 = fmha_fwd_traits_<32, ck_tile::fp16_t, false,128, 64, 16, 32, 32, 32, true,
-                        ck_tile::BlockFmhaPipelineEnum::QRKSVS_ASYNC, fmha_mask_0, ck_tile::BlockAttentionBiasEnum::NO_BIAS, false, false, false, true, true, true, true>;
-
-#include <iostream>
-
-template<>
-float fmha_fwd_<trait_0>(const ck_tile::stream_config& s, fmha_fwd_args a)
-{
-    using k_ = fmha_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids] = fmha_fwd_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks             = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0a89417a043556970f72eebd48b4f3e7ac15377a.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0a89417a043556970f72eebd48b4f3e7ac15377a.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 128, 128, 16, 128, 16, 32, 128, 128>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<128,
-                                                         ck_tile::bf16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0a92671b6ea99891c0d69b1c793f4d131b9a82ed.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0a92671b6ea99891c0d69b1c793f4d131b9a82ed.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 128, 128, 16, 128, 16, 32, 128, 128>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::KGradDataType,
-                                      false,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::fp16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::fp16_t>::VGradDataType,
-                                      false,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<128,
-                                                         ck_tile::fp16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         false,
-                                                         false,
-                                                         false,
-                                                         false,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0aafb881e34a3794970a1282af740b3f19c138b1.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0aafb881e34a3794970a1282af740b3f19c138b1.hip
@ -1,80 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_fwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::sequence<128, 128, 32, 256, 32, 256>;
-using fmha_warp_tile_0 = ck_tile::sequence<32, 32, 16>;
-
-using fmha_shape_0 = ck_tile::TileFmhaShape<fmha_block_tile_0,
-                                      ck_tile::sequence<4, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      ck_tile::sequence<4, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      true>;
-
-using fmha_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                    true,
-                                                    true,
-                                                    true,
-                                                    ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                    false,
-                                                    false,
-                                                    false,
-                                                    false,
-                                                    -1>;
-using fmha_mask_0 = ck_tile::SimplifiedGenericAttentionMask<false>;
-
-using fmha_pipeline_problem_0 = ck_tile::BlockFmhaPipelineProblem<
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SMPLComputeDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::PDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::OaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::ODataType,
-    fmha_shape_0,
-    true,
-    fmha_mask_0,
-    fmha_trait_0>;
-
-using fmha_pipeline_0 = ck_tile::BlockFmhaPipelineQRKSVS<
-    fmha_pipeline_problem_0>;
-
-using fmha_epilogue_0 =
-    ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<typename FmhaFwdTypeConfig<ck_tile::bf16_t>::OaccDataType,
-                                           typename FmhaFwdTypeConfig<ck_tile::bf16_t>::ODataType,
-                                           true, true>>;
-
-using fmha_kernel_0 =
-    ck_tile::FmhaFwdKernel<ck_tile::FmhaFwdTilePartitioner_HBS<fmha_shape_0>,
-                  fmha_pipeline_0,
-                  fmha_epilogue_0>;
-
-using trait_0 = fmha_fwd_traits_<256, ck_tile::bf16_t, true,128, 128, 32, 256, 32, 256, true,
-                        ck_tile::BlockFmhaPipelineEnum::QRKSVS, fmha_mask_0, ck_tile::BlockAttentionBiasEnum::NO_BIAS, false, false, false, true, true, true, true>;
-
-#include <iostream>
-
-template<>
-float fmha_fwd_<trait_0>(const ck_tile::stream_config& s, fmha_fwd_args a)
-{
-    using k_ = fmha_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids] = fmha_fwd_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks             = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0ace6e29e1d3060c3086c08fe27b471e375f9c75.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0ace6e29e1d3060c3086c08fe27b471e375f9c75.hip
@ -1,80 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_fwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::sequence<128, 64, 32, 64, 32, 64>;
-using fmha_warp_tile_0 = ck_tile::sequence<32, 32, 16>;
-
-using fmha_shape_0 = ck_tile::TileFmhaShape<fmha_block_tile_0,
-                                      ck_tile::sequence<4, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      ck_tile::sequence<4, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      true>;
-
-using fmha_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                    true,
-                                                    true,
-                                                    true,
-                                                    ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                    false,
-                                                    true,
-                                                    true,
-                                                    false,
-                                                    -1>;
-using fmha_mask_0 = ck_tile::SimplifiedGenericAttentionMask<true>;
-
-using fmha_pipeline_problem_0 = ck_tile::BlockFmhaPipelineProblem<
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SMPLComputeDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::PDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::OaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::ODataType,
-    fmha_shape_0,
-    true,
-    fmha_mask_0,
-    fmha_trait_0>;
-
-using fmha_pipeline_0 = ck_tile::BlockFmhaPipelineQRKSVSAsync<
-    fmha_pipeline_problem_0>;
-
-using fmha_epilogue_0 =
-    ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<typename FmhaFwdTypeConfig<ck_tile::bf16_t>::OaccDataType,
-                                           typename FmhaFwdTypeConfig<ck_tile::bf16_t>::ODataType,
-                                           true, true>>;
-
-using fmha_kernel_0 =
-    ck_tile::FmhaFwdKernel<ck_tile::FmhaFwdTilePartitioner_HBS<fmha_shape_0>,
-                  fmha_pipeline_0,
-                  fmha_epilogue_0>;
-
-using trait_0 = fmha_fwd_traits_<64, ck_tile::bf16_t, true,128, 64, 32, 64, 32, 64, true,
-                        ck_tile::BlockFmhaPipelineEnum::QRKSVS_ASYNC, fmha_mask_0, ck_tile::BlockAttentionBiasEnum::ALIBI, true, true, false, true, true, true, true>;
-
-#include <iostream>
-
-template<>
-float fmha_fwd_<trait_0>(const ck_tile::stream_config& s, fmha_fwd_args a)
-{
-    using k_ = fmha_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids] = fmha_fwd_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks             = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0ad9d68fcee021437e13ffdf94d78252205f5a31.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0ad9d68fcee021437e13ffdf94d78252205f5a31.hip
@ -1,80 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_fwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_block_tile_0 = ck_tile::sequence<128, 64, 32, 64, 32, 64>;
-using fmha_warp_tile_0 = ck_tile::sequence<32, 32, 16>;
-
-using fmha_shape_0 = ck_tile::TileFmhaShape<fmha_block_tile_0,
-                                      ck_tile::sequence<4, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      ck_tile::sequence<4, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      true>;
-
-using fmha_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                    true,
-                                                    true,
-                                                    true,
-                                                    ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                    false,
-                                                    true,
-                                                    true,
-                                                    false,
-                                                    -1>;
-using fmha_mask_0 = ck_tile::SimplifiedGenericAttentionMask<true>;
-
-using fmha_pipeline_problem_0 = ck_tile::BlockFmhaPipelineProblem<
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SMPLComputeDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::PDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::OaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::ODataType,
-    fmha_shape_0,
-    false,
-    fmha_mask_0,
-    fmha_trait_0>;
-
-using fmha_pipeline_0 = ck_tile::BlockFmhaPipelineQRKSVSAsync<
-    fmha_pipeline_problem_0>;
-
-using fmha_epilogue_0 =
-    ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<typename FmhaFwdTypeConfig<ck_tile::fp16_t>::OaccDataType,
-                                           typename FmhaFwdTypeConfig<ck_tile::fp16_t>::ODataType,
-                                           true, true>>;
-
-using fmha_kernel_0 =
-    ck_tile::FmhaFwdKernel<ck_tile::FmhaFwdTilePartitioner_SHB<fmha_shape_0>,
-                  fmha_pipeline_0,
-                  fmha_epilogue_0>;
-
-using trait_0 = fmha_fwd_traits_<64, ck_tile::fp16_t, false,128, 64, 32, 64, 32, 64, true,
-                        ck_tile::BlockFmhaPipelineEnum::QRKSVS_ASYNC, fmha_mask_0, ck_tile::BlockAttentionBiasEnum::NO_BIAS, true, true, false, true, true, true, true>;
-
-#include <iostream>
-
-template<>
-float fmha_fwd_<trait_0>(const ck_tile::stream_config& s, fmha_fwd_args a)
-{
-    using k_ = fmha_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids] = fmha_fwd_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks             = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0b2647b5982405a48e8c8888552a4b89386ccdd9.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0b2647b5982405a48e8c8888552a4b89386ccdd9.hip
@ -1,80 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_fwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::sequence<128, 128, 32, 128, 32, 128>;
-using fmha_warp_tile_0 = ck_tile::sequence<32, 32, 16>;
-
-using fmha_shape_0 = ck_tile::TileFmhaShape<fmha_block_tile_0,
-                                      ck_tile::sequence<4, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      ck_tile::sequence<4, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      true>;
-
-using fmha_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                    false,
-                                                    true,
-                                                    true,
-                                                    ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                    false,
-                                                    false,
-                                                    true,
-                                                    false,
-                                                    -1>;
-using fmha_mask_0 = ck_tile::SimplifiedGenericAttentionMask<true>;
-
-using fmha_pipeline_problem_0 = ck_tile::BlockFmhaPipelineProblem<
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SMPLComputeDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::PDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::OaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::ODataType,
-    fmha_shape_0,
-    false,
-    fmha_mask_0,
-    fmha_trait_0>;
-
-using fmha_pipeline_0 = ck_tile::BlockFmhaPipelineQRKSVSAsync<
-    fmha_pipeline_problem_0>;
-
-using fmha_epilogue_0 =
-    ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<typename FmhaFwdTypeConfig<ck_tile::bf16_t>::OaccDataType,
-                                           typename FmhaFwdTypeConfig<ck_tile::bf16_t>::ODataType,
-                                           true, true>>;
-
-using fmha_kernel_0 =
-    ck_tile::FmhaFwdKernel<ck_tile::FmhaFwdTilePartitioner_SHB<fmha_shape_0>,
-                  fmha_pipeline_0,
-                  fmha_epilogue_0>;
-
-using trait_0 = fmha_fwd_traits_<128, ck_tile::bf16_t, false,128, 128, 32, 128, 32, 128, true,
-                        ck_tile::BlockFmhaPipelineEnum::QRKSVS_ASYNC, fmha_mask_0, ck_tile::BlockAttentionBiasEnum::ALIBI, false, true, false, true, false, true, true>;
-
-#include <iostream>
-
-template<>
-float fmha_fwd_<trait_0>(const ck_tile::stream_config& s, fmha_fwd_args a)
-{
-    using k_ = fmha_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids] = fmha_fwd_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks             = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0b2efefea81036641561bed80c75d77651176f74.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0b2efefea81036641561bed80c75d77651176f74.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 128, 128, 16, 128, 16, 32, 128, 128>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    true,
-    true,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<128,
-                                                         ck_tile::bf16_t,
-                                                         true,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0b3153af7bcdba33115a0d31f121fd76be2ffbcc.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0b3153af7bcdba33115a0d31f121fd76be2ffbcc.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 64, 32, 64, 32, 32, 64, 64>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<false,
-                                                       true,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<64,
-                                                         ck_tile::bf16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         false,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0b532fcf26f90c82a792cde7943634f667c1d033.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0b532fcf26f90c82a792cde7943634f667c1d033.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<32, 128, 32, 32, 32, 32, 64, 32, 32>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<2, 2, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                       true,
-                                                       true,
-                                                       true,
-                                                       ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<false>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<true,  false, false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    true,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      true,
-                                      true>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<32,
-                                                         ck_tile::bf16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::NO_BIAS,
-                                                         false,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         true,
-                                                         true>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0b90a0186d8b8004e3f19886c7992c8e04d0e066.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0b90a0186d8b8004e3f19886c7992c8e04d0e066.hip
@ -1,80 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_fwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::sequence<128, 128, 32, 256, 32, 256>;
-using fmha_warp_tile_0 = ck_tile::sequence<32, 32, 16>;
-
-using fmha_shape_0 = ck_tile::TileFmhaShape<fmha_block_tile_0,
-                                      ck_tile::sequence<4, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      ck_tile::sequence<4, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      true>;
-
-using fmha_trait_0 = ck_tile::TileFmhaTraits<false,
-                                                    false,
-                                                    false,
-                                                    false,
-                                                    ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                    false,
-                                                    true,
-                                                    false,
-                                                    false,
-                                                    -1>;
-using fmha_mask_0 = ck_tile::SimplifiedGenericAttentionMask<true>;
-
-using fmha_pipeline_problem_0 = ck_tile::BlockFmhaPipelineProblem<
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SMPLComputeDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::PDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::OaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::ODataType,
-    fmha_shape_0,
-    false,
-    fmha_mask_0,
-    fmha_trait_0>;
-
-using fmha_pipeline_0 = ck_tile::BlockFmhaPipelineQRKSVS<
-    fmha_pipeline_problem_0>;
-
-using fmha_epilogue_0 =
-    ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<typename FmhaFwdTypeConfig<ck_tile::bf16_t>::OaccDataType,
-                                           typename FmhaFwdTypeConfig<ck_tile::bf16_t>::ODataType,
-                                           false, false>>;
-
-using fmha_kernel_0 =
-    ck_tile::FmhaFwdKernel<ck_tile::FmhaFwdTilePartitioner_SHB<fmha_shape_0>,
-                  fmha_pipeline_0,
-                  fmha_epilogue_0>;
-
-using trait_0 = fmha_fwd_traits_<256, ck_tile::bf16_t, false,128, 128, 32, 256, 32, 256, true,
-                        ck_tile::BlockFmhaPipelineEnum::QRKSVS, fmha_mask_0, ck_tile::BlockAttentionBiasEnum::ALIBI, true, false, false, false, false, false, false>;
-
-#include <iostream>
-
-template<>
-float fmha_fwd_<trait_0>(const ck_tile::stream_config& s, fmha_fwd_args a)
-{
-    using k_ = fmha_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids] = fmha_fwd_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks             = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0b9585ba1c10acf67115c5899b3546608541820d.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0b9585ba1c10acf67115c5899b3546608541820d.hip
@ -1,138 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::
-    sequence<16, 64, 256, 16, 256, 16, 32, 256, 256>;
-using fmha_block_warps0_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_block_warps1_0 = ck_tile::sequence<4, 1, 1>;
-using fmha_block_warps2_0 = ck_tile::sequence<1, 4, 1>;
-using fmha_warp_tile0_0   = ck_tile::sequence<16, 16, 32>;
-using fmha_warp_tile1_0   = ck_tile::sequence<16, 16, 16>;
-
-// TODO: simplify Gemm0~4BlockWarps in TileFmhaBwdShape
-//       G0&G2 -> GSdP
-//       G1&G3 -> GdKV
-//       G4    -> GdQ
-using fmha_bwd_shape_0 = ck_tile::TileFmhaBwdShape<fmha_block_tile_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps0_0,
-                                                         fmha_warp_tile0_0,
-                                                         fmha_block_warps1_0,
-                                                         fmha_warp_tile1_0,
-                                                         fmha_block_warps2_0,
-                                                         fmha_warp_tile0_0>;
-
-using fmha_bwd_trait_0 = ck_tile::TileFmhaTraits<false,
-                                                       true,
-                                                       false,
-                                                       false,
-                                                       ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       false,
-                                                       1>;
-using fmha_mask_0      = ck_tile::SimplifiedGenericAttentionMask<true>;
-using fmha_dropout_0   = ck_tile::BlockDropoutBwd<false, true,  false>;
-
-using fmha_bwd_pipeline_problem_0 = ck_tile::BlockFmhaBwdPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::GemmDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::AccDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::QGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::KGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::VGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::BiasGradDataType,
-    fmha_bwd_shape_0,
-    false,
-    false,
-    fmha_mask_0,
-    fmha_dropout_0,
-    fmha_bwd_trait_0>;
-
-using fmha_bwd_pipeline_0 = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<fmha_bwd_pipeline_problem_0>;
-
-using fmha_bwd_dk_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::KGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dv_epilogue_0 = ck_tile::Default2DEpilogue<
-    ck_tile::Default2DEpilogueProblem<typename FmhaBwdTypeConfig<ck_tile::bf16_t>::AccDataType,
-                                      typename FmhaBwdTypeConfig<ck_tile::bf16_t>::VGradDataType,
-                                      true,
-                                      false>>;
-
-using fmha_bwd_dq_dk_dv_kernel_0 =
-    ck_tile::FmhaBwdDQDKDVKernel<fmha_bwd_pipeline_0,
-                                 fmha_bwd_dk_epilogue_0,
-                                 fmha_bwd_dv_epilogue_0>;
-
-using dq_dk_dv_trait_0 = fmha_bwd_dq_dk_dv_traits_<256,
-                                                         ck_tile::bf16_t,
-                                                         false,
-                                                         ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
-                                                         fmha_mask_0,
-                                                         fmha_dropout_0,
-                                                         ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                         false,
-                                                         false,
-                                                         true,
-                                                         false,
-                                                         false,
-                                                         false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dq_dk_dv_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dq_dk_dv_oneshot_<dq_dk_dv_trait_0>(const ck_tile::stream_config& s,
-                                                        fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dq_dk_dv_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dq_dk_dv_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dq_dk_dv_get_name_<dq_dk_dv_trait_0>()
-{
-    using k_ = fmha_bwd_dq_dk_dv_kernel_0;
-    return k_::GetName();
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0bb81407c8a2b3cdc5fecf655b3ad64d5d729cc9.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0bb81407c8a2b3cdc5fecf655b3ad64d5d729cc9.hip
@ -1,80 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_fwd.hpp>
-
-using fmha_dtype_0 = ck_tile::bf16_t;
-
-using fmha_block_tile_0 = ck_tile::sequence<128, 64, 32, 64, 32, 64>;
-using fmha_warp_tile_0 = ck_tile::sequence<32, 32, 16>;
-
-using fmha_shape_0 = ck_tile::TileFmhaShape<fmha_block_tile_0,
-                                      ck_tile::sequence<4, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      ck_tile::sequence<4, 1, 1>,
-                                      fmha_warp_tile_0,
-                                      true>;
-
-using fmha_trait_0 = ck_tile::TileFmhaTraits<true,
-                                                    true,
-                                                    true,
-                                                    true,
-                                                    ck_tile::BlockAttentionBiasEnum::ALIBI,
-                                                    false,
-                                                    true,
-                                                    true,
-                                                    false,
-                                                    -1>;
-using fmha_mask_0 = ck_tile::SimplifiedGenericAttentionMask<false>;
-
-using fmha_pipeline_problem_0 = ck_tile::BlockFmhaPipelineProblem<
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::QDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::KDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::VDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::SMPLComputeDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::BiasDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::RandValOutputDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::LSEDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::PDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::OaccDataType,
-    typename FmhaFwdTypeConfig<fmha_dtype_0>::ODataType,
-    fmha_shape_0,
-    true,
-    fmha_mask_0,
-    fmha_trait_0>;
-
-using fmha_pipeline_0 = ck_tile::BlockFmhaPipelineQRKSVSAsync<
-    fmha_pipeline_problem_0>;
-
-using fmha_epilogue_0 =
-    ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<typename FmhaFwdTypeConfig<ck_tile::bf16_t>::OaccDataType,
-                                           typename FmhaFwdTypeConfig<ck_tile::bf16_t>::ODataType,
-                                           true, true>>;
-
-using fmha_kernel_0 =
-    ck_tile::FmhaFwdKernel<ck_tile::FmhaFwdTilePartitioner_HBS<fmha_shape_0>,
-                  fmha_pipeline_0,
-                  fmha_epilogue_0>;
-
-using trait_0 = fmha_fwd_traits_<64, ck_tile::bf16_t, true,128, 64, 32, 64, 32, 64, true,
-                        ck_tile::BlockFmhaPipelineEnum::QRKSVS_ASYNC, fmha_mask_0, ck_tile::BlockAttentionBiasEnum::ALIBI, true, true, false, true, true, true, true>;
-
-#include <iostream>
-
-template<>
-float fmha_fwd_<trait_0>(const ck_tile::stream_config& s, fmha_fwd_args a)
-{
-    using k_ = fmha_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids] = fmha_fwd_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks             = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
--- a/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0bc7910aac798f0555e9e505ad7f177c9fbbd92c.hip
+++ b/aten/src/ATen/native/transformers/hip/flash_attn/ck/fmha_ck_autogen_0bc7910aac798f0555e9e505ad7f177c9fbbd92c.hip
@ -1,65 +0,0 @@
-// ==========================================
-// THIS CODE IS AUTOGENERATED. DO NOT MODIFY.
-// @generated
-// ==========================================
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
-
-// auto generated by generate.py
-#include <fmha_bwd.hpp>
-
-using fmha_dtype_0 = ck_tile::fp16_t;
-
-using fmha_bwd_dot_do_o_trait_0 =
-    ck_tile::TileFmhaBwdOGradDotOTraits<true, false, 2>;
-
-using fmha_bwd_dot_do_o_pipeline_problem_0 = ck_tile::BlockFmhaBwdOGradDotOPipelineProblem<
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::ODataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::OGradDataType,
-    typename FmhaBwdTypeConfig<fmha_dtype_0>::DDataType,
-    /* BlockSize = */ 64,
-    64,
-    false,
-    fmha_bwd_dot_do_o_trait_0>;
-
-using fmha_bwd_dot_do_o_0 =
-    typename ck_tile::BlockFmhaBwdOGradDotO<fmha_bwd_dot_do_o_pipeline_problem_0>;
-
-using fmha_bwd_dot_do_o_kernel_0 =
-    ck_tile::FmhaBwdOGradDotOKernel<fmha_bwd_dot_do_o_0>;
-
-using dot_do_o_trait_0 =
-    fmha_bwd_dot_do_o_traits_<64, ck_tile::fp16_t, false, true, false>;
-
-#include <iostream>
-
-template <>
-float fmha_bwd_dot_do_o_<dot_do_o_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_ = fmha_bwd_dot_do_o_kernel_0;
-    if(s.log_level_ > 0)
-        std::cout << ", " << k_::GetName() << std::flush;
-    auto [kargs, grids]                    = fmha_bwd_dot_do_o_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    return ck_tile::launch_kernel(
-        s, ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs));
-}
-
-template <>
-void fmha_bwd_dot_do_o_oneshot_<dot_do_o_trait_0>(const ck_tile::stream_config& s, fmha_bwd_args a)
-{
-    using k_                               = fmha_bwd_dot_do_o_kernel_0;
-    auto [kargs, grids]                    = fmha_bwd_dot_do_o_create_kargs_and_grids<k_>(a);
-    constexpr dim3 blocks                  = k_::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = k_::kBlockPerCu;
-    ck_tile::make_kernel_pt<blocks.x, kBlockPerCu>(k_{}, grids, blocks, 0, kargs)(
-        ck_tile::stream_config{s.stream_id_});
-}
-
-template <>
-std::string fmha_bwd_dot_do_o_get_name_<dot_do_o_trait_0>()
-{
-    using k_ = fmha_bwd_dot_do_o_kernel_0;
-    return k_::GetName();
-}
--- a/Show More
+++ b/Show More