!237 Add test cases for zigzag ring attn

Merge pull request !237 from lynn/master
2025-06-12 11:53:29 +00:00
parent 6f12fb0e8a
commit 09786acf58
1 changed files with 205 additions and 0 deletions
--- a/tests/unit/flow/model/test_zigzag_ring_flash_attn_varlen_func.py
+++ b/tests/unit/flow/model/test_zigzag_ring_flash_attn_varlen_func.py
@ -0,0 +1,205 @@
 # Copyright (c) 2025 Huawei Technologies Co., Ltd.
 #
 # openMind is licensed under Mulan PSL v2.
 # You can use this software according to the terms and conditions of the Mulan PSL v2.
 # You may obtain a copy of Mulan PSL v2 at:
 #
 #          http://license.coscl.org.cn/MulanPSL2
 #
 # THIS SOFTWARE IS PROVIDED ON AN "AS IS" BASIS, WITHOUT WARRANTIES OF ANY KIND,
 # EITHER EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO NON-INFRINGEMENT,
 # MERCHANTABILITY OR FIT FOR A PARTICULAR PURPOSE.
 # See the Mulan PSL v2 for more details.
 """
 torchrun --nproc_per_node=4 test_zigzag_ring_flash_attn_varlen_func.py
 """
 import random
 import torch
 try:
    import torch_npu  # noqa: F401
    is_npu_available = True
 except ImportError:
    print("Failed to import torch_npu.")
    is_npu_available = False
 import torch.distributed as dist
 from openmind.flow.model.context_parallel.zigzag_ring_flash_attn_varlen import (
    zigzag_ring_flash_attn_varlen_func,
    flatten_softmax,
    get_sub_seq_lens,
 )
 def extract_softmax_value(softmax_value, cu_seqlens):
    values = []
    for i in range(len(cu_seqlens) - 1):
        start, end = cu_seqlens[i], cu_seqlens[i + 1]
        value = softmax_value[start:end]
        values.append(value)
    return values
 def set_seed(rank, seed=42):
    seed = rank + seed
    random.seed(seed)
    torch.manual_seed(seed)
    if is_npu_available:
        torch.npu.manual_seed(seed)
        torch.npu.manual_seed_all(seed)
 def log(msg, a, rank0_only=False):
    world_size = dist.get_world_size()
    rank = dist.get_rank()
    if rank0_only:
        if rank == 0:
            print(
                f"{msg}: " f"max {a.abs().max().item():.3g}, " f"mean {a.abs().mean().item():.3g}",
                flush=True,
            )
        return
    for i in range(world_size):
        if i == rank:
            if rank == 0:
                print(f"{msg}:")
            print(
                f"[{rank}] " f"max {a.abs().max().item():.3g}, " f"mean {a.abs().mean().item():.3g}",
                flush=True,
            )
        dist.barrier()
 def extract_local(value, cu_seqlens, rank, world_size):
    local_values = []
    for i in range(len(cu_seqlens) - 1):
        start, end = cu_seqlens[i], cu_seqlens[i + 1]
        local_value = value[start:end].chunk(2 * world_size, dim=0)
        local_values.extend(
            [
                local_value[rank].detach().clone(),
                local_value[2 * world_size - 1 - rank].detach().clone(),
            ]
        )
    return torch.cat(local_values, dim=0).contiguous()
 if __name__ == "__main__":
    dist.init_process_group("hccl")
    rank = dist.get_rank()
    set_seed(rank)
    world_size = dist.get_world_size()
    dtype = torch.bfloat16
    device = torch.device(f"npu:{rank}")
    nheads = 5
    d = 128
    dropout_p = 0
    causal = True
    cu_seqlens = [0, 120, 1248, 4232]
    cu_seqlens_tensor = torch.tensor(cu_seqlens, dtype=torch.int32, device=device)
    sub_seq_lens = get_sub_seq_lens(cu_seqlens)
    total_length = cu_seqlens[-1]
    assert torch.all(cu_seqlens_tensor % world_size == 0)
    assert d % 8 == 0
    q = torch.randn(total_length, nheads, d, device=device, dtype=dtype, requires_grad=True)
    k = torch.randn(total_length, nheads, d, device=device, dtype=dtype, requires_grad=True)
    v = torch.randn(total_length, nheads, d, device=device, dtype=dtype, requires_grad=True)
    dist.broadcast(q, src=0)
    dist.broadcast(k, src=0)
    dist.broadcast(v, src=0)
    dout = torch.randn(total_length, nheads, d, device=device, dtype=dtype)
    dist.broadcast(dout, src=0)
    local_cu_seqlens_tensor = cu_seqlens_tensor // world_size
    local_sub_seq_lens = get_sub_seq_lens(local_cu_seqlens_tensor)
    local_q = extract_local(q, cu_seqlens, rank, world_size)
    local_k = extract_local(k, cu_seqlens, rank, world_size)
    local_v = extract_local(v, cu_seqlens, rank, world_size)
    local_q.requires_grad = True
    local_k.requires_grad = True
    local_v.requires_grad = True
    local_dout = extract_local(dout, cu_seqlens, rank, world_size)
    dist.barrier()
    if rank == 0:
        print(">>> forward:")
    attn_mask = torch.triu(torch.ones([2048, 2048], device=q.device), diagonal=1).bool()
    out, softmax_max, softmax_sum, _, _, _, _ = torch_npu.npu_fusion_attention(
        q,
        k,
        v,
        head_num=q.shape[1],
        input_layout="TND",
        atten_mask=attn_mask,
        scale=d ** (-0.5),
        actual_seq_qlen=tuple(cu_seqlens_tensor[1:].cpu().numpy().tolist()),
        actual_seq_kvlen=tuple(cu_seqlens_tensor[1:].cpu().numpy().tolist()),
        sparse_mode=3,
        keep_prob=1.0 - dropout_p,
    )
    local_out = extract_local(out, cu_seqlens, rank, world_size)
    softmax_max = flatten_softmax(softmax_max, sub_seq_lens)
    local_softmax_max_list = extract_softmax_value(softmax_max, cu_seqlens)
    softmax_sum = flatten_softmax(softmax_sum, sub_seq_lens)
    local_softmax_sum_list = extract_softmax_value(softmax_sum, cu_seqlens)
    ring_out, ring_softmax_max, ring_softmax_sum = zigzag_ring_flash_attn_varlen_func(
        local_q,
        local_k,
        local_v,
        local_cu_seqlens_tensor,
        dropout_p=dropout_p,
        causal=causal,
    )
    ring_softmax_max = flatten_softmax(ring_softmax_max, local_sub_seq_lens)
    ring_softmax_max_list = extract_softmax_value(ring_softmax_max, local_cu_seqlens_tensor)
    ring_softmax_sum = flatten_softmax(ring_softmax_sum, local_sub_seq_lens)
    ring_softmax_sum_list = extract_softmax_value(ring_softmax_sum, local_cu_seqlens_tensor)
    log("out diff", local_out - ring_out)
    for i, (lsm, ring_lsm) in enumerate(zip(local_softmax_max_list, ring_softmax_max_list)):
        local_lsm = lsm.chunk(2 * world_size, dim=0)
        local_lsm = torch.cat([local_lsm[rank], local_lsm[2 * world_size - 1 - rank]], dim=0)
        log(f"softmax max diff {i}", local_lsm - ring_lsm)
    for i, (lss, ring_lss) in enumerate(zip(local_softmax_sum_list, ring_softmax_sum_list)):
        local_lss = lss.chunk(2 * world_size, dim=0)
        local_lss = torch.cat([local_lss[rank], local_lss[2 * world_size - 1 - rank]], dim=0)
        log(f"softmax sum diff {i}", local_lss - ring_lss)
    dist.barrier()
    if rank == 0:
        print(">>> backward:")
    out.backward(dout)
    dq = q.grad
    dk = k.grad
    dv = v.grad
    local_dq = extract_local(dq, cu_seqlens, rank, world_size)
    local_dk = extract_local(dk, cu_seqlens, rank, world_size)
    local_dv = extract_local(dv, cu_seqlens, rank, world_size)
    ring_out.backward(local_dout)
    ring_dq = local_q.grad
    ring_dk = local_k.grad
    ring_dv = local_v.grad
    log("dq diff", local_dq - ring_dq)
    log("dk diff", local_dk - ring_dk)
    log("dv diff", local_dv - ring_dv)
    dist.destroy_process_group()