fix attn args (#9)

jinminxi104 · jinminxi104 · commit e4c3aca35c8b · 2024-08-22T23:35:11.000+08:00
diff --git a/lmdeploy/pytorch/kernels/ascend/paged_attention_fwd.py b/lmdeploy/pytorch/kernels/ascend/paged_attention_fwd.py
@@ -33,7 +33,7 @@ def flash_context_attention(
                 q_seq_len[i:i + 1],
                 num_q_heads,
                 num_kv_heads,
-                context.attention_mask[i:i + 1],
+                attn_mask=context.attention_mask[i:i + 1],
                 attn_output=attn_output,
             )
         else:
@@ -51,7 +51,7 @@ def flash_context_attention(
                 kv_seq_len[i:i + 1],
                 num_q_heads,
                 num_kv_heads,
-                context.attention_mask[i:i + 1],
+                attn_mask=context.attention_mask[i:i + 1],
                 attn_output=attn_output,
             )