o
    4/Êi} ã                <   @   s¼  d Z 	 ddlZddlmZmZ ddlZddlZddlmZ ddl	m
Z
 ddlmZ ddlm  mZ z
ddlmZ dZW n eyK   d	Zd
d„ ZY nw z
ddlmZ dZW n eyc   d	ZdZY nw dZdZdZdZdZdZdZdZ dZ!dZ"dZ#dZ$dZ%dZ&dZ'dZ(dZ)ee) Z*dZ+dZ,dZ-dede.de.de.fdd„Z/dede.de.de.fdd„Z0ej1dej2dej3dej4d ej5e. d!ej5e. d"ej3d#ej3d$ej3d%ej3d&ej3d'ej3d(ej3d)ej3d*ej3d+ej3d,ej5e6 d-ej5e6 d.ej5e6 d/ej5e. d0ej5e. d1ej5e. d2ej5e. d3ej5e. d4ej5e. d5ej5e7 d6ej5e7 d7ej5e7 f6d8d9„ƒZ8ej1dej2dej3dej4d ej5e. d!ej5e. d"ej3d#ej3d$ej3d%ej3d&ej3d'ej3d(ej3d)ej3d*ej3d+ej3d,ej5e6 d-ej5e6 d.ej5e6 d/ej5e. d0ej5e. d1ej5e. d2ej5e. d3ej5e. d4ej5e. d5ej5e7 d6ej5e7 d7ej5e7 f6d:d;„ƒZ9ej:dej3d"ej3d#ej3d$ej3d%ej3d&ej3d'ej3d(ej3d)ej3d*ej3d+ej3d,ej5e6 d-ej5e6 d.ej5e6 d/ej5e. d0ej5e. d1ej5e. d2ej5e. d3ej5e. d4ej5e. d5ej5e7 d6ej5e7 d7ej5e7 d<ej;f0d=d>„ƒZ<ej:dej3d"ej3d#ej3d$ej3d%ej3d&ej3d'ej3d(ej3d)ej3d*ej3d+ej3d,ej5e6 d-ej5e6 d.ej5e6 d/ej5e. d0ej5e. d1ej5e. d2ej5e. d3ej5e. d4ej5e. d5ej5e7 d6ej5e7 d7ej5e7 d<ej;f0d?d@„ƒZ=ej>d0e.d1e.d2e.d/e.d3e.d4e.dAej?d.e6d6e7fdBdC„ƒZ@ej>d0e.d1e.d2e.d/e.d3e.d4e.dAej?d.e6d6e7fdDdE„ƒZAe					dfd%ej3d&ej3d'ej3dFeej3 d"ej3d#ej3d$ej3d(ej3d.ee6 dGeej3 d6e7dHeej3 dIeej3 deej3ej3f fdJdK„ƒZBej1dej2dej3dej4d!ej5e. d%ej3d&ej3d'ej3d#ej3d(ej3d"ej3d$ej3d)ej3d*ej3d,ej5e6 d-ej5e6 d.ej5e6 d2ej5e. d/ej5e. d6ej5e7 f&dLdM„ƒZCej1dej2dej3dej4d!ej5e. d%ej3d&ej3d'ej3d#ej3d(ej3d"ej3d$ej3d)ej3d*ej3d,ej5e6 d-ej5e6 d.ej5e6 d2ej5e. d/ej5e. d6ej5e7 f&dNdO„ƒZDej:d+ej3d%ej3d&ej3d'ej3d#ej3d(ej3d"ej3d$ej3dej3d*ej3d)ej3d,ej5e6 d-ej5e6 d.ej5e6 d0ej5e. d1ej5e. d2ej5e. d/ej5e. d3ej5e. d4ej5e. d5ej5e7 d6ej5e7 d<ej;f.dPdQ„ƒZEej:d+ej3d%ej3d&ej3d'ej3d#ej3d(ej3d"ej3d$ej3dej3d*ej3d)ej3d,ej5e6 d-ej5e6 d.ej5e6 d0ej5e. d1ej5e. d2ej5e. d/ej5e. d3ej5e. d4ej5e. d5ej5e7 d6ej5e7 d<ej;f.dRdS„ƒZFe			dgd%ej3d&ej3d'ej3dFej3d"ej3d#ej3d$ej3d(ej3d.ee6 dGeej3 d6e7deej3ej3f fdTdU„ƒZGej1dej3dVej3d ej5e. d!ej5e. dWej5e. d"ej3d#ej3d$ej3d%ej3d&ej3d'ej3d(ej3d)ej3d*ej3d+ej3d,ej5e6 d-ej5e6 d.ej5e6 d/ej5e. d0ej5e. d1ej5e. d2ej5e. d3ej5e. d4ej5e. d5ej5e7 d6ej5e7 d7ej5e7 dXej5e7 dYej5e7 f:dZd[„ƒZHej:dej3dVej3d"ej3d#ej3d$ej3d%ej3d&ej3d'ej3d(ej3d)ej3d*ej3d+ej3d,ej5e6 d-ej5e6 d.ej5e6 d/ej5e. d0ej5e. d1ej5e. d2ej5e. d3ej5e. d4ej5e. dWej5e. d ej5e. d5ej5e7 d6ej5e7 d7ej5e7 dXej5e7 dYej5e7 d<ej;f:d\d]„ƒZIej>d0e.d1e.d2e.d/e.d3e.d4e.d^e.d_e.dXe7dYe7d.e6d6e7dWe.d e.fd`da„ƒZJe					dhd%ej3d&ej3d'ej3dHej3dIej3d"ej3d#ej3d$ej3d(ej3d.ee6 dGeej3 dbeej3 dXe7d6e7deej3ej3f fdcdd„ƒZKdS )ia3  
Copyright (c) 2025 by FlashInfer team.

Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at

  http://www.apache.org/licenses/LICENSE-2.0

Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.
é    N)ÚOptionalÚTuple)Úcpasync)Úfrom_dlpacké   )Úflashinfer_apiTFc                 C   s   | S )N© )Úfuncr   r   úb/lsinfo/ai/hellotax_ai/llm_service/venv_vllm/lib/python3.10/site-packages/flashinfer/gdn_decode.pyr   ;   s   r   )Úgated_delta_ruleé   é€   é   é    é$   é   é   é   é   Ú
batch_sizeÚseq_lenÚreturnc                 C   s   dS )zÇSelect vec_size for MTP kernel.

    Always use vec_size=4 (32 threads per group = full warp, 4 groups per block).
    Full warp shuffle is more efficient and achieves >= 1.0x speedup vs Triton.
    r   r   ©r   r   r   r   r
   Úget_vec_size_mtpu   s   r   c                 C   s4   | dkrdS | dkrdS | dkrdS | dkrdS dS )zÆSelect optimal TILE_V for MTP kernel based on batch size and sequence length.

    With vec_size=4, num_groups=4, rows_per_group = tile_v / 4.
    Tuned via grid search for optimal performance.
    r   r   r   r   r   é@   r   r   r   r   r
   Úget_tile_v_mtp~   s   r   Útiled_copy_loadÚ	h0_sourceÚsmem_layout_stagedÚvec_sizeÚnum_v_tilesÚA_logÚaÚdt_biasÚqÚkÚvÚbÚoÚ
h0_indicesÚ
cu_seqlensÚsoftplus_betaÚsoftplus_thresholdÚscaleÚHVÚBÚTÚHÚKÚVÚuse_initial_stateÚuse_qk_l2normÚ	is_varlenc           a   
   C   s¤  t j ¡ \}}}|d }t j ¡ }t j |¡}t j ¡ \}}}|t } |t }!|t }"| | }#| | }$|$||  }%d}&tj 	¡ }'|' 
tj|d¡}(|' 
tjt  |f¡d¡})|' 
tjt  |f¡d¡}*t  t j|fddtj¡}+t  t j|fddtj¡},t  t j|fddtj¡}-t  t j|fddtj¡}.t  t j|fddtj¡}/t  t j|fddtj¡}0|| }1t ||$ ¡}2t ||#|&|$f ¡}3t ||$ ¡}4t ||#|&|$f ¡}5t j ¡  || ddf }6t  |dttf| ddf¡}7t  |6ttfd	¡}8|  |¡}9|!|" }:t td |"¡};t|:|:|; ƒD ]-}<|<|: t }=|8dd|<f }>|(dd|=f }?|9 |>¡}@|9 |?¡}At  | |@|A¡ t j ¡  qt  |ddd|f|#|&|%|f¡}Bt  |	ddd|f|#|&|%|f¡}Ct  |B|.¡ t  |C|/¡ t |¡D ]}Dt |.|D ¡|,|D< t |/|D ¡|+|D< qkt  |
ddd|f|#|&|$|f¡}Et  |E|0¡ t |¡D ]}Dt |0|D ¡|*|1|D < q›t j ¡  d
}Fd
}G|dkr|3|4 }H||H }Id
}J|I|krìt j|Idd}Kt d|K ¡}Lt t j|Ldd¡}Mt t d¡| |M ¡}Jn|H}Jt j|2dd |J }Nddt j|5 dd  }Gt j|Ndd}Ft j |Fd¡}Ft j |Gd¡}G|r†d
}Od
}Pt |¡D ]}D|O|,|D |,|D  7 }O|P|+|D |+|D  7 }Pq%dD ]}Q|Ot jj |O|Qddd7 }O|Pt jj |P|Qddd7 }Pq?t j!|Od dd}Rt j!|Pd dd}St |¡D ]}D|,|D |R |,|D< |+|D |S |+|D< qrt |¡D ]}D|,|D | |,|D< q‹|:|" }Tt|:|TƒD ]}<|<|: t }=t j "d¡ t j ¡  |<|; }U|U|Tk rç|U|: t }V|8dd|Uf }W|(dd|Vf }X|9 |W¡}@|9 |X¡}At  | |@|A¡ t j ¡  t dtd¡D ]¾}Y|d }Zd
}[t  |(d|df|Y|Z ||=f¡}\t  |\|-¡ t |¡D ]}D|-|D |F |-|D< |[|-|D |+|D  7 }[qdD ]}Q|[t jj |[|Qddd7 }[q(|*|<t |Y |Z  |[ }]|]|G }]d
}^t |¡D ]}D|-|D  |+|D |] 7  < |^|-|D |,|D  7 }^qOt  |7dd|dfd|Y|Z ||<f¡}_t  |-|_¡ dD ]}Q|^t jj |^|Qddd7 }^q‚|<t |Y |Z }`|dkr«|`|k r«t |^¡|)|`< qîq t j ¡  ||:t krÎ||Tt k rÐ|)| ||#|&|$|f< dS dS dS ©zCEach block uses pipeline to load one batch and vectorized writebackr   r   r   r   ©r   ©ÚstrideNr   )Nr   ç        T©Úfastmathç      ð?©r   r   r   r   r   éÿÿÿÿé   ©ÚoffsetÚmaskÚmask_and_clampçíµ ÷Æ°>r   )#ÚcuteÚarchÚ
thread_idxÚwarp_idxÚmake_warp_uniformÚ	block_idxÚNUM_BLOCKS_PER_STATEÚcutlassÚutilsÚSmemAllocatorÚallocate_tensorÚFloat32ÚBFloat16Úmake_layoutÚmake_rmem_tensorÚbarrierÚ
local_tileÚTILE_VÚTILE_KÚ	get_sliceÚminÚ
NUM_STAGESÚrangeÚpartition_SÚpartition_DÚcopyÚcp_async_commit_groupÚautovec_copyÚrange_constexprÚexpÚlogÚshuffle_syncÚshuffle_sync_bflyÚrsqrtÚcp_async_wait_group)ar   r   r   r   r    r!   r"   r#   r$   r%   r&   r'   r(   r)   r*   r+   r,   r-   r.   r/   r0   r1   r2   r3   r4   r5   r6   ÚtidxÚ_Úlane_idrJ   rL   Ú	batch_idxÚbatch_innerÚnum_v_tiles_per_blockÚi_nÚi_hvÚi_hÚi_tÚsmemÚsDataÚsOutputÚsVÚr_kÚr_qÚr_hÚr_q_bf16Úr_k_bf16Úr_v_bf16Úk_startÚr_A_logÚr_aÚ	r_dt_biasÚr_bÚ
gSrc_batchÚgDstÚgSrcÚthr_copy_loadÚstart_v_tilesÚprefetch_countÚv_tilesÚstageÚ	gSrc_tileÚsData_stageÚthr_gSrcÚ	thr_sDataÚq_tileÚk_tileÚiÚv_tileÚr_gÚr_betaÚxÚbeta_xÚ
softplus_xÚ
exp_beta_xÚ	log_inputÚ
log_resultÚ	r_g_valueÚsum_qÚsum_krC   Ú
inv_norm_qÚ
inv_norm_kÚend_v_tilesÚnext_v_tilesÚ
next_stageÚ	gSrc_nextÚ
sData_nextÚrowÚ
row_offsetÚsum_hkÚ
sData_tileÚv_newÚsum_hqÚ	gDst_tileÚo_idxr   r   r
   Ú*gdn_decode_kernel_small_batch_pretranspose   s<   

ÿÿÿÿÿÿ

ÿ





ÿÿÿ




ÿÿÿÿ€Ø
.ÿr­   c           \   
   C   sP  t j ¡ \}}}|d }t j ¡ }t j |¡}t j ¡ \}}}|| } || }!|!||  }"d}#t ||! ¡}$t || |#|!f ¡}%t ||! ¡}&t || |#|!f ¡}'tj 	¡ }(|( 
tj|d¡})|( 
tjt  |f¡d¡}*|( 
tjt  |f¡d¡}+t  t j|fddtj¡},t  t j|fddtj¡}-t  t j|fddtj¡}.t  t j|fddtj¡}/t  t j|fddtj¡}0t  t j|fddtj¡}1|| }2t j ¡  ||ddf }3t  |dttf|ddf¡}4t  |3ttfd	¡}5|  |¡}6t td |¡}7t|7ƒD ]*}8|8t }9|5dd|8f }:|)dd|9f };|6 |:¡}<|6 |;¡}=t  | |<|=¡ t j ¡  qût  |ddd|f| |#|"|f¡}>t  |	ddd|f| |#|"|f¡}?t  |>|/¡ t  |?|0¡ t |¡D ]}@t |/|@ ¡|-|@< t |0|@ ¡|,|@< qUt  |
ddd|f| |#|!|f¡}At  |A|1¡ t |¡D ]}@t |1|@ ¡|+|2|@ < q…t j ¡  d
}Bd
}C|dkrõ|%|& }D||D }Ed
}F|E|krÖt j|Edd}Gt d|G ¡}Ht t j|Hdd¡}It t d¡| |I ¡}Fn|D}Ft j|$dd |F }Jddt j|' dd  }Ct j|Jdd}Bt j |Bd¡}Bt j |Cd¡}C|rpd
}Kd
}Lt |¡D ]}@|K|-|@ |-|@  7 }K|L|,|@ |,|@  7 }LqdD ]}M|Kt jj|K|Mddd7 }K|Lt jj|L|Mddd7 }Lq)t j |Kd dd}Nt j |Ld dd}Ot |¡D ]}@|-|@ |N |-|@< |,|@ |O |,|@< q\t |¡D ]}@|-|@ | |-|@< qut|ƒD ]	}8|8t }9t j !d¡ t j ¡  |8|7 }P|P|k rÈ|Pt }Q|5dd|Pf }R|)dd|Qf }S|6 |R¡}<|6 |S¡}=t  | |<|=¡ t j ¡  t dtd¡D ]¾}T|d }Ud
}Vt  |)d|df|T|U ||9f¡}Wt  |W|.¡ t |¡D ]}@|.|@ |B |.|@< |V|.|@ |,|@  7 }VqñdD ]}M|Vt jj|V|Mddd7 }Vq	|+|8t |T |U  |V }X|X|C }Xd
}Yt |¡D ]}@|.|@  |,|@ |X 7  < |Y|.|@ |-|@  7 }Yq0t  |4dd|dfd|T|U ||8f¡}Zt  |.|Z¡ dD ]}M|Yt jj|Y|Mddd7 }Yqc|8t |T |U }[|dkrŒ|[|k rŒt |Y¡|*|[< qÏq…t j ¡  ||k r¦|*| || |#|!|f< dS dS r7   )"rG   rH   rI   rJ   rK   rL   rN   rR   rO   rP   rQ   rS   rT   rU   rV   rW   rX   rY   rZ   r[   r\   r]   r^   r_   r`   ra   rb   rc   rd   re   rf   rg   rh   ri   )\r   r   r   r   r    r!   r"   r#   r$   r%   r&   r'   r(   r)   r*   r+   r,   r-   r.   r/   r0   r1   r2   r3   r4   r5   r6   rj   rk   rl   rJ   rm   rp   rq   rr   rs   r   r€   r   r‚   rt   ru   rv   rw   rx   ry   rz   r{   r|   r}   r~   rƒ   r„   r…   r†   rˆ   r‰   rŠ   r‹   rŒ   r   rŽ   r   r   r‘   r’   r“   r”   r•   r–   r—   r˜   r™   rš   r›   rœ   r   rC   rž   rŸ   r¡   r¢   r£   r¤   r¥   r¦   r§   r¨   r©   rª   r«   r¬   r   r   r
   Ú(gdn_decode_kernel_big_batch_pretranspose£  s2   

ÿÿÿÿÿÿ

ÿ





ÿÿÿ




ÿÿÿÿ€Ø
.
ÿr®   Ústreamc           #      C   s   | j jd | j jd | j jd }}}tjtjtjjdtj	dd}tj
ddd	}t 
d
¡}t |||¡}t |t¡}td } tj
tttftdtt fd	}!dt t t d|  d|  d }"t|| |!| ||||||||||	|
||||||||||||ƒj|t ddftddg|"|d dS )z>Launch original pipelined kernel for small batch pretranspose.r   r   r   ©Ú
cache_moder   ©Únum_bits_per_copy©r   r   ©r   r   r9   ©r   r   r   r   ©ÚgridÚblockrt   r¯   N)ÚlayoutÚshaperG   Úmake_copy_atomr   Ú	CopyG2SOpÚLoadCacheModeÚGLOBALrN   rR   rT   Úmake_tiled_copy_tvÚceil_divrX   rY   r\   r­   ÚlaunchrM   ÚNUM_THREADS©#r   r!   r"   r#   r$   r%   r&   r'   r(   r)   r*   r+   r,   r-   r.   r/   r0   r1   r2   r3   r4   r5   r6   r¯   r   Úv_dimÚk_dimÚ	copy_atomÚthread_layoutÚ
val_layoutr   r    r   r   Ú
smem_bytesr   r   r
   Ú.run_gdn_decode_kernel_small_batch_pretranspose±  sr   



ýýþ
ÿÿ$å
àrË   c           #      C   s  | j jd | j jd | j jd }}}tjtjtjjdtj	dd}tj
ddd	}t 
d
¡}t |||¡}t |t¡}td } tj
tttftdtt fd	}!dt t t d|  d|  d }"t|| |!| ||||||||||	|
||||||||||||ƒj|ddftddg|"|d d S )Nr   r   r   r°   r   r²   r´   rµ   r9   r¶   r   r   r·   )rº   r»   rG   r¼   r   r½   r¾   r¿   rN   rR   rT   rÀ   rÁ   rX   rY   r\   r®   rÂ   rÃ   rÄ   r   r   r
   Ú,run_gdn_decode_kernel_big_batch_pretranspose  sr   



ýýþ
ÿÿ$å
àrÌ   Údtypec	           	      C   ó   i S )zECache compiled kernel for given configuration (pretranspose version).r   ©	r/   r0   r1   r.   r2   r3   rÍ   r-   r5   r   r   r
   Ú_get_compiled_decode_kernelƒ  ó   rÐ   c	           	      C   rÎ   )zECache compiled kernel for given configuration (nontranspose version).r   rÏ   r   r   r
   Ú(_get_compiled_decode_kernel_nontranspose”  rÑ   rÒ   ÚstateÚoutputÚinitial_stateÚinitial_state_indicesc           0      C   sø  | j \}}}}|j \}}}}|du}||duksJ dƒ‚|rA|j d }|j ||||fks@J d|› d|› d|› d|› d|j › 
ƒ‚n%|dusIJ d	ƒ‚|j ||||fksfJ d
|› d|› d|› d|› d|j › 
ƒ‚|rk|jn|j}to€|tjko€|dv o€|dko€|dk}|rí| jtjtjfv s”J d| j› ƒ‚|jtjks¢J d|j› ƒ‚|du rª|d n|}t|||dd| ||||rº|n|||
|d}|	du}|rÊ|	jn| j}|	dur×|	 |¡ n|}	|	j|krã|	 	|¡}	|rç|n|}|	|fS |róJ dƒ‚|dksþJ d|› ƒ‚|jtjksJ d|j› ƒ‚|dksJ d|› ƒ‚|dks%J d|› ƒ‚|t
 dks6J dt
› d|› ƒ‚| jtjtjfv sHJ d| j› ƒ‚|jtjksWJ d|j› ƒ‚|du r`|d }|	du}|rj|	jn| j}|	du r€tj||||ftj| jd}	| || ||¡}||||||| j||
f	}t|Ž }d|vs§|d j| jkrÁtj|tj| jd|d< tj|d tj| jd|d< |d } |d }!d|vrAt tj ¡ j¡}"t|dd }#t|dd }$t|dd }%t|dd }&t| dd }'t|dd }(t|dd })t|dd }*t|	dd }+t| dd },t|!dd }-t}.tj|.|#|$|%|&|'|(|)|*|+|,|-fdd|||||||d!|
d"|"d#d$œŽ}/|/|d< n|d }/t tj ¡ j¡}"|/||||| ||||	| |!|"ƒ |	j|krh|	 	|¡}	| ¡ sx| | ||||¡¡ |	|fS )%uñ  Gated Delta Rule Decode kernel for single-token generation.

    This implements the decode phase of gated delta rule linear attention,
    processing one token at a time and updating the recurrent state.

    Args:
        q (torch.Tensor):
            Current query of shape ``[B, 1, H, K]``. Must be float16/bfloat16.
        k (torch.Tensor):
            Current key of shape ``[B, 1, H, K]``. Must be float16/bfloat16.
        v (torch.Tensor):
            Current value of shape ``[B, 1, HV, V]``. Must be float16/bfloat16.
        state (Optional[torch.Tensor]):
            Current state of shape ``[B, HV, V, K]`` (v-major / K-last layout).
            Float32: legacy kernel (T=1 only).  Bfloat16: gdn_decode_klast_bf16_state backend
            when T in 1..4 and K=V=128. Will be updated in-place.
            Pass ``None`` when using ``initial_state`` / ``initial_state_indices`` instead.
        A_log (torch.Tensor):
            Log decay parameter of shape ``[HV]``. Must be float32.
        a (torch.Tensor):
            Input-dependent decay of shape ``[B, 1, HV]``. Must be float16/bfloat16.
        dt_bias (torch.Tensor):
            Decay bias of shape ``[HV]``. Must be bfloat16 or float32.
        b (torch.Tensor):
            Update gate (beta) input of shape ``[B, 1, HV]``. Must be float16/bfloat16.
        scale (Optional[float]):
            Scale factor for queries. If None, defaults to ``1 / sqrt(K)``.
        output (Optional[torch.Tensor]):
            Pre-allocated output tensor of shape ``[B, 1, HV, V]``.
            If None, will be allocated automatically.
        use_qk_l2norm (bool):
            Whether to apply L2 normalization to q and k. Default: ``True``.
        initial_state (Optional[torch.Tensor]):
            State pool of shape ``[pool_size, HV, V, K]`` (K-last / K-contiguous,
            same layout as the per-batch ``state`` argument).
            When provided, the kernel gathers directly from the pool using
            ``initial_state_indices`` and writes updates back in-place â€” eliminating
            the caller-side gather/scatter overhead.
            Requires bfloat16 state with T in 1..4 and K=V=128 (bf16 fast path).
        initial_state_indices (Optional[torch.Tensor]):
            Per-batch indices of shape ``[B]`` (int32 or int64) mapping each batch
            entry to its slot in ``initial_state``.  Required when ``initial_state``
            is provided.

    Returns:
        Tuple[torch.Tensor, torch.Tensor]:
            - output: Output tensor of shape ``[B, 1, HV, V]``
            - state or initial_state: Updated state (in-place).

    Note:
        - Requires SM90+ (Hopper, Blackwell, etc.)
        - State is always updated in-place; the pool path writes directly into
          ``initial_state`` memory (no separate scatter step needed)
        - State layout is v-major (K-last): [B, HV, V, K]. When state is bfloat16
          and T in 1..4 with K=V=128, the gdn_decode_klast_bf16_state kernel is used
          (supports both the direct ``state`` path and the pool+indices path).
        - pool+indices (``initial_state``/``initial_state_indices``) only supported
          via the bf16 fast path; float32 state raises an error.
        - Legacy path (float32 state, T=1): K and V must be multiples of 4.
    NzAinitial_state and initial_state_indices must be provided togetherr   ú(Expected initial_state shape [pool_size=ú, HV=ú, V=ú, K=ú], got z.Either state or initial_state must be providedúExpected state shape [B=)r   r   é   r   r   ú q must be float16/bfloat16, got úA_log must be float32, got ç      à¿r>   ç      4@)r!   r"   r#   r+   r,   r$   r%   r&   r'   Úinitial_state_sourcerÖ   Úuse_qk_l2norm_in_kernelr-   z‘pool+indices (initial_state/initial_state_indices) requires bfloat16 state with T in 1..4 and K=V=128 (the gdn_decode_klast_bf16_state fast path)r   ú Decode only supports T=1, got T=ústate must be float32, got úK must be at least 128, got K=úV must be at least 128, got V=úV must be divisible by ú( to prevent out-of-bounds access, got V=©rÍ   Údevicer)   r*   Úcompiledr   ©Úassumed_alignTFú--enable-tvm-ffi)r+   r,   r-   r.   r/   r0   r1   r2   r3   r4   r5   r6   r¯   Úoptions)r»   rÍ   Ú&_GDN_DECODE_KLAST_BF16_STATE_AVAILABLEÚtorchÚbfloat16Úfloat16Úfloat32Ú-_gated_delta_rule_gdn_decode_klast_bf16_stateÚcopy_ÚtorX   Úzerosrë   ÚreshaperÐ   Úint32ÚcudaÚCUstreamÚcurrent_streamÚcuda_streamr   rË   rG   ÚcompileÚis_contiguous)0r$   r%   r&   rÓ   r!   r"   r#   r'   r-   rÔ   r5   rÕ   rÖ   r/   r0   r1   r2   rk   r.   r3   Úuse_poolÚ	pool_sizeÚstate_dtypeÚuse_gdn_decode_klast_bf16_stateÚ	scale_valÚoutÚoutput_providedÚtarget_dtypeÚreturn_stater   Ú	cache_keyÚcacher)   r*   r¯   Úh0_source_tensorÚA_log_tensorÚa_tensorÚdt_bias_tensorÚq_tensorÚk_tensorÚv_tensorÚb_tensorÚo_tensorÚh0_indices_tensorÚcu_seqlens_tensorÚrun_funcrì   r   r   r
   Ú$gated_delta_rule_decode_pretranspose¥  s  Mÿ
ÿÿ"ÿÿþýû
ÿ
ó

ÿÿ
ÿ


ôæ
ÿ

r  c           i   	   C   sž  t j ¡ \}}}|d }t j ¡ }t j |¡}t j ¡ \}}}d}t| }d| }t| }|t }|t }|t }|| }|| } || }!|!||  }"||  }#|#dkrË|| }$|| }%|| }&|&|% }'t	j
 ¡ }(|( t	j|d¡})t jtfdd}*|( t	j|*d¡}+t jtfdd},t jtfdd}-|( t	j|,d¡}.|( t	j|-d¡}/|tk r¿t	 || d|"|f ¡|.|< t	 || d|"|f ¡|/|< |#| |! }0||0ddf }1t  |1ttfd¡}2|  |¡}3t	 td	 |¡}4t|4ƒD ].}5||5 }6|5t }7|2dd|6f }8|)dd|7f }9|3 |8¡}:|3 |9¡};t  | |:|;¡ t j ¡  qæt	 |	|! ¡}<t	 |
|! ¡}=t	 || d|!f ¡}>t	 || d|!f ¡}?d
}@d
}A|dkr“|>|= }B||B }Cd
}D|C|krtt j|Cdd}Et	 d|E ¡}Ft	 t j|Fdd¡}Gt	 t	 d¡| |G ¡}Dn|B}Dt j|<dd |D }Hddt j|? dd  }At j|Hdd}@t j |@d¡}@t j |Ad¡}At j ¡  |rsd
}Id
}J|tk rÂ|/| }K|.| }L|K|K }I|L|L }JdD ]}M|It jj|I|Mddd7 }I|Jt jj|J|Mddd7 }JqÄ|dkrï|I|+|< |J|+|d < t j ¡  d
}Nd
}O|dkrId
}Pd
}Q||k r|+| }P|+|d  }QdD ]}M|Pt jj|P|Mddd7 }P|Qt jj|Q|Mddd7 }Qq|dkrIt j|Pd dd|+d< t j|Qd dd|+d	< t j ¡  |+d }N|+d	 }O|tk rm|.| |O |.|< |/| | |N |/|< t j ¡  n|tk r€|/| | |/|< t j ¡  t|ƒD ]B}5||5 }6|5t }7t j d¡ t j ¡  |5|4 }R|R|k rÔ||R }S|Rt }T|2dd|Sf }U|)dd|Tf }V|3 |U¡}:|3 |V¡};t  | |:|;¡ t j ¡  |6t |' }Wt	 || d|!|Wf ¡}Xd
}Yt|ddD ]}Z|Z| }[|[|$ }\|)|\|'|7f |@ }]|.|\ }^|Y|]|^ 7 }YqídD ]}M|Yt jj|Y|M| ddd7 }Yq|X|Y |A }_t j |_|%¡}_d
}`t|ddD ]/}Z|Z| }[|[|$ }\|)|\|'|7f |@ }a|.|\ }^|/|\ }b|a|^|_  }c|c|)|\|'|7f< |`|c|b 7 }`q5dD ]}M|`t jj|`|M| ddd7 }`qg|$dkr|6t |' }dt	 |`¡|| d|!|df< t j ¡  t	  |¡D ]*}Z||Zd  }e|et }f|et }g|ftk rÂ|)|f|g|7f }]|6t |g }h|]||0|f|hf< q™t j ¡  q‰dS dS )zDSmall batch kernel for (N, 1, ...) format with K-major state layout.r   r   r   r   r8   r9   N©r   Nr   r;   Tr<   r>   r?   r@   rA   rB   )r   r   rF   r   ©Úunroll©r   r   r   )!rG   rH   rI   rJ   rK   rL   ÚTILE_V_SMALL_NTÚ	TILE_K_NTÚNUM_BLOCKS_PER_STATE_SMALL_NTrN   rO   rP   rQ   rR   rT   rW   rZ   r[   ÚNUM_STAGES_NTr]   r^   r_   r`   ra   rd   re   rf   rV   rg   rh   ri   rS   rc   )ir   r   r   r    r$   r%   r&   r"   r'   r!   r#   r(   r)   r+   r,   r-   r1   r.   r5   rj   rk   Úin_warp_tidrJ   rL   ÚNUM_WARPS_SMALLÚV_PER_WARP_SMALLÚROWS_PER_ITER_SMALLÚNUM_K_ITERS_SMALLrm   rn   ro   Ústart_v_tilerp   rq   rr   Úpool_idxÚk_localÚv_localÚv_baseÚv_idxrt   ru   Úsmem_o_layoutÚsmem_oÚsmem_k_layoutÚsmem_q_layoutÚsKÚsQÚflat_idxrƒ   r…   r†   rˆ   Úv_tile_offsetr’   rŠ   r‹   rŒ   r   rŽ   r   r   r€   r‚   r“   r”   r•   r–   r—   r˜   r™   rš   r›   Úsum_q_partialÚsum_k_partialÚq_valÚk_valrC   rž   rŸ   Úlocal_sum_qÚlocal_sum_kÚnext_v_tile_offsetÚnext_v_tiler¢   r£   r¤   Úv_globalÚr_vr§   Úk_iterÚk_baseÚk_idxÚh_valÚr_k_valr©   rª   Úh_oldÚr_q_valÚh_newÚv_global_outÚflat_tidÚk_writeÚv_writeÚv_global_writer   r   r
   Ú*gdn_decode_kernel_small_batch_nontransposeª  sr  







ÿ

ÿÿ



ÿÿ









üü


€ ½wrL  c           _   	   C   sJ  t j ¡ \}}}|d }t j ¡ }t j |¡}t j ¡ \}}}|| }|| }|||  }|| }|dkr¡|t }|t }|t }|| }tj 	¡ } |  
tj|d¡}!t jtfdd}"|  
tj|"d¡}#t jtfdd}$t jtfdd}%|  
tj|$d¡}&|  
tj|%d¡}'|tk r¡t ||d||f ¡|&|< t ||d||f ¡|'|< || | }(||(ddf })t  |)ttfd¡}*|  |¡}+t td |¡},t|,ƒD ]*}-|-t }.|*dd|-f }/|!dd|.f }0|+ |/¡}1|+ |0¡}2t  | |1|2¡ t j ¡  qÈt |	| ¡}3t |
| ¡}4t ||d|f ¡}5t ||d|f ¡}6d	}7d	}8|dkrq|5|4 }9||9 }:d	};|:|krRt j|:d
d}<t d|< ¡}=t t j|=d
d¡}>t t d¡| |> ¡};n|9};t j|3d
d |; }?ddt j|6 d
d  }8t j|?d
d}7t j |7d¡}7t j |8d¡}8t j ¡  |rQd	}@d	}A|tk r |'| }B|&| }C|B|B }@|C|C }AdD ]}D|@t jj|@|Dddd7 }@|At jj|A|Dddd7 }Aq¢|dkrÍ|@|#|< |A|#|d < t j ¡  d	}Ed	}F|dkr'd	}Gd	}H|tk rî|#| }G|#|d  }HdD ]}D|Gt jj|G|Dddd7 }G|Ht jj|H|Dddd7 }Hqð|dkr't j|Gd d
d|#d< t j|Hd d
d|#d< t j ¡  |#d }E|#d }F|tk rK|&| |F |&|< |'| | |E |'|< t j ¡  n|tk r^|'| | |'|< t j ¡  t|ƒD ]:}-|-t }.t j d¡ t j ¡  |-|, }I|I|k rª|It }J|*dd|If }K|!dd|Jf }L|+ |K¡}1|+ |L¡}2t  | |1|2¡ t j ¡  |-t | }Mt ||d||Mf ¡}Nd	}Ott ddD ]}P|Pt! }Q|Q| }R|!|R||.f |7 }S|&|R }T|O|S|T 7 }OqÃdD ]}D|Ot jj|O|Dt ddd7 }Oqä|N|O |8 }Ut j |U|¡}Ud	}Vtt ddD ]/}P|Pt! }Q|Q| }R|!|R||.f |7 }W|&|R }T|'|R }X|W|T|U  }Y|Y|!|R||.f< |V|Y|X 7 }VqdD ]}D|Vt jj|V|Dt ddd7 }Vq=|dkre|-t | }Zt "|V¡||d||Zf< t j ¡  t #t ¡D ]*}P||Pd  }[|[t }\|[t }]|\tk r˜|!|\|]|.f }S|-t |] }^|S||(|\|^f< qot j ¡  qgdS dS )zDLarge batch kernel for (N, 1, ...) format with K-major state layout.r   r   r   r8   r9   Nr  r   r;   Tr<   r>   r?   r@   rA   rB   r   r  rF   r  r   )$rG   rH   rI   rJ   rK   rL   ÚV_PER_WARP_NTrN   rO   rP   rQ   rR   rT   Ú	TILE_V_NTr  rW   rZ   r[   r!  r]   r^   r_   r`   ra   rd   re   rf   rV   rg   ÚNUM_WARPS_LARGE_NTrh   ri   ÚNUM_K_ITERS_NTÚROWS_PER_ITER_NTrS   rc   )_r   r   r   r    r$   r%   r&   r"   r'   r!   r#   r(   r)   r+   r,   r-   r1   r.   r5   rj   rk   r"  rJ   rm   rp   rq   rr   r(  r)  r*  r+  r,  rt   ru   r-  r.  r/  r0  r1  r2  r3  rƒ   r…   r†   rˆ   r’   rŠ   r‹   rŒ   r   rŽ   r   r   r€   r‚   r“   r”   r•   r–   r—   r˜   r™   rš   r›   r5  r6  r7  r8  rC   rž   rŸ   r9  r:  r<  r¢   r£   r¤   r=  r>  r§   r?  r@  rA  rB  rC  r©   rª   rD  rE  rF  rG  rH  rI  rJ  rK  r   r   r
   Ú(gdn_decode_kernel_big_batch_nontransposeœ  sP  







ÿ

ÿÿ



ÿÿ









ÿÿ


€ ÆvrR  c           "      C   s  |j j\}}}|	j jd  |}tjtjtjjdtj	dd}t 
|t¡}tjtttftdtt fd}tjddd}t d	¡}t |||¡} d
t t t d
t  d
t d  d }!t| |||||||||||
|	||||||ƒj|t ddftddg|!|d d S )Nr   r°   r   r²   r   r9   )r   r   )r   r   r¶   r   r   r   r·   )rº   r»   rG   r¼   r   r½   r¾   r¿   rN   rR   rÁ   r  rT   r  r!  ÚTILE_V_SMALL_PADDED_NTrÀ   rL  rÂ   r   ÚNUM_THREADS_NT)"r*   r$   r%   r&   r"   r'   r!   r#   r   r)   r(   r+   r,   r-   r/   r0   r1   r.   r2   r3   r4   r5   r¯   Úbatch_hv_dimrÆ   rÅ   r   rÇ   Únum_v_tiles_smallÚsmem_layout_smallÚthread_layout_smallÚval_layout_smallÚtiled_copy_load_smallÚsmem_bytes_smallr   r   r
   Ú.run_gdn_decode_kernel_small_batch_nontransposez  sj   ýþ
ÿÿ
þýÿí
èr\  c           "      C   sþ   |j j\}}}|	j jd  |}tjtjtjjdtj	dd}t 
|t¡}tjtttftdtt fd}tjddd}t d	¡}t |||¡} d
t t t d
t  d
t d  d }!t| |||||||||||
|	||||||ƒj|ddftddg|!|d d S )Nr   r°   r   r²   r   r9   )r   r   )r   r   r¶   r   r   r   r·   )rº   r»   rG   r¼   r   r½   r¾   r¿   rN   rR   rÁ   rN  rT   r  r!  ÚTILE_V_PADDED_NTrÀ   rR  rÂ   ÚNUM_THREADS_LARGE_NT)"r*   r$   r%   r&   r"   r'   r!   r#   r   r)   r(   r+   r,   r-   r/   r0   r1   r.   r2   r3   r4   r5   r¯   rU  rÆ   rÅ   r   rÇ   r    Úbase_smem_layoutrÈ   rÉ   r   rÊ   r   r   r
   Ú,run_gdn_decode_kernel_big_batch_nontransposeË  sf   ýþ
ÿ
þýÿí
èr`  c           )      C   sh  | j \}}}}|dksJ d|› ƒ‚|j \}}}}|j ||||fks6J d|› d|› d|› d|› d|j › 
ƒ‚|dksAJ d	|› ƒ‚|dksLJ d
|› ƒ‚|t dks\J dt› d|› ƒ‚| jtjtjfv smJ d| j› ƒ‚|jtjks{J d|j› ƒ‚|jtjks‰J d|j› ƒ‚|du r‘|d }|	du}|rš|	jn| j}|	du r¯tj||||ftj| jd}	| 	¡ }| 
|| ||¡}||||||| j||
f	}t|Ž }d|vsØ|d j| jkròtj|tj| jd|d< tj|d tj| jd|d< |d }|d }d|vr{t tj ¡ j¡}|tk }|rt}nt}t|dd}t|dd}t|dd}t|dd} t| dd}!t|dd}"t|dd}#t|dd}$t|	dd}%t|dd}&t|dd}'tj||'|!|"|#||$|| ||&|%fdd|||||||d|
|ddœŽ}(|(|d< n|d }(t tj ¡ j¡}|(|| |||||||||	|ƒ | ¡ | ¡ kr¥| |¡ |	j|kr°|	 |¡}	|	|fS )aö  Gated Delta Rule Decode kernel (K-major layout, no transpose needed).

    This implements the decode phase of gated delta rule linear attention,
    processing one token at a time and updating the recurrent state.
    This version uses K-major state layout [B, HV, K, V] which is more natural
    and doesn't require transposition.

    Args:
        q (torch.Tensor):
            Current query of shape ``[B, 1, H, K]``. Must be float16/bfloat16.
        k (torch.Tensor):
            Current key of shape ``[B, 1, H, K]``. Must be float16/bfloat16.
        v (torch.Tensor):
            Current value of shape ``[B, 1, HV, V]``. Must be float16/bfloat16.
        state (torch.Tensor):
            Current state of shape ``[B, HV, K, V]`` (k-major layout).
            Must be float32. Will be updated in-place.
        A_log (torch.Tensor):
            Log decay parameter of shape ``[HV]``. Must be float32.
        a (torch.Tensor):
            Input-dependent decay of shape ``[B, 1, HV]``. Must be float16/bfloat16.
        dt_bias (torch.Tensor):
            Decay bias of shape ``[HV]``. Must be bfloat16 or float32.
        b (torch.Tensor):
            Update gate (beta) input of shape ``[B, 1, HV]``. Must be float16/bfloat16.
        scale (Optional[float]):
            Scale factor for queries. If None, defaults to ``1 / sqrt(K)``.
        output (Optional[torch.Tensor]):
            Pre-allocated output tensor of shape ``[B, 1, HV, V]``.
            If None, will be allocated automatically.
        use_qk_l2norm (bool):
            Whether to apply L2 normalization to q and k. Default: ``True``.

    Returns:
        Tuple[torch.Tensor, torch.Tensor]:
            - output: Output tensor of shape ``[B, 1, HV, V]``
            - state: Updated state tensor of shape ``[B, HV, K, V]``

    Note:
        - Requires SM90 (Hopper) architecture
        - State is updated in-place
        - K and V must be multiples of 4 for vectorized loads
        - State layout is k-major: [B, HV, K, V] (no transpose needed)
    r   rä   rÜ   rØ   rÚ   rÙ   rÛ   r   ræ   rç   r   rè   ré   rÞ   rå   rß   Nrà   rê   r)   r*   rì   r   rí   r>   rá   Trï   )r+   r,   r-   r/   r0   r1   r.   r2   r3   r4   r5   r¯   rð   )r»   rN  rÍ   rò   rô   ró   rõ   rù   rë   Ú
contiguousÚviewrÒ   Úarangerû   rü   rý   rþ   rÿ   ÚSMALL_BATCH_THRESHOLD_NTr\  r`  r   rG   r   Údata_ptrr÷   rø   ))r$   r%   r&   rÓ   r!   r"   r#   r'   r-   rÔ   r5   r/   r0   r1   r2   rk   r.   r3   r  r	  Ústate_contiguousr   r  r  r)   r*   r¯   Úuse_small_batchr  r  r  r  r  r  r  r  r  r  r  r  rì   r   r   r
   Úgated_delta_rule_decode  sÄ   ;"ÿÿ
ÿ
ôç
ô

rh  Úintermediate_statesÚtile_vÚdisable_state_updateÚcache_intermediate_statesc           ]   
   C   sT  t j ¡ \}}}|d }t j ¡ } t j | ¡} || }!d|! }"d|" }#||! }$||! }%| |" |% }&t j ¡ \}'}}|'| }(|'| })|)| }*|)| }+|*||  },||+ }-t ||* ¡}.t ||* ¡}/tj 	¡ }0|0 
tjt j||f|d dfdd¡}1|0 
tjt j||f|d dfdd¡}2|0 
tjt  |f¡d¡}3|0 
tjt  |f¡d¡}4t  t j|fddtj¡}5t  t j|fddtj¡}6t  t j|fddtj¡}7t  t j|fddtj¡}8t  t j|fddtj¡}9|-dkr¦|$| }:t |¡D ]o};t  |ddd|f|+|;|,|$f¡}<t  |	ddd|f|+|;|,|$f¡}=t  |<|8¡ t  |=|9¡ t |¡D ]}>t |8|> ¡|5|>< t |9|> ¡|6|>< q%t |¡r®d	}?d	}@t |¡D ]}>|?|5|> |5|>  7 }?|@|6|> |6|>  7 }@qJd
D ]}A|?t jj|?|Addd7 }?|@t jj|@|Addd7 }@qdt j|?d dd| }Bt j|@d dd}Ct |¡D ]}>|5|> |B |5|>< |6|> |C |6|>< q™nt |¡D ]}>|5|> | |5|>< q³||!k rát |¡D ]}>|5|> |1|;|:|> f< |6|> |2|;|:|> f< qÉt ||+|;|*f ¡}Dt ||+|;|*f ¡}E|D|/ }F||F }Gt j|Gdd}Ht d¡| t jt d¡|H dd }I|G|kr!t d¡nt d	¡}J|J|I t d¡|J |F  }Kt j|.dd |K }Lt d¡t d¡t j|E dd  }Mt j|Ldd}N|dkrc|N|3|;< |M|4|;< qót j ¡  ||# }Ot |O¡D ]4}P|(| |&|O  |P }Q|Q|k r¤|-| |* }Rt  | dd|f|R|Q|$f¡}St  |S|7¡ t |¡D ]ç};t  |1d|f|;|$f¡}Tt  |2d|f|;|$f¡}Ut  |T|5¡ t  |U|6¡ |3|; }N|4|; }Mt |¡D ]}>|7|> |N |7|>< qÓd	}Vt |¡D ]}>|V|7|> |6|>  7 }Vqæd
D ]}A|Vt jj|V|Addd7 }Vqöt |
|+|;|*|Qf ¡}W|W|V |M }Xt |¡D ]}>|7|>  |6|> |X 7  < qt |¡rQ|+| | |;|  |* }Yt  |dd|f|Y|Q|$f¡}Zt  |7|Z¡ d	}[t |¡D ]}>|[|7|> |5|>  7 }[qXd
D ]}A|[t jj|[|Addd7 }[qh|$dkrˆt |[¡||+|;|*|Qf< q¢t | ¡r¤t  | dd|f|R|Q|$f¡}\t  |7|\¡ qrdS dS )av  
    Parallel MTP kernel - each block handles one [TILE_V, TILE_K] tile.

    Grid: (B * HV * num_v_tiles, 1, 1)
    Each block:
    - Loads its v_tile of state into registers
    - Processes all T time steps with state in registers
    - Writes output and optionally updates state

    This matches Triton's parallelization strategy for better small-batch performance.
    r   r   r   r   r9   r   r8   r   r;   r?   r@   rA   rB   rF   Tr<   r>   N)rG   rH   rI   rJ   rK   rL   rN   rR   rO   rP   rQ   rT   rU   rS   rc   rW   rb   Ú
const_exprrg   rh   rd   re   rV   )]r   ri  r   r    rj  r!   r"   r#   r$   r%   r&   r'   r(   r)   r*   r+   r,   r-   r.   r/   r0   r1   r2   r3   r4   r5   r6   rk  rl  rj   rk   rl   rJ   Úthreads_per_groupÚgroups_per_warpÚ
num_groupsÚlane_in_groupÚgroup_in_warpÚ	group_idxrm   Úi_vÚtmprq   rp   rr   Ú	cache_idxr   r   rt   r2  r1  ÚsGÚsBetary   rx   rz   r{   r|   r~   rs   r   r   r‘   rœ   r   rC   Úinv_norm_q_scaledrŸ   r€   r‚   r•   r–   r˜   Úsoftplus_valÚuse_softplusr—   r›   r”   r“   Úrows_per_groupÚrow_in_groupr,  Úflat_state_idxÚh_tileÚsQ_tileÚsK_tiler§   r>  r©   r3  Ú
inter_tilerª   Ú
h_tile_outr   r   r
   Úgdn_verify_kernel_mtpë  sH  +

ÿÿÿÿÿÿÿ
ÿÿÿÿþ
ÿ

ÿýÿÿ
€

ÿÿýÿ
€ý€ Ö\r„  c           #      C   sÒ   | j jd | j jd | j jd }}}t ||¡} || |  }!d| |d  d| |d   d|  d|  d }"t| ||| |||||||||	|
|||||||||||||||ƒj|!ddftddg|"|d d S )Nr   r   r   r   r   r   r·   )rº   r»   rG   rÁ   r„  rÂ   ÚNUM_THREADS_MTP)#r   ri  r!   r"   r#   r$   r%   r&   r'   r(   r)   r*   r+   r,   r-   r.   r/   r0   r1   r2   r3   rj  r   r4   r5   r6   rk  rl  r¯   rk   rÅ   rÆ   r    Ú	grid_sizerÊ   r   r   r
   Úrun_gdn_verify_kernel_mtp	  sj   
!


ýÿþýüÿã
Þr‡  r  Úcache_stepsc                 C   rÎ   )z2Cache compiled MTP kernel for given configuration.r   )r/   r0   r1   r.   r2   r3   r  rˆ  rk  rl  r-   r5   rj  r   r   r   r
   Ú_get_compiled_mtp_kernel[	  s   r‰  Úintermediate_states_bufferc           0      C   s,  | j \}}}}|j \}}}}|j d }t||ƒ}t||ƒ}|j ||||fks:J d|› d|› d|› d|› d|j › 
ƒ‚|dksEJ d|› ƒ‚|dksPJ d	|› ƒ‚|| dks`J d
|› d|› ƒ‚| jtjtjfv sqJ d| j› ƒ‚|jtjksJ d|j› ƒ‚|jtjksJ d|j› ƒ‚|	du r•|d }	|
du}|rž|
jn| j}|
du r³tj||||ftj| j	d}
| 
tj¡ || ||¡}|du}|rñ|j d }|j d }||ksßJ d|› d|› dƒ‚| 
tj¡ || | ||¡ ¡ }n|}tjdddtj| j	d}|||||||||||	|||f}t|Ž } d| vs!| d j	| j	kr/tj|d tj| j	d| d< | d }!d| vr×t tj ¡ j¡}"t|dd}#t|dd}$t|dd}%t|dd}&t|dd}'t| dd}(t|dd})t|dd}*t|dd}+t|
dd},t|dd}-t|!dd}.tjt|#|$|%|&|'|(|)|*|+|,|-|.fi dd“dd“d|	“d|“d |“d!|“d"|“d#|“d$|“d%|“d&|“d'd(“d)|“d*d+“d,|“d-|“d.|"“d/d0“Ž}/|/| d< n| d }/t tj ¡ j¡}"|/|||||| ||||
||!|"ƒ |s| ¡ s| | ||||¡¡ |
j|kr|
 
|¡}
|
|fS )1am  
    Gated Delta Rule MTP Kernel (Multiple Token Processing).

    This function processes multiple tokens (T > 1) in sequence, typically used for
    speculative decoding verification. It supports intermediate state caching for
    potential rollback scenarios.

    Args:
        q (torch.Tensor):
            Query tensor of shape ``[B, T, H, K]``.
        k (torch.Tensor):
            Key tensor of shape ``[B, T, H, K]``.
        v (torch.Tensor):
            Value tensor of shape ``[B, T, HV, V]``.
        initial_state (torch.Tensor):
            Initial state tensor of shape ``[pool_size, HV, V, K]`` (K-last layout).
        initial_state_indices (torch.Tensor):
            Indices mapping each batch to its initial state, shape ``[B]``.
        A_log (torch.Tensor):
            Log decay parameter of shape ``[HV]``.
        a (torch.Tensor):
            Input-dependent decay of shape ``[B, T, HV]``.
        dt_bias (torch.Tensor):
            Decay bias of shape ``[HV]``.
        b (torch.Tensor):
            Update gate input of shape ``[B, T, HV]``.
        scale (Optional[float]):
            Scaling factor for queries. If None, uses ``1/sqrt(K)``.
        output (Optional[torch.Tensor]):
            Pre-allocated output tensor of shape ``[B, T, HV, V]``.
        intermediate_states_buffer (Optional[torch.Tensor]):
            Buffer for caching intermediate states, shape ``[pool_size, T, HV, V, K]``.
            If None, intermediate states are not cached.
        disable_state_update (bool):
            If True, the initial state is not updated. Default: ``True``.
        use_qk_l2norm (bool):
            Whether to apply L2 normalization to q and k. Default: ``True``.

    Returns:
        Tuple[torch.Tensor, torch.Tensor]:
            - output: Output tensor of shape ``[B, T, HV, V]``
            - initial_state: Updated state tensor (unchanged if disable_state_update=True)

    Note:
        - Requires SM90 (Hopper) architecture
        - Supports T > 1 (multiple token processing)
        - State layout is K-last: [pool_size, HV, V, K]
        - Optimized for speculative decoding verification scenarios
    r   r×   rØ   rÙ   rÚ   rÛ   r   ræ   rç   rè   ré   rÞ   z#initial_state must be float32, got rß   Nrà   rê   r   z9intermediate_states_buffer second dimension (cache_steps=z) must be at least T=z" to prevent out-of-bounds indexingr*   rì   r   rí   r+   r>   r,   rá   r-   r.   r/   r0   r1   r2   r3   rj  r   r4   Tr5   r6   Frk  rl  r¯   rð   rï   )r»   r   r   rÍ   rò   rô   ró   rõ   rù   rë   rø   rú   ra  r‰  rû   rü   rý   rþ   rÿ   r   rG   r   r‡  r  r÷   )0r$   r%   r&   rÕ   rÖ   r!   r"   r#   r'   r-   rÔ   rŠ  rk  r5   r/   r0   r1   r2   rk   r.   r3   r  rj  r   r  r	  r   rl  Úbuffer_sizerˆ  ri  r  r  r*   r¯   r  Úintermediate_states_tensorr  r  r  r  r  r  r  r  r  r  rì   r   r   r
   Úgated_delta_rule_mtpp	  s&  C


"ÿÿ
ÿ
ÿ


ÿ
ýò
óòñðïîíìëêéèçæåäãâá
!ó
r  r8   )NNTNN)NNT)NNNTT)LÚ__doc__Ú	functoolsÚtypingr   r   rò   rN   Úcutlass.cuterG   Úcutlass.cute.nvgpur   Úcutlass.cute.runtimer   Úcuda.bindings.driverÚbindingsÚdriverrü   Úapi_loggingr   Ú_FLASHINFER_AVAILABLEÚImportErrorÚ!gdn_kernels.gdn_decode_bf16_stater   rö   rñ   rX   rY   r\   rÃ   rM   r  rN  r]  r  rS  r!  rT  r   r^  rO  rM  rQ  rP  rd  Ú
TILE_K_MTPr…  Úintr   r   ÚkernelÚ	TiledCopyÚTensorÚLayoutÚ	ConstexprÚfloatÚboolr­   r®   Újitrý   rË   rÌ   r  rÍ   rÐ   rÒ   r  rL  rR  r\  r`  rh  r„  r‡  r‰  r  r   r   r   r
   Ú<module>   sÂ   ü	þ	ÿþýüûúùø	÷
öõôóòñðïîíìëêéèçæå  ÿþýüûúùø	÷
öõôóòñðïîíìëêéèçæå  ÿþýüûúùø	÷
öõôóòñðïîíìëêéèfÿþýüûúùø	÷
öõôóòñðïîíìëêéèjÿþýüûúùø	÷ÿþýüûúùø	÷
óÿþýüûúùø	÷
öõôóò  ÿþýüûúùø	÷
öõôóòñðïîí rÿþýüûúùø	÷
öõôóòñðïîí ^ÿþýüûúùø	÷
öõôóòñðïîíìëêéPÿþýüûúùø	÷
öõôóòñðïîíìëêéS
õÿþýüûúùø	÷
öõô Lÿþýüûúùø	÷
öõôóòñðïîíìëêéèçæåäã  ÿþýüûúùø	÷
öõôóòñðïîíìëêéèçæåäãYÿþýüûúùø	÷
öõôóòòÿþýüûúùø	÷
öõôóòñ