斯坦福让“GPU高速运转”的新器具火了,比FlashAttention2更快
2024-06-10AI算力资源越发垂危确当下,斯坦福新筹议将GPU运行服从再擢升一波—— 内核惟一100行代码,让H100比使用FlashAttention-2,性能还要擢升30%。 怎样作念到的? 筹议东说念主员从“硬件实质需要什么?怎样中意这些需求?”这两个问题开赴,想象了 一个镶嵌式CUDA DSL器具,名为ThunderKittens(暂且译为雷猫)。 雷猫可简化AI内核的编写,同期充分利用底层硬件智力。 具体来说,雷猫的主要概括是寄存器和分享内存中的微型张量块(tile),和当今GPU中对小矩阵乘法的