Flash Attention

¶Online Softmax

Softmax公式

$Softmax(X) = \frac{e^{X_i - max(X)}}{\displaystyle\sum_{j=0}^{n} e^{X_j-max(X)}}$

指数上都减掉 $max(X)$ 防止溢出

简单的代码就是

vector<float> arr;
float sum = 0;
float max_v = arr[0];
for(size_t i = 0 ;i < arr.size(); i++){
    max_v = max(max_v, arr[i]);
}
for(size_t i = 0 ;i < arr.size(); i++){
    sum += exp(arr[i] - max_v);
}
for(size_t i = 0 ;i < arr.size(); i++){
    arr[i] = exp(arr[i] - max_v) / sum ;
}

这里求max 和求sum的时候需要两次reduce，这是不可接受的。

如何压榨这个代码？

sum 是必须的， max 也是必须的，但是这两个for做的事情可以同时做到，但是当前的max_v不一定就是全局的最大值，需要不断的更新更大的max_v，同时要把前面少减的补回来。

$X_i - max(X)$ 这个操作是在指数上的，也就是说这里是 $e^{X_i} \div e^{max(X)}$

$\begin{align} g-f &= &e \nonumber \\ g &= &e + &f \nonumber \\ a \div g &= a \div &e \div &f \nonumber \end{align}$

所以在for循环 $X \in \R^N, i=n$ 时，当新值需要更新max_v值时，直接按新的max算，并把前面已经加好的值除去新老max的差值。

if $n+1 \neq max_n$

$\begin{align} \sum_{i=0}^{n+1} e^{X_i} &= \sum_{i=0}^n e^{X_i}\div e^{(X_{n+1} - max_n)} + e^{X_{n+1} - max(X_{n+1},max_n)} \nonumber \\ &= \sum_{i=0}^n e^{X_i} \times e^{(max_n - X_{n+1})} + 1 \end{align}$

vector<float> arr;
float sum = 0;
float max_v = arr[0];
for(size_t i = 0 ;i < arr.size(); i++){
    if(arr[i] > max_v){
        sum *= exp(max_v - arr[i]);
        sum += 1;
        max_v = arr[i];
    }
    else{
        sum += exp(arr[i] - max_v);
    }
}

for(size_t i = 0 ;i < arr.size(); i++){
    arr[i] = exp(arr[i] - max_v) / sum ;
}

这样，可以一边求max一边算sum，而且元素直接互不干扰，只要把少的max_v补上就行了，在GPU上分块求和也不影响，block内算自己的，最后block间把差的max_v补齐就是了。

¶Flash Attention

切开算，基于上文online softmax 的方法尽可能的分块算，然后在最后对齐结果。

¶Attention 计算公式：

$X$ 是输入， $N$ 是sequence length， $d$ 是hidden size

$\begin{align} Q &= XW_Q \in \R^{N \times d} \\ K &= XW_K \in \R^{N \times d} \\ V &= XW_V \in \R^{N \times d} \\ \end{align}$

从这开始：Attention输入为 $Q,K,V$ 三矩阵，输出 $O$ 矩阵

$\begin{align} S &= \frac{Softmax(QK^T)}{\sqrt{d}} & \in \R^{N\times N} \\ O &= SV & \in \R^{N \times d} \end{align}$

¶算法过程

将 $Q,K,V$ 都切成 $B = \lceil \frac{M}{4d} \rceil$ 大小， $M$ 是SRAM的size，比如8K。 $4d$ 是qkvo的空间，这样切目的是把sram用满。
好了，QKVO都切成了 $T=\lceil \frac{4Nd}{M} \rceil$ 个块。（假设都刚刚好整除）
B是块大小，T是块个数

两层循环：外层for K,V，用j，从global 加载当前KV，内层for Q用i，从global 加载Q 和 O

$\text{for } j \text{ in } T \\ \text{for } i \text{ in } T \\ S_{ij} = Q_iK_j^T \in \R^{B\times B} \\$

用前面softmax中求分母的方法得到sum $l_{ij}$ 和最大值 $m_{ij}$

ij是新的

$\begin{align} P_{ij} &= e^{S_{ij} - m_{ij}} & \in \R^{B\times B } \nonumber \\ m_{ij} &= \text{rowmax}(S_{ij}) & \in \R^B \nonumber \\ l_{ij} &= \text{sum}(P_{ij}) & \in \R^B \nonumber \\ \end{align}$

把 $m_{ij}\ ,l_{ij}$ 更新到当前的 $m\rq_i \ ,l\rq_i$

i保留着历史值，每次outerloop j把所有i过一遍留着下一轮用

$\begin{align} m\rq_{i} &= \text{max}(m_i,m_ij) & \in \R^B \nonumber \\ l\rq_i &= e^{m_i-m\rq_i}l_i + e^{m_ij-m\rq_i}l_ij & \in \R^{B\times B} \nonumber \\ \end{align}$