Merge branch 'master' of github.com:glouppe/info8010-deep-learning

glouppe · glouppe · commit 3e4dd3fddf24 · 2024-02-05T08:32:13.000+01:00
diff --git a/lecture7.md b/lecture7.md
@@ -311,7 +311,7 @@ $$a(\mathbf{q}, \mathbf{k}) = \frac{\mathbf{q}^T \mathbf{k}}{\sqrt{d}}.$$
 class: middle
 
 For $n$ queries $\mathbf{Q} \in \mathbb{R}^{n \times d}$, keys $\mathbf{K} \in \mathbb{R}^{m \times d}$ and values $\mathbf{V} \in \mathbb{R}^{m \times v}$, the **scaled dot-product attention** layer computes an output tensor 
-$$\mathbf{Y} = \underbrace{\text{softmax}\left(\frac{\mathbf{QK}^T)}{\sqrt{d}}\right)}\_{\text{attention matrix}\, \mathbf{A}}\mathbf{V} \in \mathbb{R}^{n \times v}.$$
+$$\mathbf{Y} = \underbrace{\text{softmax}\left(\frac{\mathbf{QK}^T}{\sqrt{d}}\right)}\_{\text{attention matrix}\, \mathbf{A}}\mathbf{V} \in \mathbb{R}^{n \times v}.$$
 
 ---
 
@@ -732,4 +732,4 @@ Decision Transformer: Reinforcement Learning via Sequence Modeling.
 class: end-slide, center
 count: false
 
-The end.
+The end.