Візуалізація показує весь цикл авторегресивної генерації в decoder-only трансформері (GPT-подібна архітектура).
Вісім кроків одного циклу:
Кроки 0–1 — токенізація і початок уваги. Кожне слово перетворюється на вектор: embedding (семантика) + positional encoding (позиція в послідовності).
Кроки 2–3 — це ключовий механізм causal masking: матриця уваги трикутна, бо кожен токен бачить тільки себе і тих, хто стоїть ліворуч. Майбутнє замасковане нулями.
Крок 4 — FFN і нормалізація: кожна позиція обробляється незалежно через два лінійні шари.
Кроки 5–6 — softmax і sampling: фінальний шар дає розподіл по всьому словнику, з якого обирається наступний токен.
Крок 7 — авторегресія: новий токен дописується в контекст, і весь цикл починається знову.
Causal mask (ліва нижня сітка) — найважливіша відмінність від encoder. Зелені клітинки — дозволені зв'язки, перекреслені — заборонені. Модель фізично не може «підглянути» вперед. Саме це дозволяє генерувати текст зліва направо, токен за токеном.