Transformer Only Decoder

Контекстне вікно

Крок 1 з 8

Наступний токен — розподіл імовірностей

Маскована увага (causal mask)

Архітектура шарів

Візуалізація показує весь цикл авторегресивної генерації в decoder-only трансформері (GPT-подібна архітектура).

Вісім кроків одного циклу:

Кроки 0–1 — токенізація і початок уваги. Кожне слово перетворюється на вектор: embedding (семантика) + positional encoding (позиція в послідовності).
Кроки 2–3 — це ключовий механізм causal masking: матриця уваги трикутна, бо кожен токен бачить тільки себе і тих, хто стоїть ліворуч. Майбутнє замасковане нулями.
Крок 4 — FFN і нормалізація: кожна позиція обробляється незалежно через два лінійні шари.
Кроки 5–6 — softmax і sampling: фінальний шар дає розподіл по всьому словнику, з якого обирається наступний токен.
Крок 7 — авторегресія: новий токен дописується в контекст, і весь цикл починається знову.

Causal mask (ліва нижня сітка) — найважливіша відмінність від encoder. Зелені клітинки — дозволені зв'язки, перекреслені — заборонені. Модель фізично не може «підглянути» вперед. Саме це дозволяє генерувати текст зліва направо, токен за токеном.