Контекстне вікно
Крок 1 з 8
Наступний токен — розподіл імовірностей
Маскована увага (causal mask)
Архітектура шарів

Візуалізація показує весь цикл авторегресивної генерації в decoder-only трансформері (GPT-подібна архітектура).

Вісім кроків одного циклу:

Causal mask (ліва нижня сітка) — найважливіша відмінність від encoder. Зелені клітинки — дозволені зв'язки, перекреслені — заборонені. Модель фізично не може «підглянути» вперед. Саме це дозволяє генерувати текст зліва направо, токен за токеном.