Як працює Q-learning

Наочна демонстрація навчання агента в сітці

Налаштування

Швидкість навчання (α): 0.1 Дисконт (γ): 0.9 Дослідження (ε): 0.1

Статистика:

Епізод: 0

Останній крок: -

Помилка TD: 0.000

Формула оновлення

Q(s, a) ← Q(s, a) + α[r + γ · max Q(s', a') - Q(s, a)]

🔵 Агент: намагається максимізувати винагороду.
🟢 Ціль (+10): кінцева точка подорожі.
🔴 Пастка (-10): те, чого треба уникати.
⚪ Крок (-1): штраф за час (стимулює шукати найкоротший шлях).