Як працює Q-learning

Наочна демонстрація навчання агента в сітці

Налаштування

Статистика:

Епізод: 0

Останній крок: -

Помилка TD: 0.000

Формула оновлення

Q(s, a) ← Q(s, a) + α[r + γ · max Q(s', a') - Q(s, a)]
  • 🔵 Агент: намагається максимізувати винагороду.
  • 🟢 Ціль (+10): кінцева точка подорожі.
  • 🔴 Пастка (-10): те, чого треба уникати.
  • Крок (-1): штраф за час (стимулює шукати найкоротший шлях).