Як працює Q-learning
Наочна демонстрація навчання агента в сітці
Налаштування
Швидкість навчання (α):
0.1
Дисконт (γ):
0.9
Дослідження (ε):
0.1
Крок
Запустити
Скинути
Статистика:
Епізод:
0
Останній крок:
-
Помилка TD:
0.000
Формула оновлення
Q(s, a) ← Q(s, a) + α[r + γ · max Q(s', a') - Q(s, a)]
🔵
Агент:
намагається максимізувати винагороду.
🟢
Ціль (+10):
кінцева точка подорожі.
🔴
Пастка (-10):
те, чого треба уникати.
⚪
Крок (-1):
штраф за час (стимулює шукати найкоротший шлях).