01. Що таке Дерево рішень?
Дерево рішень (Decision Tree) — це один із найпопулярніших алгоритмів контрольованого навчання. Його головна перевага — інтерпретованість. На відміну від «чорних скриньок» на кшталт нейромереж, логіку дерева рішень легко зрозуміти людині, оскільки вона представлена у вигляді послідовності правил «ЯКЩО -> ТОДІ».
Алгоритм будує дерево ієрархічно, де кожен внутрішній вузол позначає тест ознаки, кожна гілка — результат тесту, а кожен листок — фінальне рішення (клас або числове значення).
Як виміряти хаос?
Для оцінки «чистоти» даних у вузлах найчастіше використовують два критерії:
Приріст інформації (Information Gain)
Щоб обрати, за якою саме ознакою робити розщеплення у поточному вузлі, алгоритм порівнює показники невизначеності до та після умовного поділу. Різниця між початковим хаосом системи та зваженою сумою хаосу в отриманих гілках називається **Приростом інформації (Information Gain)**:
Алгоритм обчислює цей показник для кожної доступної ознаки і розщеплює вузол по тій ознаці, яка дає **найбільший Information Gain** (найсильніше зменшує невизначеність).
Перенавчання та Стрижка (Pruning)
Дерева рішень схильні до дуже сильного **перенавчання (overfitting)**. Якщо не обмежувати глибину побудови, алгоритм може створити настільки глибоке і заплутане дерево, що воно ідеально класифікуватиме навчальну вибірку (аж до 100% точності), але абсолютно не впорається з новими даними через занадто специфічні, дрібні гілки.
Як боротися з перенавчанням:
- Обмеження глибини дерева (Max Depth): заборона будувати гілки довше визначеного значення.
- Мінімальна кількість зразків у листі (Min Samples Leaf): листок не створюється, якщо в нього потрапляє надто мало об'єктів.
- Стрижка дерева (Pruning): видалення малозначимих гілок після повної побудови дерева.
Службовий факт:
Одне дерево рішень рідко використовують самостійно у великому продакшені. Проте об'єднання сотень таких дерев у ансамблі створює надпотужні алгоритми — такі як Випадковий ліс (Random Forest) та Градієнтний бустинг (XGBoost / LightGBM).
Параметри дерева
Додати спостереження до таблиці:
Побудоване дерево рішень
Критерій: ЕнтропіяЦе дерево побудоване автоматично за обраним критерієм. Клікніть на будь-який вузол, щоб побачити детальний розрахунок хаосу та розщеплення під ним.
Оберіть вузол дерева вище для детального аналізу
Ви побачите значення хаосу та приріст інформації для кожної альтернативи.
Тестування моделі: Спрогнозуйте гру в теніс на сьогодні!
Оберіть параметри поточної погоди:
Аналіз погоди...
Шлях: Оберіть умови для визначення гілки дерева