01. Постановка задачі зниження розмірності
Метод головних компонентів (Principal Component Analysis, PCA) — це математичний алгоритм лінійної алгебри, який використовується для стиснення інформації. Він перетворює набір потенційно корельованих ознак у меншу кількість некорельованих змінних, які називаються головними компонентами (PC).
Філософія PCA полягає у **збереженні максимального розкиду (дисперсії) даних**. Алгоритм шукає такі нові координатні осі, вздовж яких точки рознесені найдалі одна від одної. Це гарантує, що при проєктуванні багатовимірних даних на площину (або лінію) ми втратимо найменшу кількість корисної інформації.
Напрямки головних компонентів збігаються з **власними векторами** коваріаційної матриці вибірки, а відповідні їм **власні значення** пропорційні частці збереженої дисперсії.
Коваріаційна матриця
Позадіагональний елемент \(Cov(X,Y)\) показує міру лінійного зв'язку між ознаками. Якщо він відмінний від нуля — у даних є надмірність, яку PCA може усунути.
Покроковий математичний процес PCA
Віднімаємо від кожного значення ознаки її середнє арифметичне: $$X_{centr} = X - \mu$$ Центр хмари точок переноситься у початок координат \((0,0)\).
Ділимо кожну ознаку на її стандартне відхилення \(\sigma\). Це необхідно, щоб ознаки з великим масштабом чисел не домінували над іншими.
Шукаємо власні значення \(\lambda\) та власні вектори \(v\) з рівняння: $$\Sigma v = \lambda v$$ Вектор \(v_1\) вказує напрямок першої головної компоненти (PC1).
Проєктуємо початкові дані на нові осі: $$Z = X \cdot V$$ Отримуємо ортогональні некорельовані компоненти з максимальною дисперсією.
Частка поясненої дисперсії (Explained Variance)
Кожне власне значення \(\lambda_i\) показує обсяг інформації (варіативності), який утримує відповідний головний компонент \(PC_i\).
Сума всіх власних значень \(\sum \lambda_i\) дорівнює повній дисперсії вибірки. Частка поясненої дисперсії для \(i\)-ої компоненти дорівнює:
$$\text{Ratio}_i = \frac{\lambda_i}{\sum \lambda_j}$$
Якщо перші 2-3 компоненти разом пояснюють, наприклад, 95% дисперсії, ми можемо безболісно відкинути інші компоненти, знизивши розмірність задачі.
Ортогональність компонентів
За визначенням з лінійної алгебри, власні вектори симетричної матриці (якою є коваріаційна матриця) завжди взаємно **перпендикулярні (ортогональні)**.
Геометрично це означає, що головні компоненти утворюють нову прямокутну систему координат. Це виключає будь-яке дублювання інформації (мультиколінеарність) між компонентами.
Налаштування аналізу
Обертайте вісь та знайдіть кут, при якому дисперсія проєкцій точок на неї буде максимальною!
Ви можете вільно клікати по координатній площині справа для додавання власних точок або перетягувати вже створені точки.
Інтерактивний 2D простір ознак
0.00
0% від загальної
0.00
0% від загальної
0.00
Сумарний розкид точок
0.00
Для поточної осі
Обчислена коваріаційна матриця вибірки
Власні вектори (Головні напрямки)
Ці вектори (напрямні косинуси) задають формулу переходу у новий простір ознак: