Метод головних компонентів (PCA) — Інтерактивна лабораторія

01. Постановка задачі зниження розмірності

Метод головних компонентів (Principal Component Analysis, PCA) — це математичний алгоритм лінійної алгебри, який використовується для стиснення інформації. Він перетворює набір потенційно корельованих ознак у меншу кількість некорельованих змінних, які називаються головними компонентами (PC).

Філософія PCA полягає у **збереженні максимального розкиду (дисперсії) даних**. Алгоритм шукає такі нові координатні осі, вздовж яких точки рознесені найдалі одна від одної. Це гарантує, що при проєктуванні багатовимірних даних на площину (або лінію) ми втратимо найменшу кількість корисної інформації.

Головна теорема:
Напрямки головних компонентів збігаються з **власними векторами** коваріаційної матриці вибірки, а відповідні їм **власні значення** пропорційні частці збереженої дисперсії.

Коваріаційна матриця

Двовимірний випадок $$\Sigma = \begin{pmatrix} Var(X) & Cov(X,Y) \\ Cov(X,Y) & Var(Y) \end{pmatrix}$$

Позадіагональний елемент $Cov(X,Y)$ показує міру лінійного зв'язку між ознаками. Якщо він відмінний від нуля — у даних є надмірність, яку PCA може усунути.

Покроковий математичний процес PCA

1. Центрування

Віднімаємо від кожного значення ознаки її середнє арифметичне: $$X_{centr} = X - \mu$$ Центр хмари точок переноситься у початок координат $(0,0)$.

2. Масштабування

Ділимо кожну ознаку на її стандартне відхилення $\sigma$. Це необхідно, щоб ознаки з великим масштабом чисел не домінували над іншими.

3. Декомпозиція

Шукаємо власні значення $\lambda$ та власні вектори $v$ з рівняння: $$\Sigma v = \lambda v$$ Вектор $v_1$ вказує напрямок першої головної компоненти (PC1).

4. Проєкція

Проєктуємо початкові дані на нові осі: $$Z = X \cdot V$$ Отримуємо ортогональні некорельовані компоненти з максимальною дисперсією.

Частка поясненої дисперсії (Explained Variance)

Кожне власне значення $\lambda_i$ показує обсяг інформації (варіативності), який утримує відповідний головний компонент $PC_i$.

Сума всіх власних значень $\sum \lambda_i$ дорівнює повній дисперсії вибірки. Частка поясненої дисперсії для $i$-ої компоненти дорівнює: $$\text{Ratio}_i = \frac{\lambda_i}{\sum \lambda_j}$$ Якщо перші 2-3 компоненти разом пояснюють, наприклад, 95% дисперсії, ми можемо безболісно відкинути інші компоненти, знизивши розмірність задачі.

Ортогональність компонентів

За визначенням з лінійної алгебри, власні вектори симетричної матриці (якою є коваріаційна матриця) завжди взаємно **перпендикулярні (ортогональні)**.

Геометрично це означає, що головні компоненти утворюють нову прямокутну систему координат. Це виключає будь-яке дублювання інформації (мультиколінеарність) між компонентами.

Налаштування аналізу

Підготовка даних (Scaling):

Режим візуалізації:

Навчальні шаблони (Датасети):

Ви можете вільно клікати по координатній площині справа для додавання власних точок або перетягувати вже створені точки.

Інтерактивний 2D простір ознак

Точок: 0

Дисперсія PC1 ($\lambda_1$)

0.00

0% від загальної

Дисперсія PC2 ($\lambda_2$)

0.00

0% від загальної

Повна дисперсія ($\sum \lambda_i$)

0.00

Сумарний розкид точок

Дисперсія проєкцій

0.00

Для поточної осі

Обчислена коваріаційна матриця вибірки

Var(X) 0.000

Cov(X,Y) 0.000

Cov(Y,X) 0.000

Var(Y) 0.000

Власні вектори (Головні напрямки)

Ці вектори (напрямні косинуси) задають формулу переходу у новий простір ознак:

$v_1$ (PC1 вектор нахилу): [0.000, 0.000]

$v_2$ (PC2 вектор нахилу): [0.000, 0.000]