YOLO

Зображення з сіткою

Вихідний тензор клітинки

Статистика детекції

Інтерактивна демонстрація всіх п'яти кроків YOLO на реальній сцені з чотирма об'єктами.

На кроці «Сітка S×S» зображення ділиться на 7×7 = 49 клітинок. Кожна клітинка відповідає за об'єкти, чий центр у неї потрапляє. Праворуч видно вихідний тензор: для кожної клітинки мережа передбачає [tx, ty, tw, th, conf, ...класи].
На кроці «Anchor boxes» стає видно ключову ідею YOLO: мережа не шукає об'єкти — вона просто передбачає координати для кількох заздалегідь заданих форм (anchor) у кожній клітинці. Одне пряме проходження дає відповідь для всієї сітки одразу.
На кроці «Confidence» теплова карта показує, які клітинки «бачать» об'єкт. Confidence = P(об'єкт) × IoU(передбачений box, справжній box).
NMS — найважливіший постпроцесинг: серед усіх box одного класу залишається лише той з найвищим score, а решта з IoU > 0.45 — прибираються як дублікати.

Результат — 4 чисті детекції. Саме тому YOLO такий швидкий: замість sliding window чи region proposals — одне пряме проходження через мережу для всієї сітки.