|
Для простої передатної функції нейромережа може видавати 0 та 1,
1 та -1 або інші числові комбінації. Передатна функція в таких випадках
є "жорстким обмежувачем" або пороговою функцією (рис.
2а). Інший тип передатної функції лінійна з насиченням віддзеркалює
вхід всередині заданого діапазону і діє як жорсткий обмежувач за
межами цього діапазону. Це лінійна функція, яка відсікається до
мінімальних та максимальних значень, роблячи її нелінійною (рис.
2б). Наступним вибором є сигмоїда або S-подібна крива, яка наближує
мінімальне та максимальне значення у асимптотах і називається сигмоїдою
(рис. 2в), коли її діапазон [0, 1], або гіперболічним тангенсом
(рис. 2г), при діапазоні [-1, 1]. Важливою рисою цих кривих є неперервність
функцій та їх похідних. Застосування сигмоїдних функцій надає добрі
результати і має широке застосування. Зрештою, для різних нейромереж можуть вибиратись інші передатні
функції. Перед надходженням до передатної функції до вхідного сигналу деколи
додають однорідно розподілений випадковий шум, джерело та кількість
якого визначається режимом навчання. В літературі цей шум, згадується
як "температура" штучних нейронів, яка надає математичній
моделі елемент реальності. Компонента 4. МасштабуванняПісля передатної функції вихідний сигнал проходить додаткову обробку
масштабування, тобто результат передатної функції множиться на масштабуючий
коефіцієнт і додається зміщення. Компонента 5. Вихідна функція (змагання)По аналогії з біологічним нейроном, кожний штучний нейрон має один
вихідний сигнал, який передається до сотень інших нейронів. Переважно,
вихід прямо пропорційний результату передатної функції. В деяких
мережевих архітектурах результати передатної функції змінюються
для створення змагання між сусідніми нейронами. Нейронам дозволяється
змагатися між собою, блокуючи дії нейронів, що мають слабий сигнал.
Змагання (конкуренція) може відбуватись між нейронами, які знаходяться
на одному або різних прошарках. По-перше, конкуренція визначає,
який штучний нейрон буде активним і забезпечить вихідний сигнал.
По-друге, конкуруючі виходи допомагають визначити, який нейрон візьме
участь у процесі навчання. Компонента 6. Функція похибки та поширюване назад значенняУ більшості мереж, що застосовують контрольоване навчання обчислюється
різниця між спродукованим та бажаним виходом. Похибка відхилення
(біжуча похибка) перетворюється функцією похибки відповідно заданій
мережній архітектурі. В базових архітектурах похибка відхилення
використовується безпосередньо, в деяких парадигмах використовується
квадрат або куб похибки зі збереженням знаку. Після проходження всіх прошарків біжуча похибка поширюється назад
до попереднього прошарку і може бути безпосередньо похибкою або
похибкою, масштабованою певним чином залежно від типу мережі (наприклад,
похідною від передаточної функції). Це поширюване назад значення
враховується в наступному циклі навчання. Компонента 7. Функція навчанняМетою функції навчання є налаштування змінних ваг з'єднань на входах кожного елемента обробки відповідно до певного алгоритму навчання для досягнення бажаного результату. Існує два типи навчання: контрольоване та неконтрольоване. Контрольоване навчання вимагає навчальної множини даних або спостерігача, що ранжує ефективність результатів мережі. У випадку неконтрольованого навчання система самоорганізовується за внутрішнім критерієм, закладеним в алгоритм навчання. Архітектура з'єднань штучних нейронів
|
||||||||||||||||||||||||||||||||
![]() |
![]() |
Рис. 3. Слабозв'язані нейромережі
Навпаки, якщо входи кожного нейрона зв'язані з виходами усіх решта
нейронів, тоді мова йде про повнозв'язані нейромережі.

Зрозуміло, що такий поділ носить дещо теоретичний характер. Аналізуючи найбільш відомі на даний час розробки нейромереж, слід зазначити, що самим поширеним варіантом архітектури є багатошарові мережі. Нейрони в даному випадку об'єднуються у прошарки з єдиним вектором сигналів входів. Зовнішній вхідний вектор подається на вхідний прошарок нейронної мережі (рецептори). Виходами нейронної мережі є вихідні сигнали останнього прошарку (ефектори). Окрім вхідного та вихідного прошарків, нейромережа має один або декілька прихованих прошарків нейронів, які не мають контактів із зовнішнім середовищем.

Рис. 5. Багатошаровий тип з'єднання нейронів
Фактично, по архітектурі зв'язків, більшість відомих нейромереж,
що знайшли практичне застосування, можна згрупувати у два великих
класи:
На схемі (рис. 6) представлені назви найбільш типових архітектур
мереж, що в свою чергу мають багато модифікацій та можуть бути складниками
у інших мережах.
Мережі прямого поширення відносять до статичних, так як на задані входи нейронів надходить не залежний від попереднього стану мережі вектор вхідних сигналів.
Рекурентні мережі вважаються динамічними, тому що за рахунок зворотних
зв'язків (петель) входи нейронів модифікуються в часі, що призводить
до зміни станів мережі.
Нейронні мережі |
|
|
Мережі прямого поширення |
Рекурентні мережі |
|
|
|
|
|
|
|
|
|
|
|
|
Рис. 6. Найбільш відомі архітектури нейронних
мереж
Оригінальність нейромереж, як аналога біологічного мозку, полягає у здібності до навчання за прикладами, що складають навчальну множину. Процес навчання нейромереж розглядається як налаштування архітектури та вагових коефіцієнтів синаптичних зв'язків відповідно до даних навчальної множини так, щоб ефективно вирішити поставлену задачу. Виділяють варіанти контрольованого та неконтрольованого навчання.
Величезна більшість рішень отримана від нейромереж з контрольованим
навчанням, де біжучий вихід постійно порівнюється з бажаним виходом.
Ваги на початку встановлюються випадково, але під час наступних
ітерацій коректуються для досягнення близької відповідності між
бажаним та біжучим виходом. Створені методи навчання націлені на
мінімізації біжучих похибок всіх елементів обробки, яке створюється
за якийсь час неперервною зміною синаптичних ваг до досягнення прийнятної
точності мережі.
Перед використанням, нейромережа з контрольованим навчанням повинна
бути навченою. Фаза навчання може тривати багато часу, зокрема,
у прототипах систем, з невідповідною процесорною потужністю навчання
може займати декілька годин. Навчання вважається закінченим при
досягненні нейромережею визначеного користувачем рівня ефективності.
Цей рівень означає, що мережа досягла бажаної статистичної точності,
оскільки вона видає бажані виходи для заданої послідовності входів.
Після навчання ваги з'єднань фіксуються для подальшого застосування.
Деякі типи мереж дозволяють під час використання неперервне навчання,
з набагато повільнішою оцінкою навчання, що допомагає мережі адаптуватись
умов, що повільно змінюються.
Навчальні множини повинні бути досить великими, щоб містити всю
необхідну інформацію для виявлення важливих особливостей і зв'язків.
Але і навчальні приклади повинні містити широке різноманіття даних.
Якщо мережа навчається лише для одного прикладу, ваги старанно встановлені
для цього прикладу, радикально змінюються у навчанні для наступного
прикладу. Попередні приклади при навчанні наступних просто забуваються.
В результаті система повинна навчатись всьому разом, знаходячи найкращі
вагові коефіцієнти для загальної множини прикладів. Наприклад, у
навчанні системи розпізнавання піксельних образів для десяти цифр,
які представлені двадцятьма прикладами кожної цифри, всі приклади
цифри "сім" не доцільно представляти послідовно. Краще
надати мережі спочатку один тип представлення всіх цифр, потім другий
тип і так далі.
Головною компонентою для успішної роботи мережі є представлення
і кодування вхідних і вихідних даних. Штучні мережі працюють лише
з числовими вхідними даними, отже, необроблені дані, що надходять
із зовнішнього середовища повинні перетворюватись. Додатково необхідне
масштабування, тобто нормалізація даних відповідно до діапазону
всіх значень. Нормалізація виконується шляхом ділення кожної компоненти
вхідного вектора на довжину вектора, що перетворює вхідний вектор
в одиничний. Попередня обробка зовнішніх даних, отриманих за допомогою
сенсорів, у машинний формат спільна для стандартних комп'ютерів
і є легко доступною.
Якщо після контрольованого навчання нейромережа ефективно опрацьовує дані навчальної множини, важливим стає її ефективність при роботі з даними, які не використовувались для навчання. У випадку отримання незадовільних результатів для тестової множини, навчання продовжується. Тестування використовується для забезпечення запам'ятовування не лише даних заданої навчальної множини, але і створення загальних образів, що можуть міститись в даних.
Неконтрольоване навчання може бути великим надбанням у майбутньому.
Воно проголошує, що комп'ютери можуть самонавчатись у справжньому
роботизованому сенсі. На даний час, неконтрольоване навчання використовується
мережах відомих, як самоорганізовані карти (self organizing maps),
що знаходяться в досить обмеженому користуванні, але доводячи перспективність
самоконтрольованого навчання. Мережі не використовують зовнішніх
впливів для коректування своїх ваг і внутрішньо контролюють свою
ефективність, шукаючи регулярність або тенденції у вхідних сигналах
та роблять адаптацію згідно навчальної функції. Навіть без повідомлення
правильності чи неправильності дій, мережа повинна мати інформацію
відносно власної організації, яка закладена у топологію мережі та
навчальні правила.
Алгоритм неконтрольованого навчання скерований на знаходження близькості
між групами нейронів, які працюють разом. Якщо зовнішній сигнал
активує будь-який вузол в групі нейронів, дія всієї групи в цілому
збільшується. Аналогічно, якщо зовнішній сигнал в групі зменшується,
це приводить до гальмуючого ефекту на всю групу.
Конкуренція між нейронами формує основу для навчання. Навчання конкуруючих нейронів підсилює відгуки певних груп на певні сигнали. Це пов'язує групи між собою та відгуком. При конкуренції змінюються ваги лише нейрона-переможця.
Оцінка ефективності навчання нейромережі залежить від декількох керованих факторів. Теорія навчання розглядає три фундаментальні властивості, пов'язані з навчанням: ємність, складність зразків і обчислювальна складність. Під ємністю розуміють, скільки зразків може запам'ятати мережа, і які межі прийняття рішень можуть бути на ній сформовані. Складність зразків визначає число навчальних прикладів, необхідних для досягнення здатності мережі до узагальнення. Обчислювальна складність напряму пов'язана з потужністю процесора ЕОМ.
У загальному використанні є багато правил навчання, але більшість
з цих правил є деякою зміною відомого та найстаршого правила навчання,
правила Хеба. Дослідження різних правил навчання триває, і нові
ідеї регулярно публікуються в наукових та комерційних виданнях.
Представимо декілька основних правил навчання.
Опис правила з'явився у його книзі "Організація поведінки" у 1949 р. "Якщо нейрон отримує вхідний сигнал від іншого нейрону і обидва є високо активними (математично мають такий самий знак), вага між нейронами повинна бути підсилена". При збудженні одночасно двох нейронів з виходами (хj, уі) на t-тому кроці навчання вага синаптичного з'єднання між ними зростає, в інакшому випадку - зменшується, тобто
D Wij(k)=r xj (k) yi (k),
де r - коефіцієнт швидкості навчання.
Може застосовуватись при навчанні "з вчителем" і "без
вчителя".
Є подібним до правила Хеба за винятком того, що воно визначає величину
підсилення або послаблення. "Якщо одночасно вихідний та вхідний
сигнал нейрона є активними або неактивними, збільшуємо вагу з'єднання
оцінкою навчання, інакше зменшуємо вагу оцінкою навчання".
Це правило є подальшою зміною правила Хеба і є одним із найбільш загально використовуваних. Це правило базується на простій ідеї неперервної зміни синаптичних ваг для зменшення різниці ("дельта") між значенням бажаного та біжучого вихідного сигналу нейрона.
DWij= xj
(di - yi).
За цим правилом мінімізується середньоквадратична похибка мережі.
Це правило також згадується як правило навчання Відрова-Хофа та
правило навчання найменших середніх квадратів.
У правилі "дельта" похибка отримана у вихідному прошарку
перетворюється похідною передатної функції і послідовно пошарово
поширюється назад на попередні прошарки для корекції синаптичних
ваг. Процес зворотного поширення похибок мережі триває до досягнення
першого прошарку. Від цього методу обчислення похибки успадкувала
своє ім'я відома парадигма FeedForward BackPropagation.
При використанні правила "дельта" важливим є невпорядкованість
множини вхідних даних. При добре впорядкованому або структурованому
представленні навчальної множини результат мережі може не збігтися
до бажаної точності і мережа буде вважатись нездатною до навчання.
Це правило подібне до правила "дельта" використанням
похідної від передатної функції для змінювання похибки "дельта"
перед тим, як застосувати її до ваг з'єднань. До кінцевого коефіцієнта
зміни, що діє на вагу, додається пропорційна константа, яка пов'язана
з оцінкою навчання. І хоча процес навчання збігається до точки стабільності
дуже повільно, це правило поширене і є загально використовуване.
Доведено, що різні оцінки навчання для різних прошарків мережі
допомагає процесу навчання збігатись швидше. Оцінки навчання для
прошарків, близьких до виходу, встановлюються меншими, ніж для рівнів,
ближчих до входу.
На відміну від навчання Хеба, у якому множина вихідних нейронів
може збуджуватись одночасно, при навчанні методом змагання вихідні
нейрони змагаються між собою за активізацію. Це явище, відоме як
правило "переможець отримує все". Подібне навчання має
місце в біологічних нейронних мережах. Навчання за допомогою змагання
дозволяє кластеризувати вхідні дані: подібні приклади групуються
мережею відповідно до кореляцій і представляються одним елементом.
При навчанні модифікуються синаптичні ваги нейрона-переможця. Ефект
цього правила досягається за рахунок такої зміни збереженого в мережі
зразка (вектора синаптичних ваг нейрона-переможця), при якому він
стає подібним до вхідного приклада. Нейрон з найбільшим вихідним
сигналом оголошується переможцем і має можливість гальмувати своїх
конкурентів і збуджувати сусідів. Використовується вихідний сигнал
нейрона-переможця і тільки йому та його сусідам дозволяється коректувати
свої ваги з'єднань.
DWij (k+1)=
Wij(k)+r [xj - Wij(k)].
Розмір області сусідства може змінюватись під час періоду навчання. Звичайна парадигма повинна починатись з великої області визначення сусідства і зменшуватись під час процесу навчання. Оскільки елемент-переможець визначається по найвищій відповідності до вхідного зразку, мережі Коxонена моделюють розподіл входів. Це правило використовується в самоорганізованих картах.