Курс лекцій "Організація інтелектуальних обчислень"
Перспективні дослідження і розробки по інтелектуальних системах
Технології інтелектуальних обчислень - стан проблеми, нові рішення
Основні моделі та методи технологій інтелектуальних обчислень
Процес знаходження нового знання
Штучні нейронні мережі
Детальний опис компонентів та роботи нейронних мереж
Класифікація відомих нейромереж по основних категоріях застосування
Нейромережі в задачах відображення
Сучасні напрямки розвитку нейрокомп'ютерних технологій
Популярно про генетичні алгоритми
Нечітка логіка

 

Тема 2. Технології інтелектуальних обчислень - стан проблеми, нові рішення

Представлення нової технології інтелектуального аналізу даних

Комп'ютерні технології з організацією інтелектуальних обчислень переживають свій розквіт. Це пов'язано, головним чином, з потоком нових ідей, що виходять з галузі комп'ютерних наук, яка утворилась на перетині штучного інтелекту, статистики та теорії баз даних. Зараз відбувається стрімкий зріст числа програмних продуктів, що використовують нові технології, а також типів задач, де їх застосування надає значного економічного ефекту. Елементи автоматичної обробки і аналізу даних, що називають Data Mining (знаходження знань) стають невід'ємною частиною концепції електронних сховищ даних та організації інтелектуальних обчислень. Простий доступ користувача до сховища даних забезпечує тільки отримання відповідей на питання, що були задані, в той час як технологія data mining дозволяє побачити ("знайти") приховані правила і закономірності у наборах даних, які користувач не може передбачити, і застосування яких може сприяти збільшенню прибутків підприємства.

Визначення Data Mining

Data Mining переводиться як "видобуток" чи "розкопка даних". Нерідко поруч з Data Mining зустрічаються слова "інтелектуальний аналіз даних". Справа в тому, що людський розум сам по собі не пристосований для сприйняття великих масивів різнорідної інформації. Людина до того ж не здатна уловлювати більш двох-трьох взаємозв'язків навіть у невеликих вибірках. Але і традиційна математична статистика, яка довгий час претендувала на роль основного інструмента аналізу даних, також нерідко пасує при рішенні задач з реального складного життя. Вона оперує усередненими характеристиками вибірки, що часто є фіктивними величинами (типу середньої температури пацієнтів по лікарні, середньої висоти будинку на вулиці, що складається з палаців і халуп і т.п.). Тому методи математичної статистики виявляються корисними, головним чином, для перевірки заздалегідь сформульованих гіпотез.

Можливості інтелектуального аналізу

Більшість організацій накопичують під час своєї діяльності величезні обсяги даних, але єдине, що вони хочуть від них одержати - це корисна інформація. Як можна довідатися з даних про те, що потрібно найбільш вигідним для організації клієнтам, як розмістити ресурси найбільш ефективним чином або як мінімізувати втрати? Для вирішення цих проблем призначені новітні технології інтелектуального аналізу. Вони використовують складний статистичний аналіз і моделювання для знаходження моделей і відношень, прихованих у базі даних - таких моделей, що не можуть бути знайдені звичайними методами.

Модель, як і карта - це абстрактне представлення реальності. Карта може вказувати на шлях від аеропорту до будинку, але вона не може показати аварію, що створила пробку, або ремонтні роботи, які ведуться в даний момент і вимагають об'їзду. Доти поки модель не відповідає існуючим реально відношенням, неможливо отримати успішні результати.
Існують два види моделей: передбачувані й описові. Перші використовують один набір даних з відомими результатами для побудови моделей, що явно передбачають результати для інших наборів, а другі описують залежності в існуючих даних, що у свою чергу використовуються для прийняття керівних рішень чи дій.

Звичайно ж, компанія, що довго знаходиться на ринку і знає своїх клієнтів вже інформована про багато моделей, які спостерігалися протягом декількох останніх періодів. Технології інтелектуального аналізу можуть не тільки підтвердити ці емпіричні спостереження, але і знайти нові, невідомі раніше моделі. Спочатку це може дати користувачеві лише невелику перевагу. Але така перевага, якщо її об'єднати по кожному товару і кожному клієнту, дає істотний відрив від тих, хто не використовує технології Data Mining. З іншого боку, за допомогою методів data mining можна знайти таку модель, що приведе до радикального поліпшення у фінансовому і ринковому становищі компанії.

Недоліки технології інтелектуального аналізу даних

Data Mining - це набір засобів, а не чарівна паличка. Він не знаходиться в базі даних і не посилає електронну пошту, коли бачить цікаву модель. Він не виключає необхідності знання Вашого бізнесу і розуміння самих даних чи аналітичних методів. Цей набір засобів допомагає аналітикам у знаходженні моделей і відношень у даних, але він не говорить про цінність цих моделей для організації. Кожна модель повинна перевірятися в реальному середовищі.

Хоча інструментарій інтелектуального аналізу і звільнює користувача від можливих складностей у застосуванні статистичних методів, він все-таки потребує від нього розуміння роботи цього інструментарію й алгоритмів, на яких він базується. Крім цього, технологія знаходження нового знання в базі даних не може дати відповіді на ті питання, що не були задані. Вона не заміняє аналітиків чи менеджерів, а дає їм сучасний, могутній інструмент для поліпшення роботи, яку вони виконують.

Data Mining і OLAP

У професіоналів обробки даних часто виникає питання про різницю між засобами інтелектуального аналізу і засобами OLAP (On-Line Analytical Processing) - засобами оперативної аналітичної обробки.

OLAP - це частина технологій, скерованих на підтримку ухвалення рішення. Звичайні засоби формування запитів і звітів описують саму базу даних. Технологія OLAP використовується для відповіді на задані питання. При цьому користувач сам формує гіпотезу про дані чи відношення між даними і після цього використовує серію запитів до бази даних для підтвердження чи відхилення цих гіпотез. Засоби Data Mining відрізняються від засобів OLAP тим, що замість перевірки передбачуваних взаємозалежностей, вони на основі наявних даних можуть робити моделі, що дозволяють кількісно оцінити ступінь впливу досліджуваних факторів. Крім того, засоби інтелектуального аналізу дозволяють робити нові гіпотези про характер невідомих, але реально існуючих відношень у даних.

Сучасні технології інтелектуального аналізу перелопачують інформацію з метою автоматичного пошуку шаблонів (патернів), характерних для яких-небудь фрагментів неоднорідних багатомірних даних. На відміну від оперативної аналітичної обробки даних у Data Mining тягар формулювання гіпотез і виявлення незвичайних шаблонів перекладено з людини на комп'ютер.

Приклади формулювань задач при використанні методів OLAP і Data Mining

OLAP

Data Mining

Які середні показники травматизму для людей, що палять і не палять?

Які фактори найкраще передбачають нещасливі випадки?

Які середні розміри телефонних рахунків існуючих клієнтів у порівнянні з рахунками колишніх клієнтів (що відмовилися від послуг телефонної компанії)?

Які характеристики відрізняють клієнтів, що, цілком ймовірно, збираються відмовитися від послуг телефонної компанії?

Яка середня величина щоденних покупок по вкрадених і не вкрадених кредитних картках?

Які схеми покупок характерні для шахрайства з кредитними картками?

У принципі немає нічого нового в постановці задачі Data Mining. Фахівці протягом декількох останніх десятків років вирішували подібні задачі ("пошук емпіричних закономірностей", "евристичний пошук у складних середовищах", "індуктивний висновок" і т.п.). Але тільки зараз суспільство в цілому дозріло для розуміння практичної важливості і широти цих задач. По-перше, у зв'язку з розвитком технологій запису і збереження даних сьогодні на людей вилились колосальні потоки інформаційної руди у всіляких областях, що без продуктивної переробки грозять перетворитися в нікому не потрібні смітники. І, по-друге, засоби і методи обробки даних стали доступними і зручними, а їхні результати зрозумілими для будь-якої людини.

Data Mining і сховища даних

Для успішного проведення всього процесу знаходження нового знання необхідною умовою є наявність сховища даних. Принципи побудови сховищ - це дуже велика тема, що заслуговує окремого курсу лекцій. Обмежимося лише основними принципами побудови сховища даних.

Отже, сховище даних - це предметно-орієнтований, інтегрований, прив'язаний до часу, незмінний збір даних для підтримки процесу прийняття керівних рішень. Предметна орієнтація означає, що дані об'єднані в категорії і зберігаються відповідно до тих областей, що вони описують, а не до застосувань, що їх використовують. Інтегрованість означає, що дані задовольняють вимогам усього підприємства (у його розвитку), а не єдиної функції бізнесу. Тим самим сховище даних гарантує, що однакові звіти, згенеровані для різних аналітиків, будуть містити однакові результати. Прив'язка до часу означає, що сховище можна розглядати як сукупність "історичних" даних: можна відновити картину на будь-який момент часу. Атрибут часу завжди є явно присутнім у структурах сховища даних. Незмінність означає, що, потрапивши один раз у сховище, дані вже не змінюються на відміну від оперативних систем, де дані зобов'язані бути присутніми тільки в останній версії, оскільки постійно змінюються. У сховище дані лише долучаються.

Для рішення переліченого ряду задач, що неминуче виникають при організації й експлуатації інформаційного сховища, повинно існувати спеціалізоване програмне забезпечення. Сучасні засоби адміністрування сховища даних мають забезпечити ефективну взаємодію з інструментарієм знаходження нового знання.

Технології інтелектуальних обчислень і апаратне забезпечення

Ключовою можливістю застосування новітніх технологій стало величезне падіння ціни за останні кілька років на пристрої збереження інформації з десятків доларів за збереження мегабайта інформації, до десятків центів. Це істотно здешевіло і збільшило можливості збору і збереження великих обсягів інформації.

Падіння цін на процесори з одночасним збільшенням їхньої швидкодії сприяло розвитку технологій зв'язаних з обробкою величезних масивів інформації. У результаті цього була переборена множина бар'єрів, що знаходяться на шляху знаходження нового знання в сховищах інформації.

Клієнт-серверна архітектура також є необхідним атрибутом технології інтелектуального аналізу даних. Такий підхід надає можливості виконувати найбільш трудомісткі процедури обробки даних на високопродуктивному сервері як розробникам проектів, так і користувачам. На цьому ж сервері можуть зберігатися і по запитах клієнтів виконуватися корпоративні проекти.

Сфера застосування технологій інтелектуальних обчислень

Сфера застосування технологій інтелектуальних обчислень нічим не обмежена - вона скрізь, де є які-небудь дані. Але в першу чергу методи Data Mining сьогодні, м'яко говорячи, заінтригували комерційні підприємства, що розгортають проекти на основі інформаційних сховищ даних. Досвід багатьох таких підприємств показує, що віддача від використання технологій інтелектуального аналізу даних може досягати 1000%. Наведено в InterNet приклад - річна економія 700 тис. дол. за рахунок упровадження Data Mining у мережі універсамів у Великобританії. Технології Data Mining надають велику допомогу для керівників і аналітиків у їхній повсякденній діяльності. Ділові люди усвідомили, що за допомогою методів Data Mining вони можуть одержати відчутні переваги в конкурентній боротьбі. Коротко охарактеризуємо деякі можливі бізнес-застосування технологій інтелектуального аналізу даних та обчислень.

Бізнес-застосування Data Mining

Застосування інтелектуальних технологій поширено в широкому спектрі індустрій. Методи Data Mining поширені в багатьох організаціях через те, що вони можуть зробити істотний внесок у збільшення доходів. Ці методи можуть використовуватися для керування взаємовідносинами з клієнтами. Визначаючи характеристики клієнтів, що можуть звернутись до конкурентів, компанія може починати дії для їхнього утримання, тому що зберегти клієнта завжди дешевше, ніж придбати нового.

Маркетинг даних - область, в якій активно застосовується інтелектуальні технології. Визначаючи за допомогою методів Data Mining коло кандидатів для розсилання цільової реклами можна збільшити продаж, при цьому зменшивши витрати на проведення такої реклами.

Телекомунікаційні компанії і компанії, що випускають кредитні картки, є лідерами в застосуванні цих технологій для визначення можливих втрат клієнтів.

Страхові компанії і фондові біржі застосовують ці технології для визначення втрат клієнтів.

Ще одна область застосування методів інтелектуального аналізу даних - медицина; тут передбачається ефективність застосування медикаментів, хірургічних процедур і медичних тестів.

Компанії, що діють на фінансовому ринку, визначають ринкові і галузеві характеристики для передбачення індивідуальних і фондових переваг у найближчому майбутньому.

Супермаркети визначають, які продукти продавати і як їх розташувати всередині магазина для досягнення найбільшої кількості продажів.

Фармацевтичні фірми використовують сховища даних по хімічних сполуках для знаходження комбінацій цих з'єднань, що надалі можна буде використовувати як ліки для лікування різних захворювань.

Ключем до успішного застосування методів інтелектуальних обчислень служить не просто вибір алгоритму, а майстерність людини, що проводить побудову моделі, і можливості програми проводити процес моделювання. Інформативність реалізованого проекту залежить від цих факторів у більшому ступені, ніж від алгоритмів.

Існують дві сторони успіху в пошуку даних. По-перше - це чітке і ясне формулювання задачі, що підлягає рішенню. По-друге - це використання правильних даних. Після вибору даних із усіх доступних джерел (чи навіть придбання даних із зовнішніх джерел) необхідно їх перетворити або згрупувати у визначеному порядку.

Чим більше аналітик може "грати" з даними, будувати моделі, оцінювати результати (тобто більше працювати з даними за одиницю часу), тим краще може бути результат. Робота з даними стає більш ефективної, коли можлива інтеграція наступних компонентів: візуалізація, графічний інструментарій, засоби формування запитів, оперативна аналітична обробка, що дозволяють зрозуміти дані й інтерпретувати результати, і, нарешті, самі алгоритми, що будують моделі.

Технології інтелектуальних обчислень та український ринок

На українському ринку технології інтелектуальних обчислень роблять лише перші кроки. Це можна пояснити їх високою вартістю, але, як показує історія розвитку інших галузей комп'ютерного ринку України, сам по собі цей фактор навряд чи є визначальним. Скоріше тут виявляється дія деяких специфічних для України негативних факторів, що різко зменшують ефективність застосування аналітичних технологій. Постараємося визначити ці фактори, проаналізувати ступінь притаманних їм різних класів систем інтелектуального аналізу даних та обчислень, а також виділити властивості таких систем, що полегшують українським покупцям їхнє застосування.

Почнемо з характеристики української специфіки. Комп'ютерні системи підтримки прийняття рішень, у принципі, можуть ґрунтуватися на двох підходах. Перший, більш традиційний, полягає в тому, що в системі фіксується досвід експерта, який використовується для вироблення, оптимального в даній ситуації, рішення. Системи інтелектуальних обчислень в основному реалізують другий підхід. Вони намагаються знайти рішення на основі аналізу історичних даних, що описують поведінку досліджуваного об'єкта, прийняті в минулому рішення, їхні результати і т.д. Усі ці дані можуть включати, наприклад, часові ряди цін на різні фінансові послуги, результати фінансово-господарської діяльності підприємства, статистику продажів тієї чи іншої продукції. Зрозуміло, щоб застосування цих систем у практиці виявилось виправданим, необхідно мати досить вагому множину цих даних - інакше прийняті на їхній основі рішення будуть безпідставними.

З цією очевидною обставиною зв'язані головні труднощі просування технологій інтелектуальних обчислень в України: відмінною рисою більшості вітчизняних підприємств є порівняно невеликий термін існування. Характерний "вік" накопичених ними баз даних складає 2-3 роки, і, як показує досвід, інформації, що міститься в цих базах даних, виявляється недостатньо для вироблення на її основі ефективної стратегії прийняття рішень за допомогою новітніх аналітичних систем. Небезпека тут складається не стільки в неможливості виявлення цікавлячих взаємозв'язків у нечисленних даних і побудови моделей на їхній основі, скільки в одержанні статистично незначущих моделей і прийнятті на їхній основі невірних рішень. Якщо даних мало, а їхня описова модель складна, то завжди можна підігнати цю модель під дані, навіть якщо це цілком випадкові числа. Той факт, що метод відмінно працює, коли потрібно пояснити те, що було в минулому, але зовсім непридатний для прийняття рішень "на майбутнє", народжує сумніву в здатності систем інтелектуальних обчислень вирішувати реальні задачі зі сфери бізнесу і фінансів. Таким чином, головна проблема застосування систем видобутку знань для України - це нечисленність аналізованих даних, а одне з головних вимог до цих систем - наявність твердого контролю статистичної значимості одержуваних результатів.

Іншою відмітною рисою української економіки, як на макрорівні, так і на рівні окремих підприємств, є її нестабільність; крім того, вона знаходиться під впливом дії численних, зненацька виникаючих факторів. У той час як на Заході підприємства в основному працюють у рамках вже устояної законодавчої бази, у сформованих структурах товарних, фінансових і інформаційних потоків, українські підприємства змушені підбудовуватися під правила гри, що постійно змінюються. Це ж стосується українських фінансових ринків, де приблизно раз у півроку відбувається істотне корегування правил роботи. Отже, людина повинна обов'язково контролювати й аналізувати результати, спродуковані інтелектуальними системами. Це потрібно, щоб гарантувати облік усіх факторів, що впливають на рішення. Як наслідок, побудовані моделі повинні бути прозорі і допускати інтерпретацію.

Нарешті, ще одна обставина впливає на застосування систем інтелектуальних обчислень в українських умовах. Воно зв'язано з тим, що люди, відповідальні за прийняття рішень у бізнесі і фінансах, звичайно не є фахівцями з статистиці і штучному інтелекті і тому не можуть безпосередньо використовувати системи інтелектуального аналізу даних, що вимагають складного налаштування чи спеціальної підготовки даних. Якщо така система поставляється як складова частина загальної технології електронних сховищ даних, реалізованої на підприємстві (що стає самою розповсюдженою практикою в розвинутих країнах), то це не створює проблеми - всі налаштування і передпроцесорна обробка здійснюються автоматично. Однак українські підприємства, що використовують сховища даних з елементами інтелектуального аналізу, сьогодні вкрай нечисленні. Тому важливими факторами, що визначають комерційний успіх систем інтелектуального аналізу даних в України, є простота у використанні і високому ступені автоматизму.

Засоби інтелектуальних обчислень знаходження нового знання та аналізу даних припускають надання допомоги організаціям у знаходженні прихованих залежностей у даних. Отримані моделі можна використовувати як для передбачення майбутніх значень, так і для опису поточного стану. Однак, засоби інтелектуальних обчислень не можуть працювати без супроводу користувачів, що добре розуміють ділову область, самі дані і загальний характер використовуваних аналітичних методів. Результат застосування методів знаходження нового знання може виявлятися в широкому спектрі, від збільшення доходів, до зменшення витрат.

Побудова моделі, це тільки один крок у процесі знаходження нового знання. Для отримання коректних результатів необхідно зібрати і підготувати дані і перевірити модель у реальному світі. Найкращу модель можна знайти після побудови моделей різних типів по різних технологіях.

Просунуті підприємці усвідомили, що засоби інтелектуальних обчислень - це реальний спосіб підвищення ефективності роботи. Питання не в тому, чи потрібні нові технології, а в тому, як їх застосувати в кожному конкретному випадку. Витрати на постановку задачі і супровід інтелектуальних систем можуть на порядок перевищувати вартість окремого пакета програм. Очевидно, що варто витратити частину грошей на навчання фахівців - у підсумку вийде дешевше й ефективніше. Зростає роль спеціалізованих консалтингових фірм, що здійснюють комплексний супровід проектів, включаючи діагностику задачі, аналіз методів рішення, вироблення рекомендацій, реалізацію обраного підходу, супровід, оптимізацію.