Пошукові системи. Інтелектуальні сервіси
В даний час інформаційні ресурси Інтернет складають понад десяток мільярдів документів (Веб-сторінок), до яких є вільний доступ будь-якого користувача. Природно, для того, щоб знайти необхідну інформацію в найбільш розподіленій повнотекстовій бази даних необхідно використовувати найпотужніші ІПС. Такі системи існують і конкурують один з одним на сучасному ринку інформаційних технологій.
За останні роки звичайний текстовий пошук став повсякденним інструментом мільйонів людей, що використовують такі системи-бренди, як Google, Яндекс, Yahoo, кожна з яких охоплює понад мільярд документів. При цьому далеко не всі лідери інформаційних технологій десятиліття тому усвідомили цю тенденцію.
Ситуація на ринку пошукових систем не проста - вона відображає принцип нової економіки: тут не може бути других ролей. Або система - краща в світі, або нею ніхто не буде користуватися. Система повинна знайти свою нішу в задачі максимального рівня відповідності до вимог користувача - бути самою повною, найдемократичнішою, самої інтелектуальною або самою локалізованою.
Сьогодні інформації в Інтернеті з'являється більше, ніж її встигають проіндексувати пошукові системи. Тому точиться жорстка конкурентна боротьба, пов'язана з цим аспектом.
Кількість світових пошукових серверів, що охоплюють Інтернет, а не окремі його частини, обмежена кількома десятками, лідерами в яких є такі, як:
Серед російських пошукових серверів особливої уваги заслуговують
- Яндекс http://www.yandex.ru
- Рамблер http://www.rambler.ru
- Апорт http://www.aport.ru
В Україні дві лідируючі пошукових системи
- МЕТА http://meta.ua/ - по стабільній частини українського сегменту Мережі
- UAport http://uaport.net/ - по новинний частини.
Пошук та інтелектуальні сервіси Google
Основною метою пошукової системи є забезпечення швидкого і якісного пошуку потрібної інформації. Пошуковик радикально відрізняється від більшості сайтів в мережі, успіх яких визначається тим, як довго користувачі залишаються на сайті. Успіх пошуковика, визначається тим, як швидко користувач його залишає.
Розробники постійно контролюють якість внесених змін, проводиться велика кількість тестів, які доступні для невеликої спільноти користувачів, які оцінюють ефективність пошуку. Експериментальна методологія дозволяє досліджувати широкий спектр можливостей і впроваджувати лише оптимальні з них.
API Google
Голосовий інтерфейс Google
Завдяки Голосовому інтерфейсу можна диктувати запити в клієнтській програмі на пристрої, а не вводити їх. Щоб транскрибувати продиктовані слова в написаний текст, Google надсилає вислови на сервери, де використовується технологія розпізнавання шаблонів.
Для того, навчити систему краще розпізнавати правильні пошукові запити, Google зберігає вислови, щоб покращувати служби, зокрема: дані про мову, країну, вислів і припущення системи про сказане. Збережені аудіодані не містять ідентифікатор облікового запису Google, якщо користувач цього не вказав.
Для кожної мови Голосовий інтерфейс Google збирає голосові фрагменти, які дозволяють створити моделі мови, що забезпечують коректну роботу сервісів. Google має базу аудіо образів, що промовляються носіями мови, що відрізняються акцентами, віком і індивідуальними особливостями, вимовляти часто вживані фрази в різних акустичних умовах, наприклад, в ресторані, на вулиці або в машині. Для кожної мови Google створює словник, що містить більше мільйона розпізнаних слів.
Сервіс функціонує на основі системи Speech Input API, завдяки якій і реалізується голосове управління Інтернет-браузером. Сервіс на даний момент втілено в Google Пошук, Google Перекладач, Cmail, Google Docs.
Голосовий пошук Google
Voice Search - це розширення для Google Chrome, що дозволяє здійснювати пошук або інші дії в Інтернеті за допомогою свого голосу. На сторінці Google в рядку пошуку зображено іконку мікрофону. Користувач має натиснути на нього і вимовити голосно і чітко фразу або слово. Для отримання озвучених відповідей потрібно використовувати мову відповідно до мовного інтерфейсу Google Chrome.
У разі запиту про помітні чи загально визнані об'єкти буде озвучено інформацію, яка береться з «Графа знань» Google - бази, яка містить інформацію про різні об'єкти, події та їхні зв'язки між собою. Відомості з «графа знань» зазвичай виводиться праворуч від результатів пошуку і надає інформацію за запитом, який ввів користувач.
Це може бути, наприклад, інформація про актора, включаючи фільми, в яких він знявся, і дату народження. Озвученню буде підлягати, наприклад, відповідь на прості запитання «Скільки доларів буде в 100 гривнях», «як називається столиця Франції», «хто такий Мануель Баррозу»
Голосовий калькулятор
Пошукова система Google пропонує голосовий калькулятор Google, який дозволяє за допомогою пристроїв голосового введення миттєво отримувати відповідь на будь-які, навіть найскладніші розрахунки.
Для запуску калькулятора потрібно відкрити Google Chrome і запустити google.com, краще з відкритим акаунтом. Включаєте пристрій голосового введення на комп'ютері і чітко і виразно мовою інтерфейсу Chrome вимовляєте арифметичну дію. У пошуковому рядку з'явиться калькулятор, на якому буде відображено дія і озвучено результат обчислень.
З калькулятором можна взаємодіяти вручну, мишкою або на цифровій клавіатурі набираючи числа і змінні. В голосовому калькуляторі Google передбачено 15 алгебраїчних операцій, з дужками, відсотками, числом пі і е та іншими змінними.
Голосовий перекладач Google
Google почав роботи над універсальним перекладачем принципово нового типу. Ідея нового проекту полягає у створенні сервісу, який дозволить користувачам, що спілкуються на різних мовах, говорити один з одним в режимі реального часу, причому саме «говорити», а не «листуватися». Іншими словами перекладач повинен розпізнати мову, перекласти отриманий в результаті цього текст і відтворити його іншою мовою.
Google Translate цілком успішно переводить тексти на 52 різні мови. Доопрацювання вже існуючих технологій до необхідного рівня займе ще кілька років. Для перекладу певної фрази достатньо натиснути на зображення мікрофона в програмі, сказати в мікрофон потрібні слова і програма автоматично відправить записану мову на сервери Google, де відбудеться розбір звукового файлу і переклад фрази. Після текстового перекладу можна прослухати вимову перекладу і оригінального тексту (синтезований жіночий голос).
Google попереджає, що поки що функція носить експериментальний характер, і не слід чекати від неї 100% правильної роботи. Правильному перекладу можуть перешкодити такі фактори як акцент, чіткість вимови і сторонні шуми.
Способи введення тексту в сервісах Google
Для хмарних сервісів Google застосовано кілька способів введення тексту. Поєднання редакторів IME чи інструмента транслітерації, віртуальних клавіатур і рукописного введення дозволяє підтримувати понад 90 мов.
Як користуватися різними способами введення:
Розпізнавання рукописного тексту в сервісах Google
Компанія Google додала до популярних сервісів функцію розпізнавання рукописного тексту. Наприклад, в Google Translate з'явилося спеціальне поле, що підтримує рукописне введення даних. Приміром там можна намалювати ієрогліф і моментально дізнатися його точно позначення. Нова можливість стане в нагоді європейцям і американцям, що вивчають азіатські мови (проект концентрується саме на мовах азіатських груп) і не знають їх хитромудру писемність. На сьогодні існує можливість розпізнавання текстів українською мовою
Для введення тексту можна використовувати мишку або тачпад, де є нормальна підтримка рукописного введення тексту. Для початку роботи з рукописним введенням слід включити відповідну функцію в Gmail. В Google Docs досить буде використовувати комбінацію Ctrl + Shift+K.
Новинку Google будуть поетапно включати для різних регіонів, тому, така функція може бути й відсутня в користувача. Для тих, хто друкує швидше, ніж пише, подібна функція буде непотрібною. Для користувачів, які друкують мовами, символів у якій більше, ніж містить стандартна клавіатура, нововведення може виявитися корисним.
Розпізнавання облич
https://support.google.com/plus/answer/2370300?hl=uk
Google впритул зайнялася технологією розпізнавання осіб на фото. Для того, щоб прискорити даний процес, корпорація купила компанію PittPatt, яка займається розробкою відповідних технологій. PittPatt займається не тільки розпізнаванням осіб на фотографіях, але і розпізнаванням фотографій взагалі, з подальшою розміткою (тегуванням) розпізнаних об'єктів.
Результати розробок впроваджуються в різні програми та сервіси компанії, як звичайні, так і мобільні. Технологія інтегрується в фото- і відеододатки Picasa , Goggles , YouTube і Google+.
Особливості пошуку Яндекса
Яндекс — пошукова машина, яка здатна на запит відвідувача знайти найбільш відповідні веб-сторінки, новини, зображення, статті енциклопедій чи товари, відповісти на запитання про погоду чи культурні події.
Яндекс не вимагає знання спеціальних команд для пошуку. Правильний запит складається з кількох слів, оскільки за одним словом зазвичай важко зрозуміти, що хоче знайти відвідувач. Яндекс добре розуміє запити з кількох слів і здатний самостійно їх інтерпретувати.
Незалежно від того, в якій формі вжито слово в запиті, пошук враховує всі його форми за правилами української чи російської мови.
API Яндекс
Альтернативні пошуковики
Популярні альтернативні пошуковики
Популярні спеціалізовані пошуковики
Аналіз ринку пошукових систем показує, що 99,99% пошукового трафіку розподіляється між кількома основними пошуковиками, таких як Google, Yahoo!, Яндекс. Але з до решти 0,01% належать найбільш інноваційні та креативні пошуковики, але їх кількість сягає тисячі.
Можна розити їх на категорії, а потім порівняти з аналогічними параметрами Google. Наприклад, давайте поглянемо на те, що бачить перед собою практично кожен перед початком свого пошуку в Інтернет - домашню сторінку всюдисущого Google. Ця проста, чиста сторінка з кольоровим логотипом Google на ній - найпопулярніша сторінка у всій Всесвітній Павутині. Для мільйонів інтернет користувачів ця спартанська сторінка і є Інтернет. Google для багатьох став дверима, через які вони входять в Інтернет.
Тому, варто ознайомитися з альтернативними пошуковиками, які є цікавими в своїй царині.
Пошук зображень
Пошук зображень в Інтернеті вже давно став звичним: користувач очікує від пошукової системи точної, швидкої і повної відповіді подібно до пошуку текстової інформації. Більшість популярних пошукових систем поруч з пошуком веб-сторінок з текстовою інформацією втілюють можливість пошуку зображень.
Першу пошукову систему по зображеннях випустила компанія Picsearch у 2001 року. У тому ж році запустив свій пошук по картинкам Google. Серед російських пошуковиків, що втілили сервіс пошуку зображення став Яндекс.Зображення в 2002 році. У 2003 р. цей сервіс додав Yahoo!.
На початковому етапі пошук зображень ґрунтувався виключно на отриманні та аналізі метаданих, які безпосередньо пов'язані з зображеннями: атрибути відповідних HTML тегів, заголовки сторінок, тексти посилань на зображення. З часом, для пошуку зображень почали застосовувати текст, що розташований навколо картинки. На той час пошук зображень обмежувався знаходженням текстової інформації і визначенням ступеня належності до зображення.
Паралельно з пошуком зображень за метаданими розвивається інший напрямок - пошук зображень за вмістом, що ґрунтується на технології комп'ютерного зору. Вона покликана навчити машину дивитися на зображення очима людини, розуміти й аналізувати його вміст: кольори та форми об'єктів, їх текстуру, взаємне розташування. Набір метаданих, що характеризують зображення є обмеженим, а комп'ютерний зір дозволяє значно розширити кількість атрибутів, які враховуються при пошуку картинок і ранжируванні результатів.
Люди по-різному розуміють схожість зображень. Для одних - важливіше колірна схожість, для інших - схожість форм, для третіх - текстур, а іноді - все разом в однаковій пропорції. Які ж критерії є визначальними?
Зазвичай, це сукупність факторів при певному домінуванні одного з них. Система має визначити, який чинник є важливішим в кожному конкретному випадку.
При пошуку схожих зображень, на відміну від роботи фільтрів, порівняння щораз відбувається з новою картинкою-зразком, а не з однією і тією ж моделлю. Тому, потрібно навчити машину аналізувати не окремі властивості зображення, а всю їх сукупність. Вона повинна за соті частки секунди знаходити серед мільйонів проіндексованих картинок зображення, які максимально схожі на картинку-зразок, враховуючи при цьому уявлення про подібність у різних користувачів.
Сервіси для пошуку зображень за картинкою
Першопрохідцем була невелика канадська компанія Tineye, другою - Google, а третьою - китайський пошуковик Baidoo. Яндекс став четвертим гравцем і сподівається, що за ними підтягнеться Microsoft. Втім, в Tineye дуже невелика база картинок (3,5 млрд), а в Baidoo сильний перекіс в китайський ринок. Для українського користувача доречним буде використання пошуку в Яндексі та Google: їх база зображень складає десятки мільярдів зображень.
Картинку на сервіс можна завантажити одним з трьох способів:
- Ввести URL-адресу картинки і натиснути на кнопку «Знайти». Цей спосіб підійде для пошуку картинки, для якої відомо її адресу в Інтернеті.
- Завантажити картинку зі свого комп'ютера.
- Перетягнути картинку за допомогою миші у вказане вікно.
Навіщо потрібен сервіс пошуку схожої картинки?
- Для дизайнерів, художників іноді важливо знайти схожу картинку або фото, але в іншому ракурсі.
- Сервіс допоможе знайти сайт або Інтернет-магазин, де можна знайти або придбати річ, яку зображено на картинці.
- Для пошуку інформації про певну людину, тварину чи архітектурну споруду.
Картинка, за якою шукають подібні зображення повинна відповідати таким вимогам:
- Формат картинки - jpeg, gif, png,
- Розмір картинки не більше 8 Мб.
Сервіс для пошуку зображень використовують алгоритми аналізу і класифікації даних, а для пошуку зображень за візуальним змістом застосовуються технології комп'ютерного зору та опису змісту зображень. Дана технологія перетворює завантажену картинку в набір «візуальних слів». Після цього система серед мільярдів картинок, які містяться в її базі даних вибирає зображення, які мають схожі «візуальні слова» і видає їх користувачеві. При цьому пошук займе не більше хвилини.
Завдання, які вирішує група комп'ютерного зору:
- Класифікація зображень.
- Пошук дублікатів і схожих зображень.
- Розпізнавання тексту.
- Розуміння сцени і розпізнавання об'єктів на зображеннях.
В такому сервісу є кілька сценаріїв використання:
- Пошук такої ж картинки, але іншої: вищої якості, більшого розміру, без водяного знака або, навпаки, фотожаби з нею.
- Дізнатися, хто перебуває на зображенні, тобто визначити зображення людини за текстовими описами на сайтах.
- Відображати не картинки, а сайти, де вони розміщені. Наприклад, за фотографією дизайнерського стільця, дізнаєтися, де його можна купити.
Комп'ютерний зір
Александр Крайнов, менеджер проектов компьютерного зрения
Розробники Яндексу розробили власний алгоритм, який сильно відрізняється від аналогів. Використана Яндексом технологія комп'ютерного зору називається Content Based Image Retrieval (CBIR) і всередині компанії носить назву «Сибір».
Спираючись на узагальнені межі об'єктів, контрастні області та інші ключові елементи картинки, робот створює свою бібліотеку зображень, подібно як звичайний пошуковик викачує спрощені текстові версії веб-сторінок при індексуванні, і вже по ній веде пошук. Здатність до узагальнення вже показує пошук: іноді знаходиться не просто така ж картинка, а інше зображення, що містить такий же об'єкт.
Цей алгоритм найкраще працює з URL-адресою картинки, а не завантаженої з комп'ютера. Тобто, коли вихідна картинка розміщена в Інтернеті, а не на комп'ютері користувача. Оскільки пошукова база обрисів предметів формується з зображень, які вже проіндексовані системою, тому, якщо зображення відсутнє в пошуковій базі, хорошого результату не буде.
На відміну від сервісу Google, який розрізняє кольори, новий алгоритм Яндексу не розрізняє кольори, але здатний аналізувати обриси предметів. Після проведеного аналізу формується пошуковий запит для стандартного (словесного) пошуку за зображеннями. Виняток становлять торгові марки і шрифти - популярні логотипи, зазвичай, програма розпізнає. Те ж саме відноситься і до пам'ятників і архітектурних зображень. Тому, пошук архітектурної пам'ятки за завантаженою картинкою (фотографією) буде успішніше, ніж пошук за фотографією домашнього свята.
Варто відзначити, що пошук за картинками від Google теж часто працює некоректно - в результатах часто демонструються різні зображення зі схожою колірною гамою. Втім, зрозуміло, що даний напрямок тільки починає розвиватися. Яндекс пішов власним шляхом, не відстаючи при цьому від інших конкурентів. Подальші розробки Яндекс просуваються в тому ж напрямку, що і Google, що впровадив технологію Goggles в мобільний пошук. Google Goggles дозволяють шукати в реальному часі за зображенням, що береться з камери смартфону.
Інтелект у Веб-технологіях
Інтернет з кожним днем все більше нагадує самоорганізований універсум, що еволюціонує з шаленою швидкістю. І хоча ця система ще не має повноцінного штучного інтелекту, зачатки його створення вже починають з'являтися (наприклад, віртуальний співрозмовник інф або Акінатор, який читає думки, машинний зір та голосовий інтерфейс пошукових систем). Настане той день, коли тест Тьюринга буде пройдено та Інтернет з функціонального інструменту перетвориться на незамінного помічника, а для когось і друга.
Хто стоїть за всім цим? Безумовно, це спільноти людей. Співтовариства, що об'єднані спільними ідеями, цілями та інтересами, які готові витрачати свій час і ресурси на втілення цих ідей. Тому, з кожним днем в Інтернеті з'являється все більше розумних програм, їх функціонал стає все ширше, а відвідувачі перетворюються зі споживачів в активних творців контенту.
Розумні віртуальні співрозмовники
Віртуальний співрозмовник (бот-консультант) - це фахівець технічної підтримки, який є доступним цілодобово і миттєво відповідає на запитання користувачів. Він спілкується на природній мові. Він може не тільки допомогти щось знайти на сайті, а й запропонувати корисну для користувача інформацію або товар. Бот зберігає задані йому запитання. Завдяки цьому власник сайту може дізнатися, що шукають на сайті, чого бракує, що можна покращити, яка аудиторія клієнтів.
Бот є вбудованим модулем. Щоб відобразити модуль бота потрібно вставити короткий спеціальний код на необхідні сторінки сайту. Консультант може мати стандартне оформлення. Але він також може бути оформлений як індивідуальний персонаж для конкретного сайту.
Бота потрібно навчити відповідати на питання відвідувачів. Початкове навчання робиться на підставі початкового словника. Надалі, аналізуючи діалоги клієнтів і бота, власник сайту може продовжити навчання самостійно.
Всі кроки з налаштування бота, розміщення його бази знань, збору діалогів тощо, компанія розробник робить самостійно. У разі будь-яких питань або необхідних доробок – компанія-розробник підтримує роботу Бота-консультанта.
Продукти компанії «Наносемантика»
«Наносемантіка» - лідер російського ринку технологій штучного інтелекту, націлених на вирішення бізнес-завдань. Компанія з 2005 року займається розробкою Інфів - віртуальних співрозмовників, керованих штучним інтелектом. «Наносемантіка» розвиває технології та онлайн-сервіси, в основі яких лежить прямий діалог машини з користувачем.
- WebMoney
- Beeline Казахстан
- Эlixir банк
- Банк «Тинькофф Кредитные Системы»
- NETBYNET Холдинг
- «А-я-яй.ру»
ρБот-консультант для цілодобової підтримки клієнтів на сайті
http://chatbot.tw1.ru/business.htm
Консультант, який здатний працювати 24 години на добу 7 днів на тиждень без відпочинку і перерв на обід - мрія для сервісних компаній з великою кількістю клієнтів, які задають однакові питання.
Порядок роботи
- Ознайомитися з теоретичними засадами веб-пошуку.
- Уважно ознайомитися з інтерфейсами пошукових систем.
- Здійснити тестовий пошук в різних системах і проаналізувати отримані результати.
- Здійснити пошук картинок в різні способи (за описом та за зображенням) і проаналізувати отримані результати.
- Здійснити голосовий пошук і проаналізувати отримані результати.
- Зробити висновки стосовно втілення інтелектуальних технологій в сучасний пошук.
- Втілити на тестову сторінку різні АРІ від пошукових систем. Оцінити їх зручність та можливості адаптації під дизайн сторінки.
Зміст звіту
- Назва та мета виконання лабораторної роботи.
- Проблематика семантичного пошуку
- Можливості систем стосовно змістовного пошуку в текстах, документах, картинках.
- Аналітичні висновки щодо властивостей сучасних пошуковиків та отриманих результатів.
- Скрін сторінки з втіленими сервісами.