Пошукові системи

Пошукова система - це складний програмно-апаратний комплекс, що призначений для здійснення пошуку ресурсів в Інтернет, збереження відомостей про них в своїх базах і надання користувачу переліку посилань відповідно до його пошукового запиту.

Головним завданням пошукової системи є здатність надавати користувачам саме ту інформацію, яку вони шукають. Навчити користувачів робити «правильні» запити до пошукової системи, які відповідають її принципам роботи неможливо. Пошукова система повинна діяти так само, як діє користувач при пошуку інформації і надавати за його запитом інформацію максимально швидко і просто. Для того, щоб задовольнити зростаючим потребам користувачів, розробники пошукових машин постійно вдосконалюють алгоритми і принципи пошуку, додають нові функції і можливості, що пришвидшують роботу системи.

Популярні пошукові системи в світі

За даними статистики на жовтень 2019 року перше місце на світовому ринку пошукових систем займає компанія Google - 92.96%. Далі йде Bing - 2.34%, Yahoo! - 1.64%. У решти менше 1% на ринку.

Головним лідером на теренах України залишається Google, яка має власні бази та алгоритми пошуку. Українські розробки в основному базуються на технологіях та базах Google і, звісно, значно йому поступаються.

  • Meta. Українську пошукову систему Meta створено в 1998 році силами Харківського державного політехнічного університету. Зона пошуку - українські сайти, а також сайти, що мають відношення до України.
  • Ukr.net. Український веб-портал, який публікує новинні статті. Заснований в 1998 році, має мобільну версію.
  • I.ua і Online.ua. Надають пошуковий сервіс в межах відповідних веб-порталів, що базується на Google.
  • Шукалка. Українська пошукова система Шукалка зосереджена на пошуку документів, які стосуються України. Система віддає 30% свого прибутку до дитячих будинків України.

Принципи роботи пошукової системи

Робота пошукових систем складається з двох частин.

  1. Пошукові системи обходять різноманітні ресурси по всьому Інтернету, і складають цю інформацію на своїх серверах.
  2. Користувач через головну сторінку пошуковика формує запит і отримує відповідь від серверів даної пошукової системи.

Результати пошуку

Сторінка результатів пошуку SERP (Search Engine Results Page) щодня формується десятками мільйонів разів. Результати пошуку - це посилання на знайдені документи з короткою інформацією про них.

Блок з інформацією про знайдений ресурс називається сніпетом (snippet), він допомагає користувачеві швидко зрозуміти яка з відповідей підходить йому найкраще. Для заголовку сніпету найчастіше використовується заголовок самого документа або фрагмент, який найбільше підходить за змістом до заданого запиту. Під заголовком надається блок з коротким описом документа та певними важливими відомостями: пряме посилання на документ, рейтинг, категорія сторінки, дата останнього оновлення тощо.

Рис.2. Сніпет документа на сторінці видачі результатів

Щоб допомогти користувачеві швидше зрозуміти зміст документа, виділяються визначальні слова. Це відбувається при відповіді на загальні, багатозначні запити. Спеціальна програма стежить за тим, як користувачі уточнюють свої запити, і обчислює значимість таких уточнень. В подальшому ці знання використовуються при формуванні сніпету.

Важливим є, щоб користувачі могли швидко знайти відповідь - іноді навіть відразу на сторінці результатів пошуку. Для різних відповідей потрібна різна додаткова інформація. Наприклад, якщо людина задає в запиті назву організації, можливо, їй потрібно довідатися, де вона знаходиться або контактну інформацію. Щоб не довелося витрачати час на пошуки сторінки з контактами на сайті організації, пошукова система додає телефон і фізичну адресу з посиланням на карту до сніпету (рис.3).

Рис. 3. Фрагмент сторінки видачі Google на запит «Піца на замовлення Львів»

Якщо пошуковій системі відомо про структуру сайту, вона показує її користувачеві. Під текстом сніпету сайту з'являються посилання на його найбільш відвідувані сторінки - щоб за бажанням користувач міг перейти в потрібний розділ, витрачаючи менше кліків і трафіку (рис.4).

Рис. 4. Розширена інформація за запитом «Львівська політехніка»

Для деяких предметних областей створюються спеціальні сніпети. Наприклад, для сторінок з описами товарів або для сайтів готелів, ресторанів, кінотеатрів. Основна інформація, що з'являється в сніпетах - ціна товару, «зірковість» готелю, кухня ресторану, кількість залів кінотеатру. Завдяки таким спеціальним сніпетам користувач економить час і трафік, а організація отримує відвідувача сайту, зацікавленого саме в її послугах (рис.5-6).

Рис. 5. Розширена інформація до запиту «Офіси Софтсерву»

Рис. 6. Фрагмент сторінки видачі Google на запит «Український борщ»

Google надає можливість переглянути збережену копію документа прямо з бази (може допомогти при тимчасової недоступності сайту, блокування його через зараження вірусом або видаленні з нього даної інформації), а також поділитися посиланням на неї та знайти схожі сайти. Якщо сторінка є іншою мовою, то відразу можна застосувати переклад.

Рис. 7. Відкривання кешованої версії та автоматичний переклад сторінки

Коли користувач починає вводити запит у пошуковому рядку, пошуковик показує кілька найпопулярніших запитів, що починаються на вже введені літери - це пошукові підказки. Пошукові підказки допомагають заощадити час - можна не друкувати запит цілком. Пошуковик розуміє, які показати підказки, навіть якщо користувач забув змінити розкладку клавіатури або допустив граматичні помилки.

Рис. 8. Пошукові підказки

Список, з якого беруться пошукові підказки, формується після фільтрації всього потоку запитів користувачів. Запити проходять множину фільтрів, кожний з яких фільтрує запити за кількома умовами. Наприклад, прибирає дуже рідкісні запити або запити, що містять ненормативну лексику. Разом з фільтрацією виправляються помилки. У підсумку залишаються мільйони запитів.

На одне запитання може бути кілька правильних відповідей - залежно від потреб користувача. Персональний пошук вміє враховувати особисті інтереси та переваги користувача і вибирати найбільш підходящу для нього відповідь.

В основі персонального пошуку лежить аналіз пошукової поведінки - наприклад, які запити задає людина, на які сайти переходить, якою мовою спілкується з пошуковою системою. Аналізуючи питання і переходи користувача, пошукова система робить висновок про те, що йому зараз важливо і цікаво. Ці дані враховуються як при виборі підказок, так і при пошуку персональної відповіді на запитання.

Вибираючи для людини підказки, пошукова система намагається вгадати його наступні запити. При цьому пошукова система спирається на питання людей з схожою пошуковою поведінкою.

Інструменти та фільтри

Під рядком пошуку розміщена панель, що дозволяє фільтрувати результати. Для різних областей пошуку (всі результати, по картинках, по відео) вона буде дещо різнитися, і пункти фільтрів будуть якнайточніше відповідати об’єкту та сфері пошуку.

Оператори пошуку в Google

Оператори пошуку Google дозволяють шукати фрази або ключові слова в заголовках сайтів, їх URL, в змісті і текстах. Все це досягається шляхом розширеного пошуку. Ці розширені можливості допоможуть заощадити час і підвищити якість знайденої інформації.

Google постійно корегує набір операторів, тому, вказані у різних джерелах відомості можуть частково або повністю не працювати. Нижче наведено перелік операторів, актуальних на 2019 рік.

"пошуковий запит"

Примусовий пошук точного збігу. Використовуйте його для уточнення неоднозначних результатів пошуку або виключення синонімів при пошуку окремих слів.

OR

Пошук по X або Y. повернеться результати, пов'язані з X або Y, або і те, і інше. Замість нього можна використовувати оператор (|).

AND

Пошук по X і Y. повернеться тільки результати, пов'язані як з X, так і з Y. Примітка: в реальності не має значення для звичайного пошуку, тому що Google за замовчуванням вставляє AND. Але дуже корисний в поєднанні з іншими операторами.

- Вилучити термін або фразу

* Заміна довільного фрагменту

()

Угруповання декількох термінів або операторів, щоб контролювати видачу.

$ Пошук цін

Також працює для євро (€), але не для британського фунта (£).

define:

По суті, це вбудований в Google словник. Показує значення слова.

cache:

Повертає останню кешовану версію веб-сторінки (за умови, що сторінка проіндексована, звичайно).

filetype:

Обмежує результати файлами певного формату, наприклад, pdf, docx, txt, ppt і т. Д. Примітка: подібний оператор "ext:".

site:

Результати для певного домену.

related:

Пошук сайтів, подібних до даного домену.

intitle:

Знайти сторінки з певним словом (або словами) в заголовку сторінки.

intext:

Знайти сторінки, що містять певне слово (або слова) десь в змісті.

AROUND (X)

Пошук поблизу. Сторінки, що містять два слова або фрази на відстані X слів один від одного. У цьому прикладі слова [apple] і [iphone] повинні бути присутніми в тексті на відстані не більше чотирьох слів один від одного.

weather:

Знайти погоду для конкретного місця. Відображається в погодний сніпеті, але також повертає результати з інших метеорологічних сайтів.

map:

Результати пошуку по картах.

movie:

Знайти інформацію про конкретний фільмі. Також знаходить розклад сеансів, якщо фільм зараз показують недалеко від вас.

in

Перетворює одну одиниці виміру в іншу. Працює з валютами, вагами, температурою, відстанями тощо.

source:

Знайти новинні результати з певного джерела в Google News.

Сервіси пошуку

Калькулятор

Калькулятор чайових

Конвертер валют

Перетворення величин

Погодний інформер

Кіноафіша

Пошук білетів

Вибір кольору

Дізнатися час в іншій країні

Браузерна гра

Порядок роботи

  1. Ознайомитися з теоретичними відомостями стосовно структурного складу пошукових систем, роботів та алгоритмів.
  2. Здійснити пошук за однаковими ключовими словами в різних пошукових системах, відмітити різницю у наданих результатах. Зазначити основні критерії пошукової системи, такі як Точність та Актуальність виданих результатів. Дослідити чи вплинула на результати історія персонального пошуку.
  3. Здійснити пошук, застосовуючи інструменти, фільтри та оператори пошуку. Порівняти якість сторінки видачі до і після. Сформувати запит, застосувавши кілька елементів уточнення. Використати наведені сервіси пошуку: калькулятор, конвертери, інформери, пошук білетів чи фільмів.
  4. Проаналізувати отримані результати і зробити висновки.
  5. Під час захисту лабораторної роботи вільно володіти теоретичним матеріалом: особливості функціонування пошукових систем, усталені терміни, підходи до уточнення запитів.

Зміст звіту

  1. Назва та мета виконання лабораторної роботи.
  2. Скріни деяких результатів пошуку, особливо тих підходів, про які студент не знав або не використовував раніше.
  3. У висновку оцінити особливості пошукових систем, можливості щодо покращення пошуку, зручність використання фільтрів, інструментів, операторів та сервісів та інші підходи до покращення якості результатів.