Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 13

]]МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ

ДЕПАРТАМЕНТ ОСВІТИ І НАУКИ, МОЛОДІ ТА СПОРТУ


ВИКОНАВЧОГО ОРГАНУ КИЇВСЬКОЇ МІСЬКОЇ РАДИ
(КИЇВСЬКОЇ МІСЬКОЇ ДЕРЖАВНОЇ АДМІНІСТРАЦІЇ)
КИЇВСЬКЕ ТЕРИТОРІАЛЬНЕ ВІДДІЛЕННЯ МАЛОЇ АКАДЕМІЇ НАУК УКРАЇНИ
(КИЇВСЬКА МАЛА АКАДЕМІЯ НАУК )

відділення
секція

Структура пошукових систем, показники та


аналіз пошуку

РОБОТУ ВИКОНАВ:
Чернишов Вадим Юрійович
01.02.2005
учень _10_ класу
Політехнічного ліцею НТУУ «КПІ» м. Києва
Солом’янський р-н
вулиця Електриків, 23в, Київ, 04176,
+380987772005 vcvip2@icloud.com
Коваленко Олена Станіславівна

1
ЗМІСТ
1. Вступ………………………....……………………………… 3
2. Огляд наукової літератури………………………………… 4
3. Пошукові системи………………………………………….. 5
3.1 Структура…………………………………………………5
3.2 Приклади………………………………………………….9
3.3 Показники………………………………………………...10
3.4 Аналіз пошуку……………………………………………11
4. Висновок……………………………………………………..12

2
Вступ
Що таке пошукові системи?
Пошуко́ва систе́ма (скор. пошуковик) — це складна онлайн-система, яка надає
користувачеві здатність шукати певну необхідну інформацію у мережі Інтернет.
Проситими словами це вебсайт, на якому розміщено інтерфейс, а за лаштунками
інтерфейсу знаходиться програмне забезпечення(скор. пошуковий рушій), яке
забезпечує пошук інформації, працездатність всієї системи та є комерційною
таємницею компанії-розробника пошукової системи.
Велика кількість пошукових систем здійснює пошук інформації на вебсайтах у
мережі Інтернет. Але є пошукові системи, які мають змогу шукати файли на ftp-
серверах, а також інформацію в групах новин Usenet
Індексація в пошукових системах сайтів здійснюється пошуковим роботом.
За даними аналітичної компанії Comscore всі пошукові сайти в грудні 2007 року
опрацювали 66 млрд 221 млн пошукових запитів.
Але пошукові системи існують не тільки в мережі Інтернет, а і у базах даних певний
організацій, компаній тощо.
Дослідження інформації щодо теми цієї роботи будуть виконані через пошуковий
сайт google.com

3
Пошукові системи. Структура
Фактично всі великі пошукові системи мають свою власну структуру, відмінну
від інших. одначе дозволено виділити загальні для всіх пошукових машин
основні компоненти. Відмінності в структурі можуть існувати тільки у вигляді
реалізації механізмів взаємодії цих компонентів. Розглянемо типову структуру
пошукової системи для WWW, запропоновану Budi Yuwono, Dik L. Lee у статті
“Search and Ranking Algorims for Locating Resources on the World Wide Web”
Розглянемо кожну складову окремо.
1. Модуль індексування. Він служить для постійного сканування мережі
об'єднання локальних і регіональних комп'ютерних мереж для обміну
інформацією та підтримування бази даних індексу в актуальному стані. Цей
модуль є основним джерелом інформації про стан інформаційних ресурсів
мережі. Він складається з трьох допоміжних програм (роботів): x Spider (павук)
- платформа яка призначена для скачування вебсторінок. «Павук» забезпечує
скачування періоду і витягує всі внутрішні посилання з цієї сторінки, іншими
словами викачується html-код кожної сторінки. Для скачування сторінок
роботи використовують протоколи HTTP. Павук працює за такою схемою: він
передає на сервер вимога “get/path/document” та деякі інакші команди HTTP-
запиту. У відповідь механізм отримує текстовий ручай що містить службову
інформацію і прямо сам документ. Посилання витягуються з тегів , , , , тощо.
спільно з посиланнями, багацько роботів обробляють редіректи
(перенаправлення). Кожна скачана сторінка зберігається в наступному форматі:
xURL-адреса сторінки; xдата, тоді як сторінка була завантажена; xhttp - титул
відповіді сервера; xтіло сторінки ( html -код ). таким чином павук робить
запит вмісту сторінок у цей же спосіб як це робить простий інтернет браузер,
відправляючи на сервер HTTP запит і отримуючи від нього відповідь. пізніше
того, як вміст сторінки завантажено, він надсилається до кроулера та
індексатора. x Crawler (“мандрівний” павук) – програма, яка автоматично
проходить за всіма посиланнями, що знайдені на сторінці. Краулер аналізує
шляхи, що ведуть з поточної сторінки на інші розділи сайту, або на сторінки
зовнішніх інтернет-ресурсів, і визначає подальший систему обходу павуком
ниток всесвітньої павутини. конкретно кроулер знаходить нові для пошукової
системи сторінки і передає їх павуку. Його задача – визначити, куди потім
мусить йти павук, ґрунтуючись на посиланнях або виходячи із завчасно
заданого списку адрес. x Indexer (робот-індексатор) – програма, яка аналізує
веб-сторінки, які завантажені павуками. Індексатор розбирає сторінку на
складові частини і аналізує їх, застосовуючи власні лексичні та морфологічні
алгоритми. Індексатор здійснює первісний вивчення вмісту завантаженої
сторінки, виділяє основні частини (назва сторінки, описуванного посилання,
заголовки тощо) і розкладає їх у відповідні розділи пошукової бази даних
4
поміщає в список пошукової системи. Цей процес називають індексуванням
інтернет-ресурсів, внаслідок цього і найменуванні самої підсистеми. На основі
результатів первинного
аналізу, індексатор у свою чергу може признавати  розв'язання що сторінка у
загальному “недостойна” перебувати в індексі.  підстави такої розв'язка можуть
бувати різними, для прикладу сторінка не має назви, вона є точною копією
іншої, що вже наявна в індексі, або містить посилання на заборонені
законодавством ресурси.
2. Індекс пошукової системи (index database) – це база даних, яка зберігається
на пошуковому сервері і яка містить посилання на проіндексовані джерела і
стислі копії веб-сторінок. В індексі пошукова устрій зберігає власний
“словниковий запас” , тобто  комплект слів і словосполучень, які зустрічаються
на інтернет-сторінках. Він реалізований у формі інвертованого файлу, в якому
кожне висловлювання чи словосполучення поєднане з адресами тих веб-
сторінок, нате яких вони зустрічаються. Стисла факсиміле веб-сторінки
зберігається у формі переліку слів, які наявні у тексті сторінки, для кожного з
яких перераховані позиції, в яких воно зустрічається на цій сторінці. При цьому
відкидаються стоп-слова, а інші вирази можуть приводитися до вихідної
форми. показник використовується системою для пошуку сторінок з
входженням ключових слів, які задані запитом користувача. перелік щораз
поповнюється новою інформацією, яку збирає павук пошукової системи. Для
того, щоб сайт з'являвся в списку видачі пошукової системи за певними
запитами, він, або хоча б певна частка його сторінок, повинні існувати внесені в
індекс відповідної пошукової системи. Павук пошукової системи може бути
дізнатися про новий сайт одним із двох способів крізь звертання власника сайту
чи то  почерез присутність посилань з проіндексованих сайтів на цей сайт.
3. Підсистема опрацювання та видавання результатів (Search Engine and
Results Engine). Це найважливіша компонент будь-якої пошукової машини.
Алгоритми роботи цієї підсистеми компанії-розробники зберігають у суворій
секретності, тому що вони є комерційною таємницею. конкретно ця одиниця
пошукової машини відповідає за адекватність відповіді пошукової системи на
вимогу користувача. Вона призначається з метою трансляції запиту
користувача відповідно до довідково-пошуковому стилю в незначну вимогу
концепції, пошуку гіперпосилань на інформаційні засоби Інтернету і видачу
результатів цього пошуку користувачеві. У ній можна відзначити два основних
елементи: x Система рангування. Рангировка – це розподіл сторінок мережа
інтернет-сайтів відповідно до їх релевантністю конкретному попиту.
Доречність сторінки – це співвідношення знаходження сторінки змісту запиту і
цю значення шукальна машина встановлює самостійно відштовхуючись від
багатьох параметрів. На рангування сторінки крім її текстури також міститься
(контенту) також впливають: кількість і якість гіперпосилань, головних на цю
5
сторінку з інших сайтів; роки домену найбільш веб-сайту; Тип впливу
користувачів, що розглядають сторінку і численні інші умови. x Система видачі
результатів. О 5Мета цієї підсистеми входить тлумачення користувальницького
запиту, його перехід на мову високоструктурованих запитів у показник і
розвиток сторінок результатів пошуку. Крім слова найбільш запиту, шукач
здатний також брати до уваги: x Зв'язок запиту, створюваний відштовхуючись
від перебування раніше реалізованих користувачем запитів. Наприклад, якщо
абонент часто буває сайти спорт новинок, то відповідно до попиту з одним
словом "Дніпро" або "Карпати" хтось, ймовірно, намагається отримати
інформацію про ці футбольні клуби, але не про схожу річку або високу
концепції. Це називається персоналізованим пошуком, тому результати в
єдиний і той же вимога з метою різних користувачів можуть істотно
відрізнятися. Користувальницькі уподобання, про які шукач здатний
"здогадуватися", проаналізувавши посилання, які абонент вибирає на сторінках
результатів пошуку. Це ще один спосіб підкоригувати зв'язок запиту: абонент
своїми вчинками як би підказує автомобілю, що безпосередньо хтось хоче
знайти. Так само як принцип, до результатів пошуку пошукові системи
намагаються доповнювати сторінки, які релевантні попиту, але належать до
різних сфер життя. Припустимо, що абонент захоплюється музикою і тому
часто підбирає посилання на сторінки про музичні групи і їх творчість, навіть
якщо ці сторінки не зовсім релевантні початковому попиту. При створенні
рішення на наступну вимогу цього користувача концепція здатний надавати
перевагу сторінкам, пов'язаним з музикою, в назві яких трапляються фрази від
слова запиту. x Район, особливо значний наявність обробки торгових запитів,
пов'язаних з отриманням товарів і послуг у місцевих постачальників. У випадку
Якщо абонент живе у Львові також хоче отримати телебачення, то, ймовірно,
це суб'єкт не займають вартості в телевізійному режимі, наприклад, в Москву,
якщо це явно не зазначено в тексті запиту. Безсумнівно, що в підсумках
повинні в першу чергу з'явитися ціни на телебачення у Львові. З цієї причини
інноваційні пошукові системи ділять вимоги на геонезалежні і геонезалежні. З
цієї причини, якщо шукальна концепція прийматиме рішення, що вимога
користувача геозалежний, то кохана автоматично доповнює до села критерій
району, що встановлює згідно з даними з мережі інтернет-провайдера даного
користувача. x Період. Шукальні автомобілі часто розглядають, якщо
відбувалися події, зображені на сторінці. Так як відомості регулярно стає
неактуальним, але абонент вимагатиме в першу чергу найсвіжіші новини,
важливі моніторинги, новини і відомості про факти, що відбуваються в даний
час. З цієї причини шукачої концепції слід зрозуміти, що важливість сторінки
залежить від періоду і порівняти її з фактором виконання запиту.
4. Інтерфейс користувача (user interface) – Інтерфейс користувача (user
interface) – це манір взаємозв'язку користувача з пошуковим апаратом системи,
6
іншими словами з системою творення запитів і переглядів результатів пошуку.
Це HTML-форма, яка відкривається за допомогою програми-клієнта, такої як
Internet Explorer, Mozilla Firefox, Opera тощо, в яку користувач вводить
зацікавлення і натискає відповідну кнопку для здійснення пошуку.
5. Збережені вимоги (saved queries) – це вимоги які надходять до пошукової
системи від користувачів. Вони зберігаються в базі даних і дають змога
пошуковій системі пророкувати можливі варіанти запиту і рекомендувати
“підказку” користувачам на основі попередніх збережених запитів.
6. Програма-клієнт (програма перегляду) (client) – це спосіб перегляду
інформаційних ресурсів у WWW. За допомогою програми-клієнта здійснюється
підхід зосібна до інтерфейсу користувача пошукової системи
7. Веб-сайти (WWW sites) – це ті інформаційні запаси WWW, ознайомлення
яких забезпечується програмами-клієнтами. Розглянемо ідеологіію взаємодії
елементів а

7
7

Приклади пошукових систем


 Англомовні і міжнародні
o A9.com (належить компанії Amazon і працює на
механізмі GoogleAmazon)
o Search engine site ABC Engine
o ALLhave
o Alltheweb FAST-Engine
o Ask.com (механізм Teoma)
o Google
o LightStorage
o Yahoo!
o AltaVista

 Естонські
o Шаблон:Urk
o Neti

 Німецькі
o Wseeker
o Abacho
o Ez2find

 Українські
o META
o ukr.net
o i.ua
o online.ua
o search.com.ua

 Французькі
o Francité
o Locace
o Nomade
o Voilà

8
8

Показники
Сеанси з пошуком = кількість сеансів, під час яких хоч би один раз
використовувалася діяльність пошуку на сайті.
процент сеансів із внутрішнім пошуком = "Сеанси з пошуком" / "Загальна
чисельність сеансів".
Загальна чисельність унікальних пошуків = загальна чисельність пошуків на сайті
без урахування багаторазових пошуків за ключовим словом під час одного сеансу.
Перегляди сторінок результатів / пошук = "Перегляди сторінок результатів
пошуку" / "Загальна чисельність унікальних пошуків".
Виходи на етапі пошуку = чисельність пошуків, виконаних одразу перед виходом із
сайту.
процент виходів на стадії пошуку = "Виходи на етапі пошуку" / "Загальна
чисельність унікальних пошуків"
Уточнення пошуку = чисельність повторних пошуків, виконаних негайно після
початкового пошуку.
процент уточнень пошуку = процент пошуків, після яких аудиторія уточнювали
пошук. Обчислюється за формулою "Уточнення пошуків" / "Кількість переглядів
сторінок результатів пошуку".
Час після пошуку = наскільки багато часу в середньому користувачі залишалися на
вашому сайті після виконання пошуку. Обчислюється як сума загальної тривалості
пошуку всіх пошуків / (переходи під час пошуку + 1).
Інтенсивність пошуку = середня чисельність сторінок, переглянутих після пошуку.
Обчислюється як загальна інтенсивність пошуку для всіх пошукових запитів /
(переходи під час пошуку + 1).

9
9

АНАЛІЗ
В даний час існує 3 основних міжнародних пошукових системи - Google, Yahoo
і MSN, що мають власні бази даних і пошукові технології. Більшість інших
пошукових систем використовує в тому чи іншому вигляді технології трьох
перерахованих. Наприклад, пошук AOL (search.aol.com) використовує базу
Google, а AltaVista, AllTheWeb і Lycos-базу Yahoo. Портал Mail.ru довгий час
використовував пошукову технологію Google, а з 2006 року - Yandex. У Росії
основний пошуковою системою є Yandex, за ним йдуть Mail.ru, що
використовує технологію Yandex, замикає трійку лідерів - Rambler. Однак
найбільша кількість пошукових запитів обробляє Google, яка розпочала свою
роботу в 2004 році. Кожен користувач Інтернету орієнтується на ту пошукову
систему, до якої він звик або яку йому порадили його колеги. Нижче наведені
короткі характеристики основних пошукових систем. Порівняння
характеристик пошукових систем залежить від запитів користувачів.
Наприклад, аналіз пошукових систем для автоматизації документообігу
наведено у статті викладачів та студентів Вінницького технічного університету.

10
Використана література:
1. http://www.compiko.lviv.ua/wp-content/uploads/tip/tip10.pdf
2. https://www.wiki.uk-ua.nina.az/Пошукова_система.html
3. https://uk.wikipedia.org/wiki/Пошукова_система
4. https://dbpedia.org/page/Search_engine
5. http://social2014info.blogspot.com/p/blog-page_6935.html
6. https://marketer.ua/ua/search-engine-stat-2018/
7. http://lib.onu.edu.ua/ukrayinska-ukrayinski-poshukovi-sistemi/
8. https://esu.com.ua/search_articles.php?id=12483

11
10

Висновок
Можна підсумувати, що на сьогоднішній день, пошукові системи це є дуже
складні механізми, які розвинуті до рівня відповідаючого вимогам користувача
і є майже невід’ємною частною повсякденного життя, адже застовоються у
багатьох сучасних сферах і всіма людьми на планеті, адже здатні об’єднувати у
собі будь-які джерела інформації і знайти будь-яку запутивану інформацію, або
відповідь на питтаня, тим самим полегшуючи життя, спростовуючи походи до
бібліотек до звичайного запиту у пошукачу.

12
11

13

You might also like