Поисковые системы глобальной паутины. Введение
Стремительное развитие информационных технологий и технологий
глобальной сети в частности выдвинули ряд требований, которые основные
протоколы интернета полностью удовлетворить не в состоянии. Протокол
HTTP вполне успешно справляется с навигацией, основной задачей которой
является просмотр страниц, но для поиска информации в глобальной сети он
не пригоден. Протокол FTP, который даже более примитивен, чем HTTP,
также не пригоден для поиска информации. Расширение глобальной сети
происходит как за счет пользователей, число которых увеличивается по
экспоненциальному закону, так и за счет документов хранящихся во
всемирной паутине, не говоря уже о возрастающем количестве серверов,
число которых уже исчисляется миллионами. В настоящее время можно
уверенно утверждать, что найти необходимый документ среди миллиардов
других документов достаточно сложно, тем более что число их с каждым
днем увеличивается. Проблема даже не в увеличении объема информации, а в
ее высокой скорости. Таким образом, суть основной проблемы возникшей в
результате бума информационных технологий сводится к тому, что на
сегодняшний день единой, многофункциональной системы обновления,
занесения и поиска информации с одновременным доступом к ней всех
пользователей глобальной паутины пока не существует. Для классификации и
структурирования информации глобальной сети, и быстрого ее поиска с
максимальным удобством для пользователей интернета и были созданы
поисковые системы.
Основные принципы работы поисковых систем
Структурно поисковые системы состоят из трех элементов:
• Поискового робота, который путешествует по глобальной сети и собирает
нужную информацию
• Базы данных, в которой хранится собранная роботом информация
• Интерфейса, с помощью которого пользователи сети взаимодействуют с
базой данных
Методика работы поисковых систем
Поисковый механизм, включающий в себя средства поиска и упорядочения
найденной информации, используется пользователями для доступа к нужному
файлу или документу. Отметим, что поисковые механизмы отличаются друг от
друга своими алгоритмами поиска информации. Например, некоторые из них
исследуют ссылки на страницах и затем по ним переходят на другие
страницы и так далее; другие игнорируют ссылки, ведущие на анимацию,
графику, звуковые файлы и ссылки, указывающие на базу данных типа WAIS.
Средства поиска – агенты, кроулеры, пауки и роботы представляют собой
специальные программы предназначением, которых является поиск страниц в
глобальной сети. Информация на этих страницах индексируются, ссылки
запоминаются, и собранная информация заносится в базу данных. Некоторые
пауки запрограммированы на просмотр наиболее популярных страниц.
Средства поиска отличаются друг от друга своей функциональностью и
«интеллектом». Рассмотрим возможности каждого из них подробнее:
• Наиболее «интеллектуальны» из поисковых средств являются агенты,
которые способны не только искать информацию, но и проводить транзакции,
искать сайты со специфической тематикой, и сортировать ресурсы по их
посещаемости. Агенты в состоянии анализировать содержание файлов,
проводить индексацию не только страниц, но других типов ресурсов; они
даже способны извлекать информацию из уже существующих баз данных. Всю
собранную информацию, независимо от ее природы, агенты передают базе
данных поискового механизма.
• Средство поиска известное как паук проводит общий поиск информации. В
функцию паука входит просмотр заголовков и ссылок документа, сообщение о
его содержании, его индексация и передача итоговой информации поисковому
механизму.
• В функцию кроулеров входит просмотр заголовков и первой ссылки
• Роботы в основном предназначены для прохождения ссылок с различной
степенью вложенности, выполнять индексацию и проверять ссылки страниц.
Согласно своей природе роботы имеют свойство застревать в циклах, и
поэтому для своей работы им необходимы значительные ресурсы глобальной
сети. Существуют специальные средства запрещающие роботам проводить
индексацию сайтов, владельцы которых этого не желают.
Методы работы агентов также отличны. Например, некоторые агенты проводят
индексацию каждого слова в документе, другие индексируют только 100
наиболее важных слов, объем документа, заголовки и подзаголовки, а также
количество слов ресурса. Тип созданного индекса определяет как
интерпретацию собранной информации, так и природу поиска проводимого в
дальнейшем поисковым механизмом.
Менеджеры поисковых систем могут выбирать, какие сайты или типы ресурсов
должен посетить и проиндексировать агент. Агенты, перемещаясь по
глобальной сети, находят нужную информацию и передают ее базе данных.
Пользователям предоставляется возможность вводить информацию прямо в
индекс, заполняя форму выбранного раздела,. Эти данные будут переданы в
базу данных.
Любой пользователь интернета в поисках необходимой ему информации
посещает какой-нибудь поисковик и в поле поиска вводит свой запрос. В
целевом запросе пользователя должны присутствовать те параметры,
согласно которым агенты индексируют информацию собранную ими в
глобальной сети как то: ключевые слова, даты, имена искомых документов и
прочее.
Поисковый механизм проводит поиск в своей базе данных на основе
введенного запроса и выдает найденные файлы для ознакомления ими
пользователем. Основным алгоритмом поискового механизма для определения
порядка представления, найденных документов является алгоритм
ранжирование. Принципом алгоритма ранжирования является выдача в первых
позициях поискового результата наиболее релевантных пользовательскому
запросу документов. Алгоритм различных поисковых систем различен, но
базовые принципы ранжирования практически одинаковы и сводятся к
следующему:
• Проводится учет количества слов запроса в текстовом содержимом
ресурса, то есть в HTML верстке
• Принимается во внимание теги, в которых эти слова находятся
• Определяется места, где эти слова в тексте располагаются
• Определяется значение отношения ключевых слов к общему количеству слов
текстового содержания
Приведенные выше принципы ранжирования используют все поисковые
механизмы, но существуют поисковые системы (AltaVista, HotBot), которые
дополнительно к этим параметрам используют еще и другие, а именно:
• Определяется время нахождения ресурса в поисковой базе. Может это, и
показаться в каком-то смысле странным критерием, но в этом есть
определенный резон. Для того чтобы понять причины, по которым этот
параметр принимается во внимание, необходимо учесть что существует много
сайтов, время жизни которых в глобальной сети не больше 30-40 дней.
Большое время жизни ресурса является показателем, что владелец сайта
является человеком сведущим в данном вопросе, и ему есть, что сказать
пользователю. Вывод прост, чем больше существует сайт, тем больше к нему
доверие
• Вторым параметром, которым руководствуются поисковые системы, является
индекс цитируемости, то есть принимается во внимание, как много
web-ресурсов зарегистрированных в базе поисковой системы ссылается на
данную страницу. Обработанный таким образом запрос возвращается к
пользователю в виде поисковой выдачи, причем некоторые поисковики выдают
только ссылки на ресурсы, а другие кроме этого выводят первые 2-3
предложения документа или заголовок текста со ссылкой.
В том случае, когда пользователь заинтересовался документом, он щелкает
по ссылке и поисковый механизм запрашивает сайт у сервера, на котором он
хранится.
Обзор поисковых систем
Поисковая система Lycos
В данном поисковике механизм индексации включает в себя следующее:
• Наивысшим приоритетом пользуется содержимое тега title
• Учитываются слова в начале страницы
• Учитывается текст в ссылке
• Принимается во внимание ссылки на индексируемый сайт со сторонних
ресурсов находящихся в базе поисковика и в случае наличия таких ссылок
релевантность ресурса возрастает
Поисковая система предлагает пользователю ввести свой запрос, используя
естественный язык, и после введения запроса проводит свой метод поиска.
Введенное выражение анализируется, и из него удаляются так называемые
стоп-слова. После проведения нормализации запроса начинается поиск.
Практически мгновенно выдается информация о числе документов на каждое
слово запроса и через небольшой промежуток времени ссылки на релевантные
документы, причем в списке против каждого документа указывается степень
близости к запросу, число слов из запроса, а также приблизительная мера
близости, которая колеблется в большую или меньшую сторону от
вычисленной величины. В настоящее время отсутствует возможность введения
логических символов в поле ввода, но логику использовать можно. Система
позволяет ввод так называемого расширенного запроса, которым пользуются
опытные пользователи. Этот факт свидетельствует, что Lycos относится к
типу поисковой системы с возможностью запроса «Like this» (подобно
данному), однако в недалеком будущем ожидается расширение возможностей
системы на более изощренные способы поисковых запросов пользователей.
Поисковая система AltaVista
Отличительной особенностью этой поисковой системы является способ ее
индексации, которую проводит робот, который в своей работе ориентируется
на следующие приоритеты:
• Ключевые слова и выражения в тегах title и мета-тегах имеют для работа
максимальное важное значение
• Ключевые слова и выражения в начале страницы
• Содержание ключевых слова и выражений в ALT – ссылках
• Число вхождений ключевых слова и выражений
• В случае отсутствия тегов робот учитывает первые 30 слов, которые
индексирует и показывает вместо описания (тег description)
Главной особенностью системы является возможность расширенного поиска, в
котором возможно использовать логические операторы. Однако в отличие от
многих других поисковых систем AltaVista поддерживает простой оператор
NOT. Системой допускается возможность контекстного поиска (оператор NEAR),
в котором термины располагаются рядом друг с другом. Поисковая система,
имея в своей базе большой фразеологический словарь, также производит
поиск по ключевым словам и выражениям. Интересной возможностью системы
является ее способность производить поиск по имени поля, в котором
встречается ключевое слово как то: ссылка, заголовок, название образа и
многое другое. Минусом системы является отсутствие подробного описания
ранжирования системой информации, как при обычном поиске, так и при
расширенном поиске, однако систему можно уверенно считать системой с
расширенным булевым поиском.
Поисковая система Yahoo
Поисковая система Yahoo является одним из пионеров поиска информации в
глобальной сети и сотрудничает со многими производителями технологий
поиска информации. Техника ввода запроса достаточно проста: пользователь
вводит свой запрос в поле, причем все слова должны быть разделены
пробелом и могут быть соединены союзами AND или OR. Выдача поисковой
системы состоит из подчеркнутых слов запроса, причем степень близости
соответствия файла к запросу не указывается. Поисковый механизм
нормализации выражения запроса не производит, и ранжирование выполняется
по количеству терминов запроса. Неплохие результаты поиска система
обеспечивает, в случае нахождения в ее базе искомой информации. Таким
образом, данную поисковую систему можно отнести к традиционным системам
с ограниченными возможностями поиска.
Поисковая система OpenText
Поисковая система OpenText представляет собой информационный
коммерческий продукт, поскольку описание ее работы больше похоже на
рекламное объявление, чем на практическое руководство к действию.
Расширенный поиск системы позволяет пользователю использовать логические
коннекторы, соединяющие не более 3 терминов или выражений. Существует
возможность использования булевых операторов. Поисковая выдача системы
содержит информацию степени близости файла к введенному запросу и объем
документа. Благодаря более продвинутому механизму ранжирования систему
полностью отнести к традиционным поисковым системам нельзя.
Поисковая система Infoseek
Индексацию материала в этой системы производит робот, который в своей
работе учитывает следующее:
• Содержание тега title придается роботом максимально большое значение
• Содержание тегов keywords, description
• Частоту вхождений ключевого слова в тексте
• В случае повторения подряд одних и тех же слов материал не
индексируется
• Размер символов в теге keywords не должен превышать 1024 штук, а для
тэга description допускается не более 200 символов
• В случае отсутствия текстового содержания в тегах, робот индексирует
первые 200 слов страницы и их использует как описание
Система Infoseek достаточно функциональна с хорошо развитым
информационно-поисковым алгоритмом, что дает возможность пользователю не
просто указывать термины, но и взвешивать их. Для обозначения
обязательного присутствия термина в файле используется символ «+», а
символ «-» указывает на то, что термин должен отсутствовать в документе.
Системой также проводится и контекстный поиск, который осуществляет
поиск определенной последовательности слов. Существует возможность
потребовать поиск последовательности слов не только во всем тексте, но в
одном абзаце или даже в заголовке. Пользователь в состоянии указать
ключевое выражение как одно целое с заданным порядком слов. Система
проводит ранжирование по количеству терминов запроса в документ и по
количеству выражений запроса без учета общих слов. Исходя из описания
возможностей системы, ее можно причислить к традиционным системам с
возможностью оценки терминов при поиске.
Поисковая система WAIS
Поисковая система WAIS представляет собой одну из наиболее
функциональных поисковых систем глобальной сети, в возможности которой
не входит только лишь вероятностный поиск и поиск по нечетким
множествам. Пользователь может вводить вложенные булевы операторы в
своем запросе, вычислять степень релевантной близости, оценивать термины
запроса и текста, проводить коррекцию запроса в соответствии с
релевантностью. Другими преимуществами системы являются применение в
поиске усечения терминов, использования распределенных индексов и
деление документа на поля
Поисковые роботы
В настоящее время популярность интернета настолько выросла, что, по
сути, он является одним из самых востребованных пользователями
источников информации. Давно прошли те времена, когда глобальная сеть
состояла всего из нескольких серверов и относительно небольшого
количества ресурсов. Очевидно, что при таком огромном количестве
публикаций и ресурсов, которыми на сегодняшний день располагает
глобальная сеть, осуществлять навигацию в ручном режиме не
представляется возможным.
С возникновением этой проблемы стал актуален вопрос серфинга по
глобальной паутины в автоматическом режиме. Для осуществления навигации
в автоматическом режиме была разработана специальная программа названная
web-роботом. Программа осуществляет переходы по ссылкам глобальной сети,
запрашивает необходимые документы и демонстрирует запрашиваемый ресурс.
Программы получили название или странники или пауки, а иногда их
называют червями, но эти имена не совсем соответствуют истине, так как
предполагают самостоятельное путешествие программы по глобальной
паутине, что не соответствует действительности. В действительности
программы запрашивают необходимый документ с различных сегментов
глобальной сети с помощью обычных сетевых протоколов.
Применение поисковых роботов
Роботы нашли свое применение в решении множества задач как то:
проведение статистического анализа, обслуживание текстов содержащих
гиперссылки, и зазеркаливание каталогов типа FTP. Познакомимся с каждой
из этих функций робота подробнее.
Статистический Анализ
Статистический анализ подразумевает подсчет числа web-серверов в сети,
подсчет среднего количества ресурсов приходящихся на один сервер,
средние объемы страниц, степень связанности ссылок, некоторые пропорции
определенного типа документов и прочее.
Обслуживание гипертекстового материала
Существуют некоторые трудности по обслуживанию гипертекстового
материала, и одной из них является так называемая проблема «мертвых
ссылок». Такая проблема возникает, когда ресурс или удален из сервера
или перемещен на другой сервер. Сотрудники сервера о существовании
мертвой ссылки могут и не подозревать, так как в настоящее время нет
соответствующего общего механизма, способного поставить их об этом в
известность. Некоторые серверы в этом случае рекомендуют пользователю
решить эту проблему в ручном режиме, что достаточно неудобно. Наряду с
этим создатели ресурса узнают о наличии мертвой ссылки в тех случаях,
когда их об этом извещают.
Решение проблемы предлагает робот «MOMSPIDER» предназначенный для
проверки работоспособности ссылок. Кроме этой услуги робот может помочь
осуществить проверку соответствия HTML-кода принятым нормам и его
постоянной модернизации, а также оказывает помощь в поддержке структуры
ресурса. Заметим, что рациональнее было встроить такую поддержку при
написании документа HTML-кодом, что было бы намного целесообразнее, так
как все ошибки устранялись бы немедленно во время создания документа.
Зазеркаливание
Основной функцией этой операции является поддержка архивов типа FTP.
Поддержка архивов FTP осуществляется посредством рекурсивного
копирования полного дерева каталогов с дальнейшим запросом тех
документов, которые изменились. Такой метод позволяет решить проблему
загрузки нескольких серверов, отказов серверов, и дает возможность более
быстрого и экономного как локального, так и автономного доступа к
архивам. Операцию «зазеркаливание» может осуществить и робот, но на
момент написание данной статьи такого функционального робота еще не
существовало, хотя были разработаны роботы, которые были в состоянии
скопировать какую-то часть дерева, но в их функции не входит запрос на
те страницы, которые были изменены.
Следующая трудность, которую должны решить при зазеркаливание роботы
заключается в уникальности. Суть проблемы заключается в том, что ссылки
в дублированных страницах должны находиться там, где они ссылаются на
документы, которые сами в свою очередь были скопированы и также должны
быть обновлены, а ссылки на не скопированные страницы должны быть
переоформлены в абсолютные ссылки. Использование дублирования архивов
FTP ограничивается по соображениям производительности в случае
применения серверов предлагающих выборочную модернизацию, которые
гарантируют, что кэшированный документ не изменялся и в состоянии с
высокой степенью самообслуживаться. В недалеком будущем ожидается, что
метод зазеркаливание получит свое дальнейшее рациональное решение.
Исследование ресурсов
Наиболее перспективное применение роботов является их использование при
исследовании ресурсов. Очень заманчиво выглядит сама возможность
переложить на роботов обработку огромного объема информации. Очевидно,
что человек не в состоянии справиться большим объемом информации и
существование некоторых роботов, назначение которых является сбор
информации в глобальной сети с дальнейшей ее передачей в базу данных,
значительно облегчают задачу пользователя. Пользователь с помощью таких
роботов в состоянии объединить поиск и просмотр страниц, причем в случае
отсутствия нужной ему информации в базе данных, в найденных страницах
будут содержаться в достаточном количестве ссылки на ресурсы, которые с
большой долей вероятности приведут его к предмету поиска.
Следующим плюсом применения роботов является периодическое обновление
базы данных с удалением мертвых ссылок, что практически невозможно при
обработке документов в ручном режиме, так как в таком режиме проверка
проводится нерегулярно и не может быть полной по определению.
Комбинированное использование
Обычный робот в состоянии выполнить больше, чем одну задачу, например
робот RBSE Spider в состоянии выполнить статистический анализ и ведение
базы данных, но использование комбинированных возможностей роботов
является достаточно редким явлением.
Возможные проблемы при использовании поисковых роботов
Работа поисковых роботов связана с большими затратами ресурсов интернета
и их деятельность может представлять определенную опасность, причиной
которой может быть их высокие требования предъявляемой к глобальной
сети.
Сетевой ресурс и загрузка сервера
Роботы запрограммированы на непрерывную работу в течение длительного
промежутка времени исчисляемого, как правило, несколькими месяцами. Для
ускорения работы роботы посылают параллельные запросы серверу,
запрашивая информацию. Нагрузка на ресурс становится значительной в
случае, когда за короткий промежуток времени роботом произведено
достаточно большое количество запросов, и эту нагрузку в состоянии
почувствовать даже удаленные части глобальной сети. Такая нагрузка
создает нехватку пропускной способности сервера для других
пользователей, что особо ощутимо для серверов с низкой пропускной
способностью. Данная проблема возникает вследствие отсутствия у
глобальной сети необходимого механизма регулирующего нагрузку при
использовании сетевых протоколов. Таким образом, робот с его повышенными
требованиями к пропускной способности канала создает достаточно
серьезные проблемы трафику сети.
Интернет создавался по принципу «свободного» доступа, под которым
подразумевалось, что отдельные пользователи сети могут пользоваться его
услугами бесплатно, но сейчас такое положение дел вызывает возражение
крупных корпоративных пользователей сети, которые оплачивают все
издержки глобальной паутины. Корпорации считают, что их услуги оказанные
клиентам окупают затраты, а вот расходы на страницы которые передаются
роботам себя не окупают.
Кроме требований к сети, робот также использует ресурсы сервера.
Достаточно указать на тот факт, что частота запросов, которые робот
посылает на сервер, влияет на работу ресурса, значительно уменьшая
скорость обслуживания пользователей, обращающихся к серверу, а если
учесть что основной компьютер сервера занят обработкой еще и другой
информацией, то ситуация становится вообще удручающей. Как правило, в
такой ситуации использовать компьютер в течение нескольких минут
становится просто невозможно, причем эффект вполне ощутим и при
последовательном режиме запроса страниц.
Вывод достаточно прост: необходимо отказаться от параллельных запросов.
Данная проблема весьма актуальна, поскольку даже современные браузеры
совершают параллельные запросы. Отметим, что протокол HTTP оказался не в
состоянии решить эту проблемы, и в настоящее время разрабатываются новые
программные продукты, которые будут в состоянии решить эту задачу.
Обновление документов
Из вышесказанного следует, что база данных создаваемая посредством
роботов обновляется в автоматическом режиме, но до сих пор не
разработано ни одного программного продукта, с помощью которого можно
было проследить изменения, происходящие в глобальной сети. Не существует
даже механизма простого контроля изменения ссылок (какая ссылка удалена,
перемещена или изменена). С помощью протокола HTTP можно определить
только время модификации документа с одновременным его запросом. В
случае модификации документа передается только его содержимое, так как
ресурс уже был прокэширован. Такую возможность робот предоставляет
только в том случае, когда сохраняется отношения итоговых данных –
ссылки и показателя времени, но это ведет к усложнению базы данных и
практически не используется.
Агенты клиента
Особая проблема сети является ее нагрузка работой роботов конечных
пользователей, которые реализованы как часть web-клиента общего
использования. Основной функцией этих роботов является передача
информации поисковым системам при своем передвижении по глобальной
паутине. Считается, что такая способность роботов является
модернизированным методом исследования web-ресурсов, поскольку запросы к
удаленным серверам осуществляется в автоматическом режиме. Но это не
совсем верно по двум причинам. Во-первых, при поиске сервер загружается
еще больше, чем при простом запросе ресурса, и поэтому пользователь
может столкнуться со значительными неудобствами, особенно ощутимыми в
случае с серверами с большими издержками. Вторая причина неэффективности
работы таких роботов связана с тем, что одни и те же ключевые слова
имеют различную релевантность для различных баз данных, не говоря уже о
том, что интервал баз данных полностью скрыт от пользователя. Например,
в случае запроса «Мерседес и гараж», запрос может принять база данных,
которая хранит данные 18 века или база данных считающая, что запрос на
марку автомобиля должен начинаться со слова автомобиль, причем
пользователь как правила даже не имеет об этом понятия.
Следующей проблемой пользовательских роботов является невозможность
внести какие-либо изменения, усовершенствования или его модернизацию,
как только он будет запущен в сеть.
Однако максимальную опасность представляет собой факт использования
удаленного робота огромным числом пользователей. Некоторые пользователи
будут использовать робот, не злоупотребляя его возможностями, и
ограничатся некоторым максимальным набором ссылок в определенной области
сети, другие могут злоупотребить возможностями робота или по незнанию
или свойству их характера. Многие эксперты считают, что передавать
удаленного робота конечным пользователям нельзя, и отметим, что
некоторые разработчики роботов не распространяют их свободно.
Учитывая этот факт, в настоящее время проводятся исследования для
создания «интеллектуальных» или «цифровых» агентов, основным назначением
которых является обслуживание пользователей запрашивающих информацию в
глобальной сети. Такой подход решения проблемы можно рассматривать как
будущее сети. Действительно, автоматизация процесса поиска ресурсов
более чем актуальна и требует большого числа исследований для достижения
хорошей эффективности исследования ресурсов. Используемые в настоящее
время пользовательские роботы еще достаточно далеки от интеллектуальных
сетевых агентов, поскольку робот должен иметь представление в каком
месте искать запрашиваемую информацию, а не использовать в своем поиске
слепой метод. Ситуация делается вполне понятной если рассмотреть
следующий пример. Пользователь ищет какой-либо товар, например бытовую
технику; он открывает те страницы интернета, в которых находятся списки
магазинов бытовой техники той области, в которой он проживает, и, выбрав
несколько магазинов, он их посещает. Робот, получив задание, в своем
поиске товаров бытовой техники отправится во все типы магазины подряд.
Такой метод малоэффективен как в реальной жизни, так и в небольшом
масштабе глобальной сети, а в больших масштабах сети просто вреден.
Некачественная реализация роботов
Увеличение нагрузки на глобальную сеть связано также и с некачественным
исполнением роботов, особенно это касается недавно исполненных роботов.
Кроме проблем правильной обработки роботом протоколов и ссылок
существует еще и другие менее заметные проблемы.
Были проведены наблюдения работы нескольких роботов с сервером, которые
свидетельствовали, что причиной большинства негативных последствий были
плохо реализованные роботы. Наблюдались повторные запросы ресурсов даже
в том случае, когда не было никаких сведений о ранее запрашиваемых
ссылках (что уже недопустимо) или когда робот не распознал синтаксически
одинаковых ссылок с одним и тем же IP адресом, но с разными DNS.
Другие роботы запрашивают типы ресурсов, которые они обработать не в
состоянии (например, документы типа GIF и PS) и поэтому игнорируют их.
Проблемы при каталогизации информации
Несомненно, что базы данных, регулярно наполняемые роботами, чрезвычайно
востребованы и большинство пользователей пользуются их услугами, но
существуют несколько проблем негативно влияющие на работу роботов.
Например, такой проблемой является большой объем постоянно обновляющихся
ресурсов.
Неплохим средством оптимизирующий поиск информации является отзыв,
которой содержит информацию о найденных релевантных документах. Такой
способ организации поиска является неплохим решением, так как наличие
релевантных документов в глобальной сети более чем достаточно. Однако по
сравнению с множеством документов в глобальной сети количество
документов созданных роботом достаточно мало, что серьезно ограничивает
точность отзыва. Возможно, представить и такую ситуацию, когда база
данных не содержит данный ресурс, но такой документ представлен в
большом множестве в интернете, поскольку глобальная сеть непрерывно
расширяется.
Проблема включения/исключения документов роботами
Практическая работа роботов ограничена некоторыми типами документов,
которые релевантные только для определенного контекста, а также
документами временного использования. Кроме этого роботы не в состоянии
определить был ли данный ресурс включен в его индекс или нет. Необходимо
отметить, что робот запоминают всю информацию тех площадок, где они
побывали и уже тем самым понес определенные расходы на поиск и запрос
файла, который он определил как файл подлежащий исключению из его базы.
Таким образом, можно сделать вывод, что роботы, исключающие большой
процент документов являются достаточно затратными.
Для решения этой проблемы были разработаны стандарты, нормирующие
исключения ресурсов роботами. Стандарт регламентирует обработку простого
текстового файла расположенного в известном месте на сервере
(robots.txt) и определяет, какая часть ссылок должна быть
проигнорирована роботом, и, таким образом, информирует робота о так
называемых «черных дырах» (бесконечных циклов). Стандарт регламентирует
работу каждого типа робота, специализирующегося в конкретной области,
передавая им определенные для каждого типа робота команды.
Формат файла /robots.txt
Данный файл регламентирует работу поисковых роботов, которые должны
проводить индексацию в соответствии с предписаниями этого файла, то есть
индексировать те директории и файлы, которые не описаны в robots.txt.
Данный файл может не содержать записей или содержать некоторые записи,
предназначенные как для разного рода роботов (поля agent_id), так и для
всех роботов сразу с указанием, что им запрещено индексировать. Авторы
файла указывают строку Product Token поля User-Agent, которая является
ответом каждого робота на запрос индексируемого сервера. Например, робот
Lycos на такой запрос выдает в качестве ответа поля User-Agent:
Lycos_Spider_(Rex)/1.0 libwww/3.1.
В том случае, когда робот не обнаруживает своего описания в файле, он
поступает согласно программе. Важным параметром, который следует
учитывать при создании файла, является его размер. Так как описываются
как все файлы, не подлежащие индексации, так и различное множество типов
роботов, то объем файла становится слишком большим. Используются
несколько способов сокращения объема файла как то:
• Определение директорий, которые запрещено индексировать и помещение в
них файлов, не подлежащих индексации
• Создание сервера с учетом упрощенной записи исключений в файле
robots.txt
• Определение одного способа индексирования для всех agent_id
• Указание маски для директорий и файлов
Определение правил перемещения по глобальной сети
При перемещении по глобальной сети для хорошей продуктивности
результатов необходимо учитывать некоторые особенности поиска. По своей
структуре большинство серверов организовано иерархически, и перемещаясь
вширь по ссылкам на небольшую глубину вложенности более вероятно
обнаружить документы с большей релевантностью, чем при перемещении на
ресурсы с большей степенью вложенности. Такой метод более предпочтителен
для исследования ресурсов, более того, при таком методе исследования
более вероятно перейти на домашние страницы создателей ресурсов со
ссылками на другие серверы, и вероятность нахождения новых ресурсов
увеличивается.
Подведение итогов
Отметим, что проиндексировать любой документ интернета является
достаточно сложной задачей, и первые программные продукты были в
состоянии только сохранить название документа и якорь, поставленный ими
в тексте ресурса. Современные роботы в этом отношении уже в состоянии
оценить все содержание ресурса.
Современные методы, позволяющие рассмотреть содержимое страницы,
достаточно универсальны, и применимы ко всем типам документов, но, к
сожалению не настолько эффективны, чтобы соответствовать качеству
индексации страницы проводимой самим создателем ресурса. Средства HTML
верстки обеспечивают пользователя написанием общего содержания ресурса,
но они лишены средств, определяющих семантику особых значений атрибутов
тегов HTML, что сильно ограничивает его применение. Следствием этого
недостатка языка HTML является невысокая степень точности релевантности
документов в выдаче по конкретному запросу.
Использование более изощренных методов введения запросов применяемых в
системе WAIS значительно улучшает точность выданных документов, однако
стремительное расширение глобальной сети требует исследований для
нахождения более эффективных путей разрешения проблемы.
Продвижение сайтов, создание, администрирование.
Контакты:
121352, Россия, г.Москва,
Славянский бульвар, д. 5
Телефон: +7 (965) 432-69-91
E-mail: alex27791@rambler.ru
ICQ-консультант: 621381637