Главная || Поиск в Интернете || Полезные ссылки || Выбор лучших
Действие поисковых систем
Поисковая машина работает следующим образом.
Программа, именуемая сетевым агентом ( альтернативные
названия - «робот», «червяк», «паук») обходит определённые серверы и
выстраивает индексы, формируея информацию для базы
данных о том, что и на какой странице было обнаружено. Полнотекстовые поисковые
машины индексируют все слова, найденные на Web-странице, исключая иногда
некоторые «стоп-слова», то
есть слова малоинформативные и имеющие незначительную частоту употребления,
например союзы и предлоги.
Получив от пользователя запрос в виде ключевого
слова или ключевого выражения, другая
программа осуществляет поиск этого слова в созданной заранее проиндексированной
базе данных. В качестве результата поиска выдаётся HTML-страница с набором
ссылок искомых ресурсов в Интернете. В этом смысле поисковая машина
аналогична СУБД на основе индексированных реляционных баз данных изолированных,
работающих вне сети компьютеров.
Поиск по одному ключевому слову обычно
приводит к выдаче слишком большого списка ссылок. Именно поэтому все поисковые
системы предусматривают возможность различных модификаций задания, уточняющих
поисковый запрос. Например, достаточно часто поисковые системы предлагают
пользователю перейти к расширенному поиску, позволяющему применять логические
операции. Каждая поисковая система обычно характеризуется своим специфическим
синтаксисом языка запросов, предназначенным для организации качественного
поиска. Существует также возможность ограничения поиска категорий. Важно
учитывать, что чем больше ключевых слов задается при поиске, тем более
вероятно, что будет найден требуемый документ.
Особое значение приобретает очередность
выдаваемых пользователю в результате обработки ссылок, т.е. расстановка
приоритетов при выдаче для найденных в базе данных адресов ресурсов.
Вот что пишет, например, Александр Москалюк
в статье "Goto.com — ссылка за деньги":
"...если на сегодняшний день вы
решите начать свой поиск с Goto, вначале вам будут
представлены ссылки, за которые Goto получает деньги
(от рекламодателей), а затем пойдут «бесплатные» ссылки базы данных Inktomi."
Поскольку размеры WWW в настоящее время велики, успешное
функционирование поисковых систем требует использования самых современных
программных средств и наиболее мощного оборудования. Например, поисковая
система AltaVista функционирует на базе Alpha-серверов
разработки фирмы DEC (сейчас - подразделение фирмы COMPAQ), использующих
высокоскоростные современные RISC-процессоры Alpha.
Чтобы
понять содержание работы поисковых систем, рассмотрим для примера некоторые
характеристики узла InfoSeek.
Его аппаратная структура использует
восьмипроцессорный компьютер Sun Microsystems
Ultra Enterprise 4000 с
2Гбайт оперативной памяти. Разработчики планировали в ближайшем будущем довести
оперативную память до 14 Гбайт. Столь мощное аппаратное обеспечение позволяет
обрабатывать до тысячи полнотекстовых запросов в секунду, поэтому UltraSeek относится к числу самых быстрых поисковых систем
в Сети.
Дисковое
пространство оценивается в 400 Гбайт, что позволило кардинально расширить объем
базы данных, доведя ее более чем до 50 млн
страниц в полнотекстовом режиме. По этому показателю InfoSeek
превосходит AltaVista с её 31-миллионным показателем. Кроме
объема базы данных, для поисковых систем последнего поколения ключевое значение
имеют возможности формирования запроса.
Синтаксис поиска системы InfoSeek,
складывающийся из команд (операторов) для указания отношений между вводимыми
терминами, хотя и относительно прост, но в то же время достаточен для формирования
точного запроса. Основные операции, как правило, не отличаются от других
поисковых систем, но синтаксис имеет некоторые особенности. Знак "+"
обозначает термин, присутствие которого в документе обязательно, а "-" ставится перед словом, появление которого
должно быть исключено. При необходимости найти несколько вариантов названия
одного предмета или близких терминов или при их перечислении следует
употреблять запятые, равносильные оператору ИЛИ. Система InfoSeek
допускает и поиск терминов, которые должны стоять рядом друг с другом. Тогда
расположенные рядом слова соединяются дефисом в единую цепочку без пробелов:
21st-century-information-resources. Система, чувствительная к употреблению
заглавных и строчных букв, способна самостоятельно определить имена собственные
независимо от того, имеются ли в виду имена людей или названия организаций,
если они написаны с заглавных букв. Дополнительно при составлении
поискового предписания можно уменьшать поисковое пространство названием
страницы или ее адресом, для чего в начале запроса вводится слово title: или url:, а затем без
пробела следуют искомые термины, например title:computerweek.
Эффективность
любой поисковой системы определяется тем, насколько точно, быстро и комфортно
для пользователя она выдает результаты запросов.
Поисковая машина InfoSeek обладает развитым механизмом выдачи
найденных ссылок, список которых выдаётся по релевантности запросу.
Искусственный интеллект, фиксируя количество и местонахождение искомых
лексических единиц в документе, определяет уровень его соответствия поисковому
заданию в процентах.
Система InfoSeek
предоставляет информацию, играющую
роль побочных результатов деятельности поискового агента. К примеру, можно
узнать, сколько ссылок в Web приходится на конкретную
страницу, т. е. степень ее популярности, или же, наоборот, поинтересоваться,
сколько ссылок на внешние страницы имеется на данном Web-узле, а также получить
сведения о том, сколько Web-узлов содержат какой-либо термин в адресе или
названии. Представляется весьма полезной возможность поиска в Интернете
логотипов и изображений на различные темы. В режиме ImageSeek
вводится обозначение предмета, и система выдает соответствующие картинки. На
запрос "football" было получено 36
фотографий с запечатленными моментами игры. Эти функции выполняются через
специальное меню слева от строки запроса.
Благодаря перечисленным
преимуществам InfoSeek можно считать прекрасной отправной точкой
для любых действий, связанных с поиском информации, что способно, безусловно,
порадовать пользователей.