ABC Chemistry / Поиск химической информации в Интернете / Универсальные поисковые средства. 1. Введение


1. Введение

WWW - это динамическая система: одни документы появляются, другие по прихоти авторов исчезают бесследно. Сколько всего страниц в World Wide Web - не знает никто; известно только, что счет идет на миллиарды. В Сети отсутствует единый каталог ресурсов, но его функции частично выполняют т.н. поисковые системы, или поисковые службы (search engines, search services). Каждая поисковая система имеет свою программу-"робот", постоянно сканирующую веб-пространство и собирающую в базу данных сведения об обнаруженных документах. Алгоритмы действий роботов подобны, но не идентичны, поэтому и сформированные базы данных в той или иной степени различаются между собой как перечнем собранных адресов, так и структурой и объемом информации, характеризующей отдельный веб-документ.

Обратившись к поисковой системе, пользователь на бланке формулирует задание; программа анализирует свою базу данных и сообщает результат - список веб-страниц. Список может быть очень большим, но поскольку пункты его обычно ранжированы по принципу соответствия, пользователю достаточно ознакомиться с началом полученного перечня. Обычными элементами списка являются URL, название страницы (либо сайта) и гиперсвязь к ней, фрагмент документа; дополнительно могут быть приведены и другие сведения (например, объем, дата создания, аннотация).

Каждая поисковая система использует свои правила построения поискового задания. Общей тенденцией для всех является отход от жесткой заданности булевой фразы к гибкому алгоритму free-text search.

Роботы основных поисковых средств прочитывают веб-документы от начала до конца и вносят в свои базы данных все встреченные слова. Кроме того, они могут накапливать и иную информацию: имена файлов иллюстраций, содержимое служебной части HTML-документа и т.д. - этот перечень индивидуален для каждой поисковой службы.

Многие поисковые службы предлагают пользователю тематические каталоги веб-страниц. Такие каталоги (Directories) создаются безмашинным способом, поэтому в них попадает только малая доля материала, имеющегося в WWW.

Многие поисковые средства размещены на порталах.
Портал - это многопрофильный сайт, предлагающий  широкий спектр информационных услуг. Типовой набор включает тематический каталог Web-страниц, средство для информационного поиска в WWW, службу новостей, ряд специализированных разделов (например, метеорологический, финансовый и т.д.), а также узел электронной почты.


Минилекция: Особенности запроса в поисковых системах