ABC Chemistry / Поиск химической информации в Интернете / Универсальные поисковые средства. 1. Введение
WWW - это динамическая система: одни документы появляются, другие по прихоти авторов исчезают бесследно. Сколько всего страниц в World Wide Web - не знает никто; известно только, что счет идет на миллиарды. В Сети отсутствует единый каталог ресурсов, но его функции частично выполняют т.н. поисковые системы, или поисковые службы (search engines, search services). Каждая поисковая система имеет свою программу-"робот", постоянно сканирующую веб-пространство и собирающую в базу данных сведения об обнаруженных документах. Алгоритмы действий роботов подобны, но не идентичны, поэтому и сформированные базы данных в той или иной степени различаются между собой как перечнем собранных адресов, так и структурой и объемом информации, характеризующей отдельный веб-документ.
Обратившись к поисковой системе, пользователь на бланке формулирует задание; программа анализирует свою базу данных и сообщает результат - список веб-страниц. Список может быть очень большим, но поскольку пункты его обычно ранжированы по принципу соответствия, пользователю достаточно ознакомиться с началом полученного перечня. Обычными элементами списка являются URL, название страницы (либо сайта) и гиперсвязь к ней, фрагмент документа; дополнительно могут быть приведены и другие сведения (например, объем, дата создания, аннотация).
Каждая поисковая система использует свои правила построения поискового задания. Общей тенденцией для всех является отход от жесткой заданности булевой фразы к гибкому алгоритму free-text search.
Роботы основных поисковых средств прочитывают веб-документы от начала до конца и вносят в свои базы данных все встреченные слова. Кроме того, они могут накапливать и иную информацию: имена файлов иллюстраций, содержимое служебной части HTML-документа и т.д. - этот перечень индивидуален для каждой поисковой службы.
Многие поисковые службы предлагают пользователю тематические каталоги веб-страниц. Такие каталоги (Directories) создаются безмашинным способом, поэтому в них попадает только малая доля материала, имеющегося в WWW.
Многие поисковые средства размещены на порталах.
Портал - это многопрофильный сайт,
предлагающий широкий спектр информационных услуг. Типовой набор включает
тематический каталог Web-страниц, средство для информационного поиска в WWW,
службу новостей, ряд специализированных разделов (например, метеорологический,
финансовый и т.д.), а также узел электронной почты.