Что называют поисковой системой. Поисковые системы в Интернете: описание и статистика

Александр Егоров

В этой статье Вы узнаете об основных поисковых системах Рунета и англоязычного Интернета, а также о том, какую долю каждая из них занимает в Сети по данным глобальной статистики.

В Интернете существует немало прекрасно организованных поисковиков. Например, Yahoo для поиска во всей Сети или Rambler для поиска в ее русскоязычной части (которую часто коротко называют Рунет).

Каталог в Сети, как и обычный каталог, позволяет искать нужные вам сведения, углубляясь в подходящие по тематике разделы и подразделы. Например, начав с ссылки на каталог Rambler, вы можете перейти к разделу "Бизнес/Финансы", затем к подразделу "Наличный курс в обменных пунктах Москвы сегодня", и т.д.

Искать по каталогам для многих вполне привычно. Интернет с этой точки зрения - просто невероятно богатая мировая библиотека с быстрым доступом в хранилище. При этом практически любой приличный узел Сети можно использовать в качестве каталога этой библиотеки.

Интернет предоставляет средства поиска, которые совсем недавно даже трудно было вообразить. Это так называемые поисковики или искатели (search engines).

В отличие от поиска по каталогам, который можно назвать вертикальным ("спускаемся" от общих разделов к частным подразделам), поисковики позволяют искать "горизонтально" (сразу по всему информационному полю мировой Сети или выбранного узла).

На практике вертикальный поиск комбинируют с горизонтальным, тем более что и популярные поисковые узлы предоставляют и автоматические искатели, и выверенные людьми каталоги.

Как пользоваться поисковиками?

Для того чтобы воспользоваться поисковиком, необходимо ввести запрос в поле запроса и нажать на копку Найти, Find или Search. Затем поисковик выдаст список ссылок, соответствующих вашему запросу. Если поиск удался, вам остается нажать на ссылку, чтобы открыть нужные вам ресурсы.

Формулировка вопроса

Обычно для поиска достаточно ввести несколько ключевых слов, разделенных пробелами. При этом ищутся документы, связанные хотя бы с одним словом запроса. Например, если вы наберете "Цифровые фотоаппараты", будет осуществлен поиск страниц, где встречаются эти слова. Их окажутся десятки тысяч. Но сразу вы увидите 10-20 ссылок на сайты, в которых встречается полная комбинация этих слов. Среди этих ссылок вы, скорее всего, найдете нужную информацию. Если нужно найти точную фразу, поместите ее в кавычки. Для повышения эффективности поиска никогда не рекомендую писать поисковые слова целиком. Например, вы ищите "Холодильные установки для быстрой заморозки продуктов". Так вот, вместо этой фразы я рекомендую вам писать "холодильн установк продукты", а поисковая система выдаст вам более обширный результат, а не узкоспециализированный материал.

По данным глобальной статистики, в Рунете основными поисковыми системами являются Яndex, Google, Rambler, Яndex.Новости, Mail.Ru, Yahoo! и Апорт.

На диаграмме представлены данные глобальной статистики за период с 19.08.2006 по 19.10.2006 (диаг. 1).

Yandex выполняет поиск по российской части Интернета с учетом морфологии русского языка. Имея очень мощный механизм подбора сайтов под запросы, эта поисковая машина помогает найти наиболее подходящие веб-страницы в русской части Интернета. Яндекс ежедневно просматривает сотни тысяч веб-страниц в поисках изменений или новых ссылок. Коллекция ссылок постоянно растет.

Слово "Яndex" означает "Языковой index", или, если по-английски, "Yandex" - "Yet Another indexer". За 4 года публичного существования Яndex возникли и другие толкования. Например, если в слове "Index" перевести с английского первую букву ("I" - "Я"), получится "Яndex".

Официально поисковая машина Yandex.Ru была анонсирована 23 сентября 1997 года на выставке Softool. Уже тогда поисковик обладал некоторыми преимуществами - возможностью проверки документов на уникальность, учетом морфологии русского языка, возможностью поиска с учетом расстояния (например, при поиске точного словосочетания). Основной отличительной чертой Yandex был тщательно разработанный алгоритм оценки соответствия ответа запросу (релевантности), учитывающий не только количество слов запроса, найденных в тексте, но и "контрастность" слова (его относительную частоту для данного документа), расстояние между словами и положение слова в документе.

Согласно данным глобальной статистики Рунета, сегодня 46% поискового трафика генерируется именно этим поисковиком (для сравнения, на долю Google"a приходится порядка 22%, а Rambler"a - около 17%).

На момент написания статьи в базе данных Google содержалось почти 3,5 миллиарда документов! Это одна из самых больших поисковых баз в мире. Google ищет не только гипертекстовые файлы (html), но и файлы в формате PDF, DOC, PostScript, Corel WordPerfect и др.

Поисковая система Google обладает очень качественным поисковым "движком". Правильность выдачи результатов поиска в Google часто превышает качество выдачи результатов поиска у русских поисковых систем, например, у Яндекса. Именно поэтому все больше пользователей начинают переходить на Google. В своей системе Google использует механизм PageRank, изменяющий "важность" сайта при выдаче результатов поиска. PageRank зависит от количества и качества ссылок на ресурс (т. е. почти то же самое, что и индекс цитирования у Яндекса). Но в отличие от Яндекса, влияние PageRank у Google не настолько значительно, поэтому люди в Google находят именно то, что и ищут.

Все страницы Google кэширует (заносит в свою базу) и разрешает человеку, производящему поиск, смотреть документ, не открывая его в первоисточнике, а беря из кэша Google (что часто намного быстрее). Google - одна из немногих поисковых систем, которая полностью индексирует все страницы, а не только самые главные.

Поисковая система Google обладает также возможностью поиска изображений. Количество изображений огромно, потому что Google индексирует большинство сайтов в мире. Можно искать фотографии различных размеров, глубины цвета, формата файла.

Строку поиска в Google можно также использовать и как калькулятор. Вы вводите, допустим, (24+15)*31, а Google выдает правильный результат.

Google разрешает настроить каждому пользователю язык интерфейса поисковой машины, выбрать языковые зоны для поиска, количество сообщений при выдаче результатов и др.

Пользователи Microsoft Internet Explorer могут установить себе программу Google Toolbar, которая создает новую панель инструментов, позволяющую искать в Google, не заходя на сам сайт. Пользователи браузеров Opera и Firefox уже имеют подобную встроенную панель.

Кстати, слово Google образовано от слова Googol, означающее число со ста нулями после единицы.

Поисковая система "Апорт!" была разработана компанией "Агама" при поддержке Intel и впервые продемонстрирована в феврале 1996 года на пресс-конференции "Агамы" по поводу открытия "Русского клуба". Тогда она искала только по сайту russia.agama.com .

Важнейшими свойствами первой версии "Апорта" являлся перевод запроса и результатов поиска на английский язык и обратно, а также реконструкция всех проиндексированных страниц из собственной базы (что означает возможность просмотра страниц, уже несуществующих в оригинале).

К концу 1999 года была представлена новая версия Апорт - "Апорт 2000", который стал первым русским поисковиком, построенным на основе выдачи результатов по отдельно взятым сайтам. "Апорт 2000" практически реализовал две базовых технологии американской поисковой машины Google: учет "ранга сайта" (Page Rank) и обработка запроса, ориентируясь на HTML-код страницы. Среди недокументированных особенностей - больший приоритет сайтам, получившим высшую и элитную лигу в каталоге AtRus.

Еще одна особенность Aport заключается в том, что Aport является полнотекстовой поисковой системой. Это означает, что она индексирует все слова, которые бы увидел на экране человек, просматривая конкретную страницу вашего сервера. В результате, любое слово из текста ваших документов может служить критерием последующего поиска. Апорт индексирует как принадлежащие документу тексты гиперссылок на этот документ с других страниц, находящихся как внутри сайта, так и за его пределами, а также составленные (или проверенные) редакторами описания сайтов из каталога.

Результаты поиска упорядочиваются по частоте употребления искомых терминов. Вместе со ссылкой отображается фрагмент текста, где встречается термин, указывается индекс соответствия запросу и дата последней модификации файла. "Апорт!" очень удобен тем, что в выдаваемом фрагменте текста выделяет красным цветом запрошенные слова.

Я рекомендую использовать, на мой взгляд, лучшую поисковую систему www.nigma.ru . Почему именно ее? Дело в том, что она разработана совсем недавно (т.е. немногие знают о ее существовании). Nigma берет информацию с наиболее распространенных поисковиков (их вы можете сами отметить галочками), анализирует полученные данные и выводит результат поиска с наиболее желаемым результатом.

Yahoo был основан в 1994, и на сегодняшний день это самый старый и наиболее полный каталог интернет-ресурсов.

Удивительно, но эта невероятно популярная система, обслуживающая миллионы запросов ежедневно, зародилась как простая коллекция закладок, которую пополняли всего 2 человека - Дэвид Фило и Джерри Янг.

Yahoo является наиболее популярным поисковым средством. Секрет успеха Yahoo заключается в людях. Yahoo имеет около 150 редакторов, для того чтобы составлять и редактировать содержимое своих каталогов. Yahoo имеет базу данных в более чем 1 млн. проиндексированных сайтов. Также, в случае нехватки своей собственной базы данных, Yahoo использует базу данных Google (до июля 2000 года Yahoo пользовался базой данных Inktomi).

AltaVista начала предоставлять свои услуги в декабре 1995 года и на сегодняшний день является одной из наиболее крупных поисковых систем (по количеству проиндексированных страниц). Особенность этого поисковика заключается в возможности вести поиск по усложненным критериям отбора. Alta-vista также предлагает дополнительные услуги в виде поиска по каталогам (взятыми из Open Directory and LookSmart), а также службу под названием "Ask AltaVista" ("спроси AltaVista"), результаты которой берутся из Ask Jeeves. В настоящее время AltaVista владеет поисковой системой Raging Search.

Поисковик разработан и запущен компанией Microsoft в 1997 году. В отличие от других поисковых систем, ранее у MSN никогда не было собственного паука или каталога. С 1997 года для выдачи результатов поиска использовались разные базы данных, такие как: Yahoo!, LookSmart, Altavista, DirectHit, Inktomi и RealNames.

Только с начала 2005 года MSN запустил бета-версию собственного поискового алгоритма. Пользователи MSN Search, как и раньше, смогут осуществлять поиск по всей Сети в целом, а также по отдельным тематическим категориям, в том числе и по энциклопедии Microsoft Encarta.

Также новый движок включает возможность локализированного поиска (Near Me) - система способна автоматически определять местонахождение пользователя по IP-адреcу его компьютера.

Ну вот мы и ознакомились с основными поисковыми системами Интернета, выбирайте ту, которая вам больше по душе.

Поисковая система или просто “поисковик” – это , осуществляющая поиск интернет страниц в соответствии с запросом пользователя. Самая известная поисковая система в мире - это Google, самая популярная в России – Яндекс, а одной из самых старых поисковых систем является Yahoo. В архитектуре поисковой системы можно выделить поисковую машину – ядро системы, представленное набором программных модулей; базу данных или индекс , хранящую информацию обо всех известных поисковой системе интернет ресурсах; и набор сайтов, являющих собой точки входа пользователей в систему (www.google.com, www.yandex.ru, ru.yahoo.com, и т.д.). Все это соответствует классической трехуровневой архитектуре информационных систем: есть пользовательский интерфейс, бизнес логика, которая в данном случае представлена реализацией алгоритмов поиска и база данных.

Специфика поиска в интернете

На первый взгляд поиск в интернете мало чем отличается от обычного информационного поиска, например, от обработки к базе данных или от задачи поиска файла на . Так считали и разработчики первых поисковых систем в интернете, но со временем они осознали, что заблуждались…

Первое отличие поиска в интернете от обычного состоит в том, что алгоритм поиска по той же базе данных предполагает, что ее структура заранее известна поисковой машине и автору запроса. В интернете, по понятным причинам, это не так. Интернет страницы образуют собой не структуру каталога, а сеть, что также влияет на алгоритмы поиска, а формат данных, размещаемых на интернет ресурсах, никем не контролируется.

Второе отличие, как одно из следствий первого – это то, что запрос представляется не в виде набора значений параметров (критериев поиска), а в виде текста, написанного человеком на естественном для него языке. Таким образом, перед тем, как начать поиск нужно еще понять, чего именно хочет автор запроса. Замечу, понять не другому человеку, а вычислительной машине.

Третье отличие уже менее очевидное, но не менее принципиальное: в каталоге или базе данных все элементы равноправны. В интернете имеет место конкуренция, а, следовательно, и разделение на более “благонадежных поставщиков информации” и источников, близких по статусу к “информационному мусору”. Так классифицируют ресурсы люди, и также к ним относятся поисковые машины.

И в заключении следует добавить, что область поиска – это миллиарды страниц, по несколько килобайт и более каждая. Около десятка миллионов страниц добавляется ежедневно и столько же обновляется. Все это представлено различными цифровыми форматами. К сожалению, даже современные технологии и ресурсы, имеющиеся в распоряжении лидеров рынка поисковых услуг в интернете не позволяют им обрабатывать все это многообразие “на лету” и в полной объеме.

Из чего состоит поисковая машина

В первую очередь важно осознать еще одно и, наверное, самое существенное отличие между работой поисковой машины в интернете и работой любой другой информационной системы, осуществляющей поиск в различного рода каталогах и базах данных. Поисковая интернет машина не ищет информацию среди того, что есть в интернете на момент поступления запроса, а пытается сформировать ответ на основании собственного информационного хранилища - базы данных, называемой индексом, где она хранит досье на все известные ей и периодически его обновляет. Другими словами, поисковая машина работает не с оригиналом, а с проекцией области допустимых значений поиска. Все последние изменения в интернете могут отразиться в результатах поиска только после того, как соответствующие страницы будут проиндексированы - добавлены в индекс поисковой системы. Итак, поисковая система в первом приближении состоит из поисковой машины, базы данных или индекса (index) и точек входа в систему.

Теперь кратко о том, из чего состоит поисковая машина:

Паук или спайдер (spider). Приложение, которое занимается скачиванием страниц интернет ресурсов. Никуда паук не “заползает” – он лишь запрашивает содержимое страниц точно так же, как это делает обычный интернет браузер, отправляя на сервер HTTP запрос и получая от него ответ. После того, как содержимое страницы скачано, оно отправляется индексатору и краулеру, о которых рассказывается далее.

Индексатор (indexer). Индексатор производит первоначальный анализ содержимого скачанной страницы, выделяет основные части (название страницы, описание, ссылки, заголовки и т.д.) и раскладывает все это по разделам поисковой базы данных – помещает в индекс поисковой системы. Этот процесс называют индексацией интернет ресурсов , отсюда и название самой подсистемы. На основе результатов первоначального анализа индексатор также может принять решение, что страница вообще “недостойна” находиться в индексе. Причины такого решение могут быть разными: страница не имеет названия, является точной копией другой, уже имеющейся в индексе страницы или содержит ссылки на запрещенные законодательством ресурсы.

Краулер (crawler). Это “животное” призвано “ползать” по ссылкам, имеющимся на скачанной пауком странице. Краулер анализирует пути, ведущие с текущей страницы на другие разделы сайта, или на страницы внешних интернет ресурсов и определяет дальнейший порядок обхода пауком нитей всемирной паутины. Именно краулер находит новые для поисковой машины страницы и передает их пауку. Работа краулера построена на базе алгоритмов поиска на графах в ширину и глубину.

Подсистема обработки и выдачи результатов (Search Engine and Results Engine). Самая важная часть любой поисковой машины. Алгоритмы работы этой подсистемы компании разработчики хранят в строгой секретности, поскольку они являют собой коммерческую тайну. Именно эта часть поисковой машины отвечает за адекватность ответа поисковой системы на запрос пользователя. Здесь можно выделить два основных компонента:
- Подсистема ранжирования. Ранжирование – это страниц интернет сайтов в соответствии с их релевантностью определенному запросу. Релевантность страницы – это, в свою очередь, степень соответствия содержания страницы смыслу запроса, и эту величину поисковая машина определяет самостоятельно, исходя из огромного количества параметров. Ранжирование – эта самая загадочная и спорная часть “искусственного интеллекта” поисковой машины. На ранжирование страницы, помимо ее структуры и содержимого (контента) также влияют: количество и качество ссылок, ведущих на данную страницу с других сайтов; возраст домена самого сайта; характер поведения пользователей, просматривающих страницу и многие другие факторы.
- Подсистема выдачи результатов. В задачи этой подсистемы входит интерпретация пользовательского запроса, его перевод на язык структурированных запросов к индексу и формирование страниц результатов поиска. Помимо разбора самого текста запроса, поисковая машина может также учитывать:
  - Контекст запроса , формируемый исходя из смысла ранее осуществленных пользователем запросов . К примеру, если пользователь часто посещает сайты на автомобильные темы, то на запрос со словом “Волга” или “Ока” он, вероятно, хочет получить информацию об автомобилях этих марок, а не о том, откуда начинают свое течение и куда впадают одноименные русские реки. Это называется персонализированным поиском , когда выдача на один и тот же запрос для разных пользователей существенно отличается.
  - Пользовательские предпочтения , о которых она (поисковая машина) может “догадываться”, анализируя выбираемые пользователем ссылки на страницах результатов поиска. Это еще один способ скорректировать контекст запроса: пользователь своими действиями как бы подсказывает машине, что именно он хотел найти. Как правило, поисковые машины в результаты поиска стараются добавлять страницы, релевантные запросу, но относящиеся к довольно разным сферам жизни. Допустим, пользователь интересуется кино и поэтому часто выбирает ссылки на страницы с анонсами киноновинок, даже если эти страницы не вполне релевантны исходному запросу. При формировании ответа на его очередной запрос система может отдавать предпочтение страницам с описанием фильмов, в названии которых встречаются слова из текста запроса.
  - Регион , что очень важно при обработке коммерческих запросов, связанных с приобретением товаров и услуг у местных поставщиков. Если вы интересуетесь распродажами и скидками и находитесь в Москве, то вам, скорее всего, совсем не интересно, какие акции на эту тему проводятся в Санкт-Петербурге, если вы не указали этого явно в тексте запроса. В первую очередь в результатах поиска должна появиться информация о распродажах в Москве. Таким образом, современные поисковые машины делят запросы на геозависимые и геонезависимые . Скорее всего, если поисковая система решает, что ваш запрос геозависимый, то она автоматически добавляет к нему признак региона, который пытается определить по информации о вашем интернет провайдере.
  - Время . Поисковым машинам иногда приходится анализировать, когда имели место события, описываемые на странице. Ведь информация постоянно устаревает, а пользователю нужны в первую очередь ссылки на самые последние новости, актуальные прогнозы и анонсы событий, которые еще не завершились или должны наступить в будущем. Понять, что актуальность страницы зависит от времени, и сопоставить ее с моментом выполнения запроса также требует от поисковой машины изрядной доли интеллекта.
  Далее, поисковая машина ищет ближайший по смыслу ключевой запрос в индексе и формирует результаты, сортируя ссылки в порядке убывания их релевантности. Каждому ключевому запросу в индексе соответствует отдельный рейтинг страниц, релевантных ему. Не на каждое сочетание букв и цифр система заводит новый ключевой запрос, а делает это на основе анализа частоты тех или иных пользовательских запросов. Поисковая машина может также перемешивать в результатах поиска рейтинги из разных ключевых запросов, если посчитает, что пользователю нужно именно это.

Общие принципы работы поисковой системы

Нужно понимать, что услуги поиска в интернете – это очень и очень выгодный бизнес. В детали, за счет чего живут такие компании, как Google и Яндекс можно не вдаваться, поскольку основная часть их прибыли – это доходы от контекстной рекламы. А раз поиск в интернете является крайне выгодным делом, то и конкуренция среди таких компаний весьма серьезная. Что определяет конкурентоспособность на рынке интернет поиска? Ответ – качество выдачи поисковой системы. Логично, что чем оно выше, тем больше у системы появляется новых пользователей, и тем ценнее размещаемая на страницах этой самой выдачи контекстная реклама. Разработчики поисковых систем затрачивают большие усилия, направленные на то, чтобы “очистить” результаты своей поисковой выдачи от разного рода информационного мусора, называемого в народе спамом (spam). Более подробно о том, как это делается, будет рассказано в отдельной статье, а здесь я приведу общие принципы поведения поисковой системы, сформулированные в виде выводов по всему вышесказанному.

Поисковая машина в лице своих пауков и краулеров постоянно сканирует интернет на предмет появления новых и обновления существующих страниц, поскольку неактуальная информация ценится ниже.

Поисковая машина периодически обновляет ранжирование ресурсов по их релевантности ключевым запросам, поскольку в индексе постоянно появляются новые страницы. Этот процесс называют обновлением (update) поисковой выдачи.

В силу огромных объемов информации, размещенной во всемирной паутине и ограниченности ресурсов самой поисковой системы, поисковая машина всегда старается загружать только самое (по ее мнению) необходимое. В ее арсенале имеются всевозможные фильтры, которые отсекают многое ненужное уже на этапе индексации или выкидывают спам из индекса по результатам обновления поисковой выдачи.

Современные поисковые системы в ходе анализа запроса стараются учитывать не только текст самого запроса, но и его окружение: контекст и предпочтения пользователя, о которых было сказано ранее, а также время запроса, регион и многое другое.

На релевантность конкретной страницы влияют не только внутренние ее параметры (структура, содержание), но и внешние параметры, такие как ссылки на страницу с других сайтов и поведение пользователя при ее просмотре.

Работа поисковых систем постоянно совершенствуется. Идеальная работа поисковой машины (для человека) возможна только в том случае, если все решения, касающиеся индексации и ранжирования будет принимать комиссия, состоящая из большого числа специалистов всех областей и направлений человеческой деятельности. Поскольку это нереально, то такую комиссию заменяют экспертные системы, эвристические алгоритмы поиска и прочие элементы искусственного интеллекта. Вероятно, работа всех этих подсистем также могла бы давать более адекватные результаты, если бы была возможность обрабатывать абсолютно все данные, имеющиеся в открытом доступе в интернете, но и это практически невозможно. Несовершенный искусственный интеллект и ограниченность ресурсов – две основные причины того, что результаты поисковой выдачи не всегда радуют пользователей, но все это лечится временем. На сегодня, по моему мнению, работа наиболее известных и крупных поисковых систем вполне соответствует потребностям и ожиданиям их пользователей.