"рамблер" - что такое случилось с поисковой системой. Архитектура метапоисковых систем. Поисковая система Aport

Когда-то давно, на заре зарождения рунета, когда, собственно, количество самих сайтов в русскоязычном сегменте измерялось сотнями, объявил о себе "Рамблер". которая была одной из первой у нас, но которую ждал крах. Теперь "Рамблер" - медийный портал. Из-за чего же это случилось? Попробуем разобраться в теме.

"Рамблер" (Rambler) - чем являлся и что представляет из себя сейчас.

Надо сказать, что "Рамблер", поисковая система неплохого качества, появился на год раньше, чем "Яндекс" и Google. Но в 2011 году между гигантом "Яндексом" и угасающим "Рамблером" было заключено соглашение, согласно которому отныне поиск на мега-портале должен был выполняться при помощи зеркала рунета и, конкретнее, именно самого Яндекса.

Ранее сотрудниками "Рамблера" рассматривался вариант сотрудничества с Google, но русскоязычный "заклятый друг" сумел сделать более выгодное предложение. С этих пор, с лета 2011, и представляет из себя "Рамблер" медийный портал, на котором ведётся поиск даже не их родным рамблеровским поисковиком, а поисковиком конкурента. Можно в этом убедиться, посмотрев на совершенно идентичную выдачу по поисковым запросам.

История зарождения "Рамблера" в научном городке Пущино

Если же говорить о том, как зародился "Рамблер", что такое послужило вообще причиной зарождения и развития интернета в России, то вот краткая сводка из истории. Как вам должно быть известно, интернет был изначально разработкой военных США, а после был распространён среди научных кругов. Итак, в начале девяностых в небольшом научном городке Пущино проложили одну из первых выделенных линий, соединённых с интернетом через Москву. Буквально своими собственными усилиями некоторые энтузиасты, желая получать новости от научного сообщества напрямую, сумели-таки проложить кабель до Москвы. В 1991 году интернет только начинал своё победоносное шествие. Рунета фактически ещё не было. Только в 1989 году была создана WWW, а энтузиасты из Пущино уже проводили немало работ. При этом, даже в рамках всего интернета они были весьма значимой единицей. Вполне себе логичным завершением интернетизации научного сообщества стало написание движка своей личной поисковой системы.

Дальнейшее развитие

С задачей написания поискового движка за несколько месяцев успешно справился программист из Пущино. Осенью, в 1996 году был приобретён домен rambler.ru и уже в октябре сайт и поисковик стал доступным пользователям. Вплоть до 1997 года, когда на горизонте появился "Яндекс", переспективы "Рамблера" были весьма грандиозными. Он был практически первым и единоличным лидером поиска. И хоть тогда количество сайтов в рунете исчислялось сотнями (если не десятками),
но переспективы "Рамблера" (что в переводе с немецкого означает "бродяга") были весьма радужными. Если бы удалось их удержать.

"Рамблер" - что такое произошло? Или в чём причина краха?

По мнению одного из экспертов, всё дело в том, что основные разработчики "Рамблера" ушли из команды управления. Если, допустим, в том же "Яндексе" на руководящих должностях присутствуют те люди, которые стояли у истоков. Так сказать, это их детище. То разработчики "Рамблера" в ходе некоторых перипетий вынуждены были уступить свои места спонсорам. В результате всего этого сложилась ситуация, когда менеджеры, видя, что показатели падают, идут к руководству и просят два-три миллиона на раскрутку и рекламу. Если бы в руководящих креслах сидели люди, которые разбирались в вопросе напрямую, как у "Яндекса", то деньги поступили бы сразу. Но поскольку для людей, далёких от вопроса, это только лишние, призрачно обоснованные расходы, то они сообщают менеджерам, чтобы те пришли через месяцев шесть-восемь и тогда вопрос решится. К сожалению, за эти шесть-восемь месяцев было потеряно слишком много времени. А поскольку ситуация повторялась не раз, то, безусловно, в условиях такого управления, "Рамблер" не мог удержаться в топе конкурентов.

"Рамблер" - медийный портал

Совместно с решением о прекращении разработок над поисковым движком, владельцы провели и ещё одно изменение в логотипе. Медийный портал, статус которого он приобрёл, буквально требовал изменений в написании логотипа ("Рамблер"). Что такое было изменено? Было решено поменять шрифт написания названия с латиницы на кириллицу. На самом деле, такое решение назревало уже очень давно и, можно полагать, созрело уже в итоге очень поздно.

Какие же сервисы включает теперь в себя "Рамблер" (медийный портал)? О, их на самом деле много! Сервисы, которые включает "Рамблер": фото, новостные приложения, почта. Кроме того, много и побочных сервисов. Это и "Рамблер.Игры", и "Авторамблер", и "Рамблер.Финансы". Первый сервис - игровой проект, который можно посещать онлайн или же скачивать всякие игры на свой персональный компьютер или же мобильный телефон. "Авторамблер" посвящён автомобильной тематике, советам по выбору и уходом за автомобилем. "Рамблер.Финансы" сканирует и выдаёт наиболее интересные с точки зрения экономиста факты и новости. Всевозможные курсы валют, биржевые сводки и какую-либо аналитику. Кроме того, есть ещё, к примеру, и "Рамблер.Радио" - приложение, позволяющее прослушивать радиостанции прямо в режиме онлайн.

Один из наиболее успешных сервисов

Тем не менее, есть один сервис у "Рамблера", который появился примерно в одно время с их поисковой системой, но до сих пор пользуется определённым спросом, если сравнивать с аналогичными сервисами "Яндекса" и Google. Речь идёт о рейтинге "Рамблер топ-100". Этот сервис предоставляет бесплатный счётчик посещаемости и на его основе выстраивает топ сайтов рунета, подразделяя, разумеется, их на категории. При этом внешний вид рейтинга "топ-100 Рамблер" медийный портал не подверг тщательному ребрендингу, и поэтому выглядит он, возможно, для кого то не так приятно, как хотелось бы. Способ монетизации в данной системе таков, что взамен за установку счётчика у вас на сайте появятся несколько небольших баннеров. И данный момент вызывает недоумение, а также и вопросы о серьёзности проекта "Рамблер".

Медийный портал, в конце концов - это не то, что ожидалось на заре его разработки. Однако судьба сложилась так, что именно данная участь постигла "Рамблер". Что такое произошло с проектом? Ответ - неграмотное руководство. Наверное, в этом вина...

Большинство пользователей Интернет сообщества начинают свой рабочий день с поисковых систем, где пытаются найти столь необходимую им информацию и решить свои проблемы. К сожалению, поисковые системы часто не способны точно и справедливо интерпретировать ресурсы. Как результат, на первых позициях поиска зачастую оказываются сайты "далекие" от решаемого вопроса. При этом ресурсы представляющие реальную пользу оказываются "за бортом" поиска.

Причина такого положения проста и кроется в технологии получения и представления результатов поисковыми системами. При этом надо понимать, что главная проблема заключается в отсутствии четких правил, доступных и открытых для всех желающих. Чем больше неопределенности в алгоритмах формирования поисковых индексов (некий черный ящик), тем меньше поисковые системы отражают процесс формирования реальной информации. И соответственно, тем меньше будет уровень доверия к результатам поиска поисковых систем.

Как это не парадоксально, но это вина не поисковых систем, поскольку они обязаны скрывать правила построения поисковых индексов. Это вина самой технологии при организации поиска. По своей сути технология поисковых систем направлена на пассивного пользователя. Необходимо зарегистрировать только сайт, дальше все сделает поисковый робот. Он просканирует ресурс страницу за страницей, пытаясь проанализировать содержание каждой из них. Трудоемкость пользователя минимальна, что позволяет использовать разные методики по "обману" поисковых роботов при низких затратах сил и средств. В такой схеме работы поисковым системам необходимо изменять алгоритмы и правила индексирования ресурсов и построения поискового индекса.

Конечно, большинство пользователей пользовались, пользуются, и будут пользоваться классическими поисковиками. Это просто, удобно и распространено. Это, как привычка, пользоваться поисковиками.

Общая информация о поисковых системах

Поисковая система - это программное обеспечение, предоставляющее доступ к коллекции слабоструктурированной информации. Ориентация на слабоструктурированные данные, т.е. данные, которые нельзя представить в виде реляционной таблицы, отличает поисковую систему от СУБД.

В данном определении поисковой системы подразумевается информация различного рода, т.е. текст, аудио, видео, изображения и т.п. Однако следует отметить, что именно текстовые данные идеально подходят для описания полной функциональности поисковой системы, т.к. алгоритмы поиска мультимедийной информации, прежде всего, основываются на алгоритмах поиска текста.

Основная задача поисковой системы - минимизировать время, затрачиваемое пользователем на поиск релевантной запросу информации. Релевантность - одно из самых субъективных и запутанных понятий в науке информационного поиска. Наиболее часто говорят о релевантности с точки зрения пользователя, и тогда ``релевантная запросу информация"" и ``нужная пользователю информация"" - одно и то же. Именно о такой релевантности мы говорим в данном разделе. Вопрос заключается в том, какую информацию пользователь посчитает нужной? В некоторых обстоятельствах релевантную информацию можно определить как всю информацию из базы, имеющую отношение к запросу. Так, например, если пользователю нужно узнать все о конкретной фирме, то он заинтересован в нахождении всех документов, в которых упоминается об этой фирме. В других обстоятельствах релевантная информация - это только та информация, которая достаточна для выполнения определенной задачи пользователя, например, поиска ответа на конкретный вопрос. Если в последнем случае в результатах поиска будет много избыточных данных, т.е. данных, которые имеют отношение к запросу, но не нужны для выполнения данной задачи, то выборка нужной/релевантной информации займет у пользователя дополнительное время.

Таким образом, традиционно к поисковой системе применяют две основные характеристики: точность и полнота , а точнее, их зависимость. Каждый раз, когда пользователь задает системе запрос, тем самым инициализируя поиск, все документы в коллекции поисковой системы делятся на четыре части. Точность определяет один аспект поиска, а именно, насколько хорошо поисковая система способна минимизировать время, затрачиваемое пользователем на поиск релевантной данному запросу информации. В то время как полнота определяет другой аспект - насколько хорошо система способна найти релевантную данному запросу информацию. Можно подобрать оптимальный запрос(ы), когда каждый найденный документ будет релевантным, и каждый релевантный документ будет найден.

Поисковые системы при использовании Интернет играют очень важную роль. В Интернете сосредоточено такое количество информации, что ее поиск уже превращается в отдельную задачу и отнимает очень много времени. Поисковые серверы выдают на запрос тысячи ссылок вместо нескольких страниц, где действительно имеется нужная информация. Пользователи всемирной сети Интернет, осознав преимущества, предоставляемые возможностью анализа пространственных данных, нуждаются в инструменте, позволяющем осуществлять быстрый и удобный поиск и доступ к цифровым снимкам местности и другой пространственной информации, сосредоточенной во многих правительственных, коммерческих и академических организациях.

Немного из истории…

Поисковая система (поисковый сервер, поисковая машина) – особый web-сайт, на котором пользователь по заданному запросу может получить ссылки на сайты, соответствующие этому запросу.

Работа поисковой машины, как правило, состоит из двух этапов. Первый - особая программа (поисковый робот) или человек собирает информацию с веб-страниц и индексирует их. Когда пользователь задает запрос, поиск идет по предварительно построенному индексу. Результатом поиска является так называемая поисковая выдача - список ссылок на документы (веб-страницы), соответствующие запросу.

Большая часть поисковых систем ищут информацию на сайтах Интернета, но также существуют поисковые машины, способные искать файлы на ftp-серверах, документы, а также информацию во внутренних сетях и прочая. В последнее время появился новый тип поисковых движков, основанных на технологии RSS.

Работа поисковой системы основана на работе «поискового движка». Основными критериями качества работы поисковой машины являются релевантность, полнота базы, учёт морфологии языка.

Наиболее популярными поисковыми машинами в России на сегодняшний день считаются Google, Yandex, и Rambler.

Первой поисковой машиной стал «Wandex», уже не существующий web-сайт, который создал Мэтью Грэйем из Массачусетского технологического института в 1993. чуть позднее появляется поисковая система «Aliweb», существующая до сих пор. Первой полнотекстовой поисковой системой стала «WebCrawler», запущенная в 1994. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице, с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, о котором было известно в широких кругах. В 1994 был запущен «Lycos», разработанный в университете Карнеги Мелона.

Развитие русских поисковых машин началось в 1996 году с появлением морфологического расширения к поисковику Altavista, и запуском оригинальных российских поисковых машин Rambler и Aport. Вскоре, в 1997 году была открыта поисковая машина Яндекс.

Сегодня в мире работает несколько сотен разнообразных поисковых машин, отличающихся специализацией, возможностями и методиками поиска.

Новости

20/ 12/ 2005
ТОКИО, 20 дек - РИА Новости, Андрей Фесюн. Япония разработает собственную поисковую систему для Интернета в противовес набирающей популярность американской системе Google.
Как сообщил сотрудник отдела информационной политики министерства экономики, торговли и промышленности Фумихиро Кадзикава (Fumihiro Kajikawa), с этой целью будет создана исследовательская группа с участием представителей двадцати университетов и компаний по производству электроники.
"Мы не намерены конкурировать с Google или Yahoo, но думаем о создании уникальной системы исключительно для Японии", - сказал Кадзикава. По его информации, система будет предназначена прежде всего для поиска изображений, в частности, фотографий.
Представитель министерства сообщил, что первое заседание группа проведет в ближайшую пятницу, промежуточный отчет о своей деятельности представит в министерство в марте, а окончательный - в июле будущего года.
09.2005
Г.И. Рузайкин
Мир ПК:: Новостная лента
На пути к всеохватному информационному пространству особую остроту приобретают проблемы поиска информации в Сети. Это становится очевидным на фоне технологических успехов развития Интернета, в частности касающихся доставки информации пользователю (имеется в виду скорость передачи данных, их объем и качество). Потому-то сообщения о развитии технологий и программных продуктов для поиска информации так важны на ИТ-рынке.
Компания DVYGUN (www.dvygun.com) объявила о выпуске новой версии бесплатной персональной поисковой системы DVYGUN Smart Search 2.5.2.5 Beta, позволяющей проводить полнотекстовый поиск в массивах документов, сообщений электронной почты, мультимедийных файлов, на веб-страницах посещения и среди контактных данных, хранимых в ПК пользователя.
При этом программа DVYGUN Smart Search выполняет поиск информации (файлов) следующих типов:
- сообщения электронной почты и вложения Outlook/Outlook Express;
- файлы форматов PDF, MS Word, MS Excel, RTF, HTML и текстовые;
- данные архивов ZIP, RAR, GZIP, CAB и др.;
- изображения, музыкальные и видеофайлы;
- посещенные веб-страницы, избранные интернет-адреса браузера Internet Explorer;
- контакты адресной книги в Windows и Outlook.
Поиск данных можно вести как по всем типам, так и по избранным. Дальнейшее сужение области поиска выполняется при указании поисковых параметров. Например, для файлов ими могут быть «Имя файла», «Папка», «Размер» и «Дата изменения». Ранжирование найденных документов осуществляется по уровню соответствия поисковому запросу. Для многословных запросов учитывается контекстная близость слов, поэтому каждый найденный документ отображается в результатах поиска вместе с контекстной цитатой, что в большинстве случаев ускоряет понимание его содержания.
Для организации мгновенного поиска DVYGUN Smart Search производит первичную обработку данных с целью построения специальной базы (индекса), по которой и производится этот поиск. Вот несколько особенностей реализации этой функции в данной программе: поиск и индексация могут идти одновременно, для начала поиска не нужно дожидаться завершения индексации; обновление индекса происходит в "фоновом режиме", программа постоянно отслеживает действия пользователя, так что измененные и новые данные сразу же включаются в индекс, т.е. осуществляется актуализация результатов поиска; в случае недостаточности системных ресурсов процесс индексирования останавливается во избежание замедления работы компьютера пользователя.
Как отмечают разработчики DVYGUN Smart Search, проверка их программы на наличие и качество признаков поиска (обновление индекса на лету, подсчет релевантности результатов, настройка, скорость индексирования и поддержка морфологии русского языка) ставит ее впереди таких известных поисковиков, как Google, Yahoo, Microsoft, Copernic и Blinkx. Ни один конкурент не удовлетворяет в полном объеме требования, предъявляемые к наличию и качеству этих признаков. Программа же DVYGUN Smart Search проводит индексирование со скоростью 5 Гбайт/ч и морфологическую обработку слов русского и украинского языков. К сожалению, ни один из известных отечественных и украинских поисковиков не способен индексировать так быстро. Вместе с тем к недостаткам данной версии DVYGUN Smart Search разработчики относят малое количество обрабатываемых ею форматов файлов: поправить дело можно либо с помощью покупки соответствующих фильтров, либо путем собственной их разработки.
О развитии имеющихся поисковиков свидетельствует сообщение компании «Яндекс» (http://company.yandex.ru/news/2005/0628) о том, что новая версия программы «Яндекс.Сервер», работающая под управлением всех популярных версий ОС Windows и Unix, стала функционировать быстрее. Это расширило группу продуктов для полнотекстового поиска информации и повысило скорость обработки документов в полтора раза. Увеличено число типов обрабатываемых документов: теперь в дополнение к форматам.txt, .doc, .rtf, .html, .xml и.pdf поддерживаются.xls, .ppt и.swf. Также выросла скорость индексирования файлов с 25 до 40 Мбайт/с.
Для пользователей, которым важно управлять дизайном результатов поиска, предлагается пакет поставки новой версии данной программы по цене почти в 2 раза более низкой, чем была ранее, - всего за 170 долл. Кроме того, появились редакции этой программы для владельцев сайтов Standard+ и Professional+ с расширенными возможностями.
Как сообщили в российском представительстве компании CONVERA (www.convera.su), в будущем году ее усилия в России будут направлены на продвижение новой поисковой системы Excalibur и на разработку локализованной версии программы RetriewalWare 8.2. В ней будут реализованы такие стандартные функции, как извлечение сущностей из текста (в первом релизе к ним отнесены географические названия, имена собственные, времена, валюты, даты, номера - телефонные, кредитных карт и автомобильные, а также связи между ними), адаптеры к программным комплексам Websphere, Sharepoint portal, Documentum, новый Lotus, Windchill и Teamlink.
Осенью текущего года Excalibur появится и в России. Наиболее существенным отличием этого продукта от других подобных глобальных поисковых систем является уточнение объема релевантной информации, предлагаемой в результате поиска. Такая эффективность возможна благодаря встроенным в программу 12 млн. таксономий, с помощью которых ведется обработка информации по запросу. В процессе обработки запроса определяется его таксономическое понятие (предметная область), в результате чего вся информация делится на две группы - релевантная и нерелевантная запросу. При этом результаты запроса могут быть представлены в виде таблиц, графических изображений, текстов и информационных связей, т.е. ответ становится отображением сущности запроса и его связей в совокупности предлагаемых в результате поиска документов.
23 марта 1998
Новая поисковая система в Интернет
Запущен новый поисковый сервер-каталог Newman Search по информационным технологиям. Newman Search объединяет достоинства "искалок" и каталогов одновременно. Все источники, по которым производится поиск, сгруппированы по темам "Компьютерная пресса", "Новости", "Компьютерные фирмы" и т.д. Пользователи могут ограничивать область поиска соответствующими разделами, значительно уменьшая "информационный шум" и время нахождения нужного документа.
Тематика Web-сайтов в Newman Search ограничена исключительно компьютерами, Интернетом и информационными технологиями. Предпочтение отдается первоисточникам и сайтам, содержащим систематизированную информацию (документация, описания, тесты, цены, мнения, новости, пресс-релизы).
Newman Search отличает оперативная каждодневная индексация серверов - с периодом от 1 дня (для раздела "Новости") до 7 дней (для сайтов фирм компьютерного бизнеса). Тогда как в обычных поисковых системах обновления информации надо ждать месяцами.
Поиск осуществляется с учетом морфологии русского языка и компьютерной терминологии. Например, если искать "HDD" на самом деле искаться будут слова "HDD" "ВИНЧЕСТЕР" "ЖЕСТКИЙ ДИСК" "НЖМД" и т.п.
Открытая статистика переходов образует своего рода рейтинг компьютерных web-сайтов по информативности. Причем рейтинг поддерживается отдельно по каждому разделу типа "Новости" "Компьютерные фирмы" и пр.

Поисковая система Yandex

История поисковой системы Яндекс

История компании "Яндекс" началась в 1990 году с разработки поискового программного обеспечения в компании "Аркадия".

В 1993 году "Аркадия" стала подразделением компании CompTek. В 1993-1994 годы программные технологии были существенно усовершенствованы благодаря сотрудничеству с лабораторией Ю. Д. Апресяна (Институт Проблем Передачи Информации РАН).

Летом 1996 года руководство CompTek и разработчики поисковой системы пришли к выводу, что развитие самой технологии важнее и интереснее, чем создание прикладных продуктов на базе поиска. Исследования рынка показали своевременность и большие перспективы поисковых технологий.

Слово "Яndex" придумал за несколько лет до этого один из основных и старейших разработчиков поискового механизма. "Яndex" означает "Языковой index", или, если по-английски, "Yandex" - "Yet Another indexer".

Официально поисковая машина Yandex.Ru была анонсирована 23 сентября 1997 года на выставке Softool. Основными отличительными чертами Yandex.Ru на тот момент были проверка уникальности документов (исключение копий в разных кодировках), а также ключевые свойства поискового ядра Яndex, а именно: учет морфологии русского языка (в том числе и поиск по точной словоформе), поиск с учетом расстояния (в том числе в пределах абзаца, точное словосочетание), и тщательно разработанный алгоритм оценки релевантности (соответствия ответа запросу), учитывающий не только количество слов запроса, найденных в тексте, но и "контрастность" слова (его относительную частоту для данного документа), расстояние между словами, и положение слова в документе.

В ноябре 1997 года, был реализован естественно-языковый запрос. Отныне к Yandex.Ru можно обращаться просто "по-русски", задавать длинные запросы, например: "где купить компьютер", "генетически модифицированные продукты" или "коды международной телефонной связи" и получать точные ответы. Средняя длина запроса в Yandex.Ru сейчас - 2,7 слова. В 1997 году она составляла 1,2 слова, тогда пользователи поисковых машин были приучены к телеграфному стилю.

В 1998 году на Yandex.Ru появилась возможность "найти похожий документ", список найденных серверов, поиск в заданном диапазоне дат и сортировка результатов поиска по времени последнего изменения.

За 1999 год Yandex выпустил новый поисковый робот, который позволил оптимизировать и ускорить обход сайтов Рунета. Новый робот позволил предоставить пользователям новые возможности - поиск по разным зонам текста (заголовкам, ссылкам, аннотациям, адресам, подписям к картинкам), ограничение поиска на группу сайтов, поиск по ссылкам и изображениям, а также выделять документы на русском языке. Появился поиск в категориях каталога и впервые в Рунете было введено понятие "индекс цитирования".

В 2000 году образовалась компания "Яндекс". "Яндекс" был учрежден акционерами CompTek - компании, создавшей и в течение долгого времени развивавшей проект Яndex. Компания ru-Net Holdings инвестировала 5 миллионов 280 тысяч долларов и получила в новой компании долю в 35,72%. В число акционеров входят также менеджмент и ведущие разработчики поисковой системы. Генеральным директором стал Аркадий Волож.

В новообразованную компанию перешли все права на торговую марку Яndex и сайт www.yandex.ru, а также на поисковую технологию Яndex и семейство одноименных программных продуктов. Кроме того, в "Яндекс" был передан недавно стартовавший проект www.narod.ru.

Управление индексированием в поисковой системе Яндекс

Разрешения и запрещения на индексацию берутся из файла robots.txt. Яндекс поддерживает META тег robots, тег NOINDEX и нестандартное расширение robots.txt - директиву Host. Разрешения и запрещения на индексацию берутся всеми поисковыми системами из файла robots.txt, находящегося в корневом каталоге сервера. Запрет на индексацию ряда страниц может появиться, например, из желания не индексировать одинаковые документы в разных кодировках. Чем меньше сервер, тем быстрее робот его обойдет. Поэтому желательно запретить в файле robots.txt все документы, которые не имеет смысла индексировать.

Поисковая система Яндекс поддерживает нестандартное расширение robots.txt - директиву Host. Аргументом директивы Host является доменное имя (одно корректное имя хоста, не являющееся IP-адресом) с номером порта (80 по умолчанию), отделенным двоеточием. Если какой-либо сайт не указан в качестве аргумента для Host, для него подразумевается наличие директивы Disallow: /, т.е. полный запрет индексации (при наличии в группе хотя бы одной корректной директивы Host).

Это нестандартное расширение позволяет помочь поисковой системе выбрать правильное зеркало для индексирования. Фактически, в директиве Host указывается основное зеркало для сайта, при этом индексация всех других зеркал запрещена.

В целях совместимости с роботами, которые не полностью следуют стандарту robots.txt, директиву Host необходимо добавлять в группе, начинающейся с записи User-Agent, непосредственно после записей Disallow.

Поисковая система Яндекс анализирует и следует указанию META тег robots. Для запрета индексации определенных частей текста им можно пометить тегами.

Добавление страниц в поисковой системе Яндекс

Яндекс ежедневно просматривает сотни тысяч Web-страниц в поисках изменений или новых ссылок. Владельцы ресурсов могут самостоятельно добавить свой сайт, заполнив форму AddURL. Яндекс ежедневно просматривает сотни тысяч Web-страниц в поисках изменений или новых ссылок. Владельцы ресурсов могут самостоятельно добавить свой сайт, заполнив форму AddURL.

Яндекс индексирует российскую сеть, поэтому в поисковую машину вносятся сервера в доменах su, ru, am, az, by, ge, kg, kz, md, ua, uz. Остальные сервера вносятся, только если на них найден текст на русском языке, или если владельцы ресурсов убедят администрацию поисковой машины в том, что их сервер интересен пользователям русскоязычного Интернета (это обычно делается письмом на [email protected]).

Обычно страницы появляются в поисковой базе в течение недели после их появления или изменения. Новые страницы, внесенные в базу с помощью AddURL, появятся быстрее (если они находятся в русскоязычной части сети и не требуют ручной проверки).

Поисковая система Яндекс - полнотекстовая, то есть в ее индекс попадают (и становятся доступными для поиска) только те слова, которые написаны на страницах сайтов.

В списке результатов поиска после адреса страницы выводится текст, который состоит из заголовка (тэг title), описания (тэг meta name="Description" content="") или начала документа (если этого тэга нет) и контекстов - фрагментов текста старницы, содержащих слова запроса.

Индексация в поисковой системе Яндекс

Когда Яндекс обнаруживает новую или измененную страницу, он ее индексирует. В процессе этого страница разбивается на элементы, содержание которых заносится в индекс. Когда Яндекс обнаруживает новую или измененную страницу, он ее индексирует. В процессе этого страница разбивается на элементы (текст, заголовки, подписи к картинкам, ссылки и так далее), содержание которых заносится в индекс. При этом учитываются позиции слов, то есть их положение в документе или его элементе. Сам документ в базе не хранится.

Яндекс индексирует страницы по их истинным адресам. Это значит, что, если на странице стоит redirect, робот воспримет его как ссылку на новый адрес и внесет ее в очередь на индексирование.

Как требует стандарт протокола HTTP, Яндекс, получив в заголовке ответа информацию, что данный URL является редиректом (коды 3хх), добавит в список адресов для обхода URL, на который ведет редирект. Если редирект был постоянный (код 301), либо на странице встретилась директива meta-refresh, то старый URL будет исключен из списка обхода.

Робот Яндекс хранит дату последнего обхода каждой страницы, дату ее изменения (присланную Web-сервером) и дату внесения последних изменений в базу поиска (дату индексации). Он оптимизирует обход Сети таким образом, чтобы чаще посещать наиболее изменяемые сервера. Робот Яндекс работает автоматически и обычно переиндексация происходит раз в две-три недели.

Изменения уже проиндексированных страниц робот Яндекс отслеживает самостоятельно при следующем заходе на сайт. У робота свой график работы и изменить его невозможно.

Яндекс индексирует документ полностью: текст, заголовок, подписи к картинкам, описание (description), ключевые слова и некоторую другую информацию.

Робот Яндекса обходит "динамические" страницы и относится к ним в точности так же, как и к "статическим". Поисковый робот Яндекс кроме стандартного HTML, индексирует: PDF, DOC, RTF и Flash форматы файлов.

Дубликат - это один и тот же текст, под десятком разных адресов, зависящих, например, от способа навигации по сайту. Сайты с большим числом дубликатов время от времени подвергаются безжалостной чистке.

Зеркала сайтов

Зеркало - частичная или полная копия сайта. Наличие дубликатов ресурса бывает необходимо владельцам высокопосещаемых сайтов для повышения надежности и доступности их сервиса.

Большое количество зеркал засоряет базы данных поисковых систем и приводит к появлению дубликатов в результатах поиска. Поэтому, когда робот Яндекса обнаруживает несколько зеркал сайта, он выбирает одно из них в качестве основного, остальные из индекса удаляются. По умолчанию, робот выбирает в основное зеркало исходя из собственных соображений. И обычно не то, какое хотел бы видеть владелец ресурса.

Можно принять ряд мер, позволяющих выбрать необходимый сайт в качестве основного зеркала.

Во-первых, можно удалить неосновные зеркала сайта.

Во-вторых, на всех зеркалах, кроме того, которое надо выбрать основным, разместить файл robots.txt, полностью запрещающий индексацию сайта. Либо выложить на зеркалах robots.txt с директивой Host.

В-третьих, разместить на главных страницах неосновных зеркал тег, запрещающий их индексацию и обход по ссылкам.

В-четвертых, изменить код главных страниц на неосновных зеркалах так, чтобы все (или почти все) ссылки с них вглубь сайта были абсолютными и вели на основное зеркало.

В случае реализации одного из вышеперечисленных советов основное зеркало будет автоматически изменено по мере обхода поискового робота Яндекс.

Методики работы поисковой системы Яндекс

Поисковая система Яндекс содержит в своем индексе о каждом слове текста номер документа,предложения, слова в предложении и вес каждого слова. Поисковый робот Яндекс индексирует страницы и на основании информации на них формирует поисковый индекс.

Вся эта информация используется при поиске. При каждом запросе ищутся (и получают более высокий ранг) фразы, точно совпадающие с запросом, затем предложения, содержащие все слова запроса, и т.д. Важную роль играет относительное положение слов. Так, например, если запрос из четырех слов не имеет точного ответа в базе данных, будут отранжированы выше предложения, содержащие три слова из запроса, в которых слова стоят точно в той же последовательности, что и в запросе. Это дает возможность решать типичную поисковую задачу - искать документ по "неточному цитированию".

Поисковая система Rambler

История поисковой системы Рамблер

История поисковика "Рамблер" начинается в 1991 году в городке Пущино Московской области. Именно там группой единомышленников была создана компания "Стек". Возглавил компанию "Стек" Сергей Лысаков. Занималась компания локальными сетями и подключением к Интернету.

Уже в 1996 году, Сергей Лысаков и программист Дмитрий Крюков приняли решение разработать первую русскую поисковую систему для Интернета. Дмитрий Крюков придумал название проекту - Rambler. В переводе Rambler означает "скиталец, странник, бродяга", что созвучно с принципом работы робота поисковика.

26 сентября 2006 года было зарегистрирован домен rambler.ru и уже 8 октября компания "Стек" активизировала систему. Весной 1997 года появляется "Rambler"s Top100" - рейтинг-классификатор, оценивающий на основе объективных данных популярность российских ресурсов.

В июне 2003 года компания запустила новую версию поисковой машины, которая отличается от предыдущей по двум основным параметрам: значительно увеличилась скорость поиска благодаря новой архитектуре системы обновление поискового индекса происходит несколько раз в день.

Для тех, кто точно знает, что ищет, и не хочет тратить лишнее время, была открыта специальная лаконичная версию поиска "Рамблер" по адресу r0.ru, (или, как говорят, Арнольд).

Механизм ассоциаций от Rambler

Когда кто-либо делает ряд последовательных запросов в поисковике Рамблер, эти слова и фразы становятся связанными между собой - Rambler ассоциациями. Пользователям поисковой системы Rambler доступен механизм ассоциаций Rambler. Ассоциации Rambler - это тематически (ассоциативно) связанные запросы с исходным запросом пользователя. Когда кто-либо делает ряд последовательных запросов в поисковике Рамблер, эти слова и фразы становятся связанными между собой. И такая последовательность создает ассоциации Rambler. Фактически, это понятие "У нас также ищут".

С одной стороны, с помощью механизма ассоциаций Rambler пользователь может быстро уточнить или расширить свой запрос. С другой стороны, цепочка типичных ассоциаций выявляет недостатки исходного запроса, его неоднозначность, "размытость". В результате посетитель поисковика Rambler учится правильно спрашивать, не тратя впустую время, то есть, по сути, прибегает к помощи "коллективного разума".

Механизм ассоциаций "У нас также ищут" интересен любому, кто хочет посмотреть, о чем думают тысячи и тысячи посетителей сети. Это инструмент для поиска, равно как и источник ценной информации для лингвистов и web-мастеров.

Управление индексированием в поисковой системе Рамблер

Ограничить индексирование страниц ресурсов поисковой системой Rambler можно через robots.txt или META-тег "Robots".Робот поисковика Рамблер называется "StackRambler". Именно он скачивает документы, выставленные в Интернет, находит в них ссылки на другие документы, скачивает вновь и т.д. Робот StackRambler анализирует файл robots.txt и ограничивает сканирование ресурса, согласно его указаний. Через robots.txt можно запретить доступ к определенным каталогам и/или файлам.

Ограничить сканирование страниц ресурса роботом поисковой системы Рамблер так же можно через META-тег "Robots". Тег управляет индексацией конкретной web-страницы. При этом роботам можно запретить не только индексацию самого документа, но и проход по имеющимся в нем ссылкам.

Добавление страниц в поисковой системе Рамблер

Робот Рамблера обходит Сеть по ссылкам и таким образом находит новые ресурсы. Можно заполнить регистрационную анкету. Робот Рамблера самостоятельно посещает только сайты, расположенные в национальных доменах.ru, .su, .ua, .by, .kz, .kg, .uz, .ge. Если сайт расположен в одной из других доменных зон (например, в.com, .net или.org, либо в других национальных доменах), по умолчанию роботы Рамблера не будут посещать страницы таких ресурсов. Для добавления таких ресурсов, представляющих интерес для русскоязычных пользователей, в число сканируемых необходимо обратиться к администратору поисковой системы Рамблер.

Робот Рамблера обходит Сеть по ссылкам и таким образом находит новые ресурсы для индексирования. Также можно заполнить регистрационную анкету в поисковой системе Rambler. Поля этой анкеты - "Название сайта" и "Описание" не используются для поиска. Они предназначены только для прочтения редакторами и используются во внутренних базах данных Rambler.

Робот сканирует страницы сайта в течение суток с момента регистрации (или нахождения ресурса). При этом он сразу же обходит сайт на некоторую глубину (сканирует страницы, на которые ссылается зарегистрированная страница). Скачанные роботом страницы появляются в поисковой базе с некоторой задержкой. Переиндексация полученных документов производится с интервалом приблизительно в две недели.

Индексация в поисковой системе Рамблер

При индексации поисковой системой Рамблер учитывается лишь та информация, которую пользователь может увидеть на странице. Базовые понятия и ключевые для сайта слова целесообразно включать в следующие HTML-теги (в порядке значимости): title h1...h4 b, strong, u Чем чаще слово встречается в этих полях, тем более вероятно, что поисковая система Rambler выдаст ссылку на этот документ ближе к началу списка результатов поиска.

Максимальный размер документа для роботов Рамблера составляет 200 килобайт. Документы большего размера усекаются до указанной величины.

Программа индексирования обрабатывает переадресацию (редиректы), но только в том случае, если перенаправление выполняется в домен.ru или в домены некоторых стран СНГ.

Рамблер обрабатывает все "динамические" страницы с именами вида *.asp*, *.php*, *.pl*, */cgi-bin/* и т. п. для посещаемых сайтов (по данным top100), а также сайтов, содержащих уникальную информацию, полезную пользователям поисковой машины. Для остальных сайтов обрабатывается только часть таких страниц.

Фрагменты HTML, размеченные тегами, Рамблером не индексируются.

Поисковая машина Рамблер умеет извлекать ссылки из объектов flash и потому может обрабатывать сайты, построенные на флэш-технологии. Однако сами тексты flash-объектов пока не индексируются.

При индексации учитывается лишь та информация, которую пользователь может увидеть на странице.

Скрытые поля и все другие поля, кроме, при индексировании сайтов игнорируются. То же самое относится к комментариям в HTML-коде сайта. Не следует также использовать невидимый текст, в котором цвет шрифта совпадает с цветом фона.

Поиск учитывает данные Top100. Специальный робот Рамблера два раза в день добавляет в базу поисковой машины новые страницы со всех сайтов, которые участвуют в рейтинге Top100 и разместили счетчик на своих страницах. После изменения информации в рейтинге Top100 ее обновление в поисковой системе происходит в течение одного-двух дней. Если сайт зарегистрирован в Top100, он будет находиться по некоторым запросам, даже если информация была удалена из индексной базы.

При поиске учитывается информация, полученная из рейтинга Rambler"s Top100, если сайт в нем зарегистрирован. Число показывает, когда была получена эта информация. Информация по Top100 обновляется практически каждый день.

Поисковая система Aport

История поисковой системы Апорт

Официальная презентация "Апорт" состоялась 11 ноября 1997 года. К тому времени в его базе был проиндексирован первый миллион документов, расположенных на 10 тысячах серверов. Создателем поисковой системы Апорт является компания "Агама" - разработчик программного обеспечения для платформ Windows. Надо отметить, что Апорт создавался и продолжает работать под управлением ОС Windows (в отличие от большинства поисковых систем). Лингвистические разработки "Агамы" использовались при создании поисковой машины Апорт, в которой на момент ее создания, учитывалась морфология слов и по желанию клиента выполнялась проверка орфографии запроса.

Впервые поисковая система "Апорт" была продемонстрирована в феврале 1996 года на пресс-конференции "Агамы" по поводу открытия "Русского клуба". Первоначально поисковая система Апорт выполняла поиск только по сайту russia.agama.com.

Официальная презентация поисковой системы "Апорт" состоялась только 11 ноября 1997 года. К тому времени в базе Апорт был проиндексирован первый миллион документов, расположенных на 10 тысячах серверов.

Важнейшими особенностями первой версии "Апорта" являлся перевод запроса и результатов поиска на английский язык и обратно, а также реконструкция всех проидексированных страниц из собственной базы.

В ноябре 1998 года поисковая система "Апорт" была приобретена гражданином Израиля Джозефом Авчуком (с сохранением торговых марок "Апорт" и "Агама"). Реальная сумма сделки составила 55 тысяч долларов.

В октябре 1999 года на компьютерных выставках по обе стороны океана была представлена принципиально новая поисковая система "Апорт 2000", полностью интегрированная с AtRus (ныне "Каталог-Апорт").

"Апорт 2000" стал первым русским поисковиком, построенным на основе выдачи результатов по отдельно взятым сайтам. Для разделения ресурсов на сайты используется информация, которую "Апорту" предоставляет каталог AtRus или сведения, введенные в "Апорт" владельцами ресурсов.

"Апорт 2000" стал первой российской поисковой системой, реализовавший две базовых технологии американской поисковой машины Google. Учет "ранга страницы" (Page Rank), который характеризует ее популярность. Значение ранга вычисляется по количеству ссылок на ресурс из внешнего Интернета. Вес ссылки с популярного сайта выше, чем вес ссылки с менее популярного; ссылки, включающие слова запроса, имеют больший вес, чем, скажем, слово "здесь". Обработка запроса с анализом HTML тегов страниц. Например, текст между тегами h2 имеет больший приоритет, чем между тегами h6.

В "Апорт 2000" также учитывалось вхождение слов запроса в URL. Среди недокументированных особенностей - больший приоритет сайтам, получившим высшую и элитную лигу в каталоге AtRus.

И, наконец, еще одно первенство "Апорт" - использование платной нулевой строки в выдаче (кстати, "Апорт" первым среди наших поисковиков начал покупать такой сервис у AltaVista, которая за небольшую плату выдавала его ссылку первой при запросе "Russian Search"). Однако в "Апорте" нельзя купить не нулевое, а просто более высокое место для своего сайта в результатах поиска.

Организация масштабируемости в архитектуре "Апорт 2000" такова, что можно дробить поисковую базу "Апорта" на несколько отдельных баз, каждый маленький "Апорт" работает на своем компьютере. "Апорт 2000" считает, что весь Интернет поделен на фрагменты. После проведения поиска по этим фрагментам, пользователю интегрируется и выдается общий ответ. Добавлять новые маленькие "апортики" можно путем не очень сложной процедуры. В случаях аварий отдельных машин выдаются несколько отличные от штатных интегральные результаты, что можно время от времени наблюдать.

31 июля 2000 года Golden Telecom купил семейство интернет-проектов "Агама", включающее "Апорт" и AtRus, для включения в "Россию-он-лайн" и околоконтентные проекты.

В мае 2001 года окончательно завершилась сделка по смене хозяина "Апорт" самого "Golden Telecom", новым владельцем стал "Альфа-Банк". NASDAQ к тому времени переживал бурный спад и шансов перепродать Интернет проекты за приемлемую сумму не было. Это обусловило решение новых хозяев "Golden Telecom" минимизировать расходы на поддержку дорогостоящих Интернет проектов.

Управление индексированием в поисковой системе Апорт

При просмотре содержимого сервера для индексирования Апорт проверяет файл robots.txt и поддерживает мета-теги Robots. При просмотре содержимого сервера для индексирования Апорт проверяет файл robots.txt. Таким образом, можно ограничить "деятельность" Апорта на сервере. Поисковый робот Апорт имеет имя Aport. Именно это имя может быть использовано для ограничения индексирования через robots.txt.

Также поисковая система Апорт поддерживаются мета-теги Robots, позволяющие, установить правила поведения робота на индивидуальной странице сайта и в случае, если нет возможности изменять файл robots.txt на сервере.

Добавление страниц в поисковой системе Апорт

Регистрация сайта в Апорте производится со страницы Добавить URL. Добавлять следует только корень сайта. Регистрация сайта в Апорте производится со страницы http://catalog.aport.ru/rus/reg/add.ple. Эта страница доступна по ссылке Добавить URL почти с любой страницы Апорта. Добавлять следует только корень сайта, остальные страницы будут найдены Апортом по ссылкам.

Апорт является поисковой системой по российскому Интернету, поэтому добавлять в нее можно русскоязычные сайты, а также сайты имеющие непосредственное отношение к российскому Интернету. В случае отказа в автоматическом добавлении сайта (например, если поисковый робот не найдет на его корневой странице русскоязычного текста) можно обратиться с просьбой о добавлении сайта по e-mail: [email protected]

Индексация ресурсов поисковой системой Апорт

Апорт - полнотекстовая поисковая система. Это означает, что она индексирует все слова, которые бы увидел на экране человек, просматривая конкретную страницу сервера. Апорт периодически проверяет имеющиеся в его базе сайты и приводит свою базу в соответствие с произошедшими там изменениями. Период проверки в значительной степени зависит от конкретного сайта (учитывается его популярность, динамичность обновления по данным собранным апортом при предыдущих заходах на сайт и ряд других факторов).

С момента добавления сайта в поисковую систему Апорт до момента его появления в поисковой базе проходит от двух-трех дней до двух недель. В отдельных случаях, (например, в случае нестабильной связи с добавленным сайтом), это время может оказаться несколько больше.

Апорт индексирует все статические документы (в Url которых не встречается символ "?"), найденные его поисковым роботом по ссылкам на сайте. Это правило может не соблюдаться для больших по объему сайтов, а также для сайтов, замеченных в применения поискового спама.

Документы, содержащие в Url символ "?", индексируются поисковой системой Апорт выборочно. При этом используется квотирование количества таких документов для каждого сайта. Размер квоты вычисляется автоматически в зависимости от ряда условий, в частности от индекса цитируемости сайта, и может, в частности, быть для некоторых сайтов нулевым.

Необходимо учитывать, что полная индексация сайта может происходить постепенно, а также то что содержание базы является прерогативой поисковой системы и каких-либо гарантий по индексации (а также сохранению в индексе уже проиндексированных документов) Апорт не дает.

Апорт - полнотекстовая поисковая система. Это означает, что она индексирует все слова, которые бы увидел на экране человек, просматривая конкретную страницу сервера. В результате любое слово из текста документов может служить критерием последующего поиска.

Для документов HTML кроме основного текста документа индексируются также: заголовок документа (TITLE), ключевые слова (META KEYWORDS), описания страниц (META DESCRIPTION) и подписи к картинкам (ALT). Кроме того, Апорт индексирует как принадлежащие документу, тексты гиперссылок на этот документ с других страниц, находящихся, как внутри сайта, так и за его пределами, а также составленные (или проверенные) редакторами описания сайтов из каталога Апорт.

Поисковая система Google

Данная поисковая система со временем становится все лучше и популярнее, но она уступает вышеперечисленным поисковым системам. По данным опросов, данным Google обеспечивает около 10% всех поисковых запросов Рунета. На регистрацию Google принимает сайты любого домена, то есть он не ограничивается только зоной ru. Это, безусловно, очень большое преимущество перед конкурентами (в России). Но Google больше не имеет никаких преимуществ и даже не может выдавать в результатах поиска слова, которые являются синонимами запроса. То есть, если мы задаем в Google поисковый запрос "анекдот", то Google будет искать на сайтах именно это слово, в то время как Яндекс, Рамблер и Апорт помимо этого слова будут учитывать на сайтах и слова-синонимы, например, "анекдоты", а Google этого сделать не может.

Зарубежные поисковые системы

AOL Search
Achla
AltaVista
AltaVista (Digital)
Austria NetGuide
AustroNaut
Alltheweb
AntiSearch
Ask Jeeves
AskAlex
Anzwers
AusIndex
AustriA-WWW
Baku Pages
Brit Index
Compnet
Copernic
Cyber411
Direct Hit
Daypop.com
Excite
England Online
Freeality
FTP Search
GBP Great British Pages
HotBot
HandiLinks
Infoseek
InfoMarket
Infomine
InterSearch Austria
Interview
Inktomi
Inforia
Google
Guide.at
LookSmart
Lycos
Light Search
Libanis.com
Magellan
MaxiSearch
MSN Search
Mixcat.com
Meta-ukraine.com
Metacrawler
Northern Light
Netscape Search
Open Directory
Open Text
Qango
Raging Search
RealNames
Search.com
SeachUk
Search.lv
Search.iwon.com
Submitit.bcentral.com
Superpromo.com
Search.escapeartist.com
Surfgopher.com
Slider.com
Uk Index
UkDirectory
UkMax
Whatuseek.com
WebCrawler
Web Wombat
Yahoo
2kcity.com

Архитектура метапоисковых систем

Введение

В данной статье на примере метапоисковой системы MetaPing рассматривается архитектура метапоисковых систем и основные принципы их работы и построения.

Что такое метапоисковая система?

Ни для кого не секрет, что всемирная сеть Интернет, содержащая постоянно растущий огромный объем динамически изменяющейся информации, развивается небывало бурными темпами. Для того, чтобы как-то упорядочить этот непрерывный поток данных, а самое главное, дать возможность пользователям Сети находить нужную информацию, были созданы специальные поисковые системы. Каждая такая система имеет индекс, несущий служебную информацию о содержимом проиндексированных документов, где каждому слову текста соответствует частота его употребления и координаты данного слова в тексте.

Каждая поисковая система имеет только свое собственное, ограниченное ее ресурсами, множество документов, которые доступны для поиска. Ни одна из подобных систем не сможет охватить всех ресурсов Интернет, поэтому в любой момент может возникнуть ситуация, когда информационные потребности пользователя не смогут быть удовлетворены. Как правило, в этом случае пользователь переходит на другую поисковую систему и пытается искать то, что ему нужно, там.

Для решения данной проблемы и расширения возможности поиска, были созданы системы, названные метапоисковыми. Они не имеют собственных поисковых баз данных, не содержат никаких индексов и при поиске используют ресурсы множества поисковых систем. За счет этого полнота поиска в таких системах максимальна и вероятность нахождения нужной информации очень высока.

Принципы работы метапоисковых систем

При проектировании метапоисковой системы нужно решить ряд проблем.

Прежде всего, из полученного от поисковых систем множества документов необходимо выделить наиболее релевантные, то есть соответствующие запросу пользователя. Как правило, создатели метапоисковых систем не совсем оправданно надеются, что поисковые системы, которые они используют, возвращают релевантные результаты поиска, и слишком полагаются на позицию, на которой в данной поисковой системе находится документ.

Этот стандартный подход представлен на рис. 1. В таких системах анализ полученных описаний документов не производится, что может поставить нерелевантные документы, идущие первыми в одной поисковой системе, выше релевантных в другой, чем существенно понизить качество самого поиска. Этот принцип оказался хорошим при создании автором анализатора позиции сайта в поисковых системах, но в целом для систем метапоиска оказался неудовлетворительным.

Рис.1 Стандартная метапоисковая система

При разработке следующего поколения метапоисковых систем были учтены недостатки, присущие стандартным метапоисковым системам. Были созданы системы с возможностью выбора тех поисковых машин, в которых, по мнению пользователя, он с большей вероятностью может найти то, что ему нужно (рис. 2)

Рис. 2. Следующее поколение метапоисковых систем

Кроме этого, такой подход позволяет уменьшить используемые вычислительные ресурсы метапоискового сервера, не перегружая его слишком большим объемом ненужной информации и серьезно сэкономить трафик. Здесь нужно отметить, что в любой системе метапоиска наиболее узким местом в основном является пропускная способность канала передачи данных, так как обработка страниц с результатами поиска, полученными от нескольких десятков поисковых серверов не является слишком трудоемкой операцией, потому что затраты времени на обработку информации на порядки меньше времени прихода страниц, запрошенных у поисковых серверов.

Как пример систем, имеющих подобную организацию, можно назвать Profusion, Ixquick, SavvySearch, MetaPing.

Как же все это работает?

Ниже будет описан принцип работы метапоисковой системы MetaPing, разработанной автором этой статьи, однако общие принципы будут верны и для остальных систем этого класса (см. рис. 2).

Начнем со стартовой страницы данной метапоисковой системы. Обычно интерфейс такой системы предельно упрощен и сразу же позволяет понять, что, где и как здесь можно искать. В нашем случае (MetaPing) поиск возможен по трем областям поиска: по России, по Украине и по всему миру, при этом имеется возможность искать все, отметив поиск по интернету, или сузить область поиска и искать конкретно объявления, новости, файлы и рефераты (рис. 3).

Рис.3 Стартовая страница MetaPing
Пользователь выбирает, скажем, поиск по России, и вводит, например, такой запрос: "лучшие поисковые системы" (рис. 4).

Рис. 4 Страница MetaPing с результатами поиска

После этого запрос ретранслируется указанным российским поисковым системам (в нашем случае это Рамблер, Апорт, Lycos и Google). Следует отметить, что Google, хотя и не является российской поисковой системой, в настоящее время успешно с ними конкурирует как по полноте баз, так и по качеству поиска, и именно поэтому он здесь оказался. Кстати, внимательный читатель наверняка отметил отсутствие самой крупной российской поисковой системы Яндекс. На момент запуска MetaPing Яндекс тоже здесь тоже присутствовал, но после известного скандала его пришлось убрать.

Для передачи запроса к поисковой системе используется специальный метапоисковый агент, который отвечает не только за процесс ретрансляции запроса и приема страниц, но и за то, чтобы запрос был передан в правильной кодировке, принятой в каждой из выбранных поисковых систем, иначе будет получен совершено другой набор описаний документов или не будет получен вовсе, что негативно скажется на качестве поиска.

После обработки полученного запроса каждая система возвращает метапоисковому агенту множество описаний и ссылок на документы, которые считает релевантными данному запросу.

Как среди этого множества выбрать именно то, что нужно пользователю?

В начале этой статьи уже упоминался стандартный подход, который используется большинством систем метапоиска и состоит в том, чтобы просто расположить полученные ссылки по порядку их следования в результатах поиска каждой из поисковых систем. При этом, если в разных поисковых системах был найден один и тот же сайт, то ценность его для пользователя, естественно, существенно повышается.

Подход, безусловно, правильный, но что делать в том случае, если одна система, к примеру, индексирует динамически генерирующиеся страницы, а другая нет? У них различные множества проиндексированных документов, различная полнота баз, следовательно, запрошенная пользователем информация может быть найдена в одной системе и может быть не найдена в другой. В этом случае пользователь может получить несколько действительно релевантных ссылок от одной системы, которые будут перемешаны с абсолютно нерелевантными из другой (например, в случае, когда фраза целиком не найдена, поиск идет по одному из ключевых слов запроса). В результате, пользователю вручную приходится отбирать релевантные ссылки и велика вероятность того, что покопавшись в подобном "винегрете", он попросту уйдет и уже никогда не вернется.

Есть ли какой-либо способ решить эту проблему? Конечно есть. Нужно с полученным от поисковых систем множеством описаний документов сделать то же, что делают они сами с этими документами, то есть определить частоты ключевых слов в каждом заголовке и описании и попытаться самостоятельно определить рейтинг каждого из них.

Именно по такому принципу построена метапоисковая система MetaPing, где реализован смешанный алгоритм обработки информации. Автором были разработаны специальные программы для анализа полученных данных, благодаря которым на первом этапе происходит ранжирование множества описаний полученных документов, на втором ранг дополнительно корректируется согласно месту, на котором находится документ, и общему количеству документов, найденных по запросу (это позволяет оценить полноту поисковых баз конкретной системы).

Подобная обработка позволяет не только убирать документы, в описании которых вообще нет ключевых слов как потенциально нерелевантные запросу, но и находить строгое соответствие в том случае, если все ключевые слова встречаются в описании документа полностью, что неизмеримо повышает качество и точность поиска.

Метапоисковые системы Inforian Quest 98 и Copernic 98

Inforian Quest 98 (IQ - удачная аббревиатура, не правда ли?). Продукт компании Inforian, плод коллективных усилий японских, китайских и американских программистов.

Вес около 3.5Mb, требует до 5Mb свободного дискового пространства. Стоимость полной версии 25 долларов США, shareware - 1 месяц.

Использует два стиля: Essence, для опытных пользователей, и Wizard, для начинающих. Оба стиля отличает чрезвычайная простота. Inforian Quest 98 позволяет осуществлять быстрый метапоиск по семи наиболее популярным серверам (Yahoo!, Altavista, InfoSeek, Excite, HotBot, OpenText, WebCrawler), обращаться дополнительно почти к 200 поисковым серверам Америки, Европы, Японии и Китая, плюс производить опрос внутри этих баз данных по семи тематическим разделам Искусство и Развлечения (Arts & Entertainment), Новости и Бизнес (News & Business), Компьютеры и Интернет (Computers & Internet), Программное обеспечение и файлы (Software & FTP), Группы новостей (Usenet (Discussion Group)), Научные технологии (Technology), Адреса и телефоны (Yellow Pages). Есть надежда на включение в ближайшее время в список "обыскиваемых" серверов израильских и российских клиентов.

В зависимости от степени Вашего долготерпения рекомендуется настроить время ожидания (wait for...) выдачи результатов поиска (минимум - 1 секунда, максимум - почти 4 месяца, рекомендовано - 1-2 минуты) и указать предельное количество сообщений от каждого найденного сайта (links per site) (по умолчанию, 10). Если Вы хотите получать исключительно свежую информацию и готовы ради этого немного пожертвовать скоростью поиска, - откажитесь от использования proxy-сервера. При желании можно легко изменить язык интерфейса с английского на немецкий, французский или испанский, если же Ваш компьютер не только собран, но и начинён программным обеспечением дальневосточными умельцами, - можно попробовать японский или китайский интерфейс. Поражает великолепно исполненный "подсказчик", перейти к которому можно, нажав на клавиатуре клавишу F1 или по сценарию Help --> Help Topics.

Не меньшей популярностью на сегодняшний день пользуется и Copernic 98 - метапоисковая система от ATC (Agents Technologies Corporation). Главное достоинство программы - отсутствие необходимости платить за основную версию, время пользования не ограниченно. Данная программа превосходит своего конкурента как лёгкостью (около 2.5Mb), так и объёмом опрашиваемого при поиске информационного пространства. В обойму основных поисковых серверов добавлены, по сравнению с конкурентом, NetFind, LookSmart, Lycos, Magellan, хотя и забыт весьма перспективный OpenText. Примечательно, что разыскивая с помощью Copernic 98 кого-либо из Ваших знакомых в Сети, Вы используете не только ресурсы традиционных Who Where?, BigFoot, Four11, но и базу данных "героя нынешнего сезона", компании Mirabilis. Тематическим каталогом, содержащим около 20 разделов и аккумулирующим информацию свыше 100 поисковых систем, можно пользоваться, если Вы избрали версию "plus" (30 дней бесплатно, понравится, доплатите 30 долларов США). На сегодняшний день в разработке находится так называемый Channel Development Kit, который позволит Вам самостоятельно добавлять к списку любую поисковую систему. Если при этом Copernic не будет считать ошибочной поисковую фразу на русском или иврите, - в нашей стране этому направлению обеспечена немалая популярность.

При каждой поисковой операции Вы можете изменять максимальные значения общего числа результатов поиска и количества сообщений в отдельном поисковом канале (Search --> New --> Parameters --> Custom Search). Можно подключить к работе proxy-сервер (View --> Options --> Connection --> Proxies).

Более тысячи лет назад святые Кирилл и Мефодий совершили стратегическую ошибку, взяв за основу русской азбуки греческие буквы. Одно из самых стркш- ных ее последствий - необходимость терять время на переключение регистра клавиатуры - проявилось лишь несколько десятилетий назад, когда были изобретены компьютеры. Другое, гораздо менее значимое, - необходимость писать отдельную главу о поиске в русскоязычных документах.

Попробуем узнать подробнее о происхождении русской письменности, на этот раз с помощью поисковой системы Рамблер. В разделе «Рейтинги» главы 1 мы уже говорили о Рамблере как о рейтинге российских сайтов. В этом разделе уместно будет сказать, что Рамблер - не только и не столько рейтинг, сколько автоматический индекс, примерно такой же, как и Апорт. Действительно, на главной страничке Рамблера в самом верху есть поле Поиск и кнопка Найти! для отправки запроса.

Чтобы найти документы, где рассказывается о создании русской письменности, разумно ввести в поле поиска слова «история», «русской», «письменности», окружить введенные слова кавычками, чтобы задать поиск фразы, и нажать кнопку Найти!. Фрагмент результатов поиска.

Как видим, уже первый (из 234 найденных) документ, судя по его заголовку, а также началу, показанному Рамблером, дате последнего изменения (18 мая 2005 года) и размеру (150 Кбайт) вполне отвечает нашим ожиданиям. Возможно, и остальные 233 страницы что-то говорят о русской письменности. Но вес ли - это документы? Не пропущено ли что-то важное? Чтобы правильно ответить на эти вопросы, нужно знать язык запросов Рамблера.

Пока нам известно, что Рамблер ищет фразу, когда слова в поле поиска обрамлены кавычками. Важно понимать, что слова, составляющие фразу, Рамблер оставляет неизменными. Рамблер найдет документы, содержащие фразу «история русской письменности», но не найдет фразы «истории русской письменности». Для поиска всех грамматических форм слов необходимо освободить их от кавычек, введя в поле поиска «Кирилл», «Мефодий», «русская», «письменность».

По такому запросу Рамблер находит уже 4229 сайтов и более 34 тысяч документов. Фрагмент результатов поиска. Как видим, Рамблер выделил полужирным шрифтом слова «русской», «письменности», то есть между словами «русская» и «русской» не делается различий, все грамматические формы считаются, одним словом. Но стоит заключить слово в кавычки, и Рамблер станет искать в точности то, что указано. По следующему запросу будут найдены документы, где есть слова «русская», «письменность» и любые грамматические формы слов «Кирилл» (например, «Кирилла») и «Мефодий»:

Кирилл Мефодий «русская» “письменность»

По умолчанию Рамблер ищет документы, где есть все разделенные пробелами слова. Но практически все современные поисковые системы пытаются догадаться, что же имел в виду ищущий, поэтому лучше явно указывать Рамблеру, что он должен сделать. Если нужно найти все слова, между ними ставится логический оператор AND. По следующему запросу будут найдены документы, где есть оба слова (с учетом их изменчивости):

Кирилл AND Мефодий

Но если нужно найти одно из нескольких слов, используйте оператор OR, например:

(письменность OR алфавит OR азбука) AND русская AND «кирилл» AND «мефодий»

Этот запрос означает, что ищутся страницы, где обязательно есть слова «кирилл», «мефодий», одна из грамматических форм слова «русская» и одно из слов: «письменность», «алфавит», «азбука» (с учетом их грамматической изменчивости). В последнем примере слова «кирилл» и «мефодий» написаны со строчной буквы, потому что Рамблер все равно перед тем, как обратиться к своему индексу, превращает прописные буквы в строчные.

Кроме операторов AND и OR в Рамблере есть еще оператор NOT, позволяющий найти документы, где нет заданного слова (фразы). По следующему запросу будут найдены страницы, где есть слова «история», «русской», «письменности» (с учетом их грамматической изменчивости), но нет слова «Кирилл»: история AND русской AND письменности NOT Кирилл

С помощью оператора NOT можно составлять очень сложные запросы, например: история AND русской AND письменности NOT (Кирилл OR Мефодий)

Этот запрос командует Рамблеру искать страницы, где есть все три слова, соединенные оператором AND, и нет ни слова «Кирилл», ни слова «Мефодий». Понять это можно с помощью такого запроса к поисковой системе:

Кирилл OR Мефодий

В этом случае нашлись бы документы, где есть либо слово «Кирилл», либо слово «Мефодий», либо оба эти слова. Очевидно, все документы, проиндексированные поисковой системой, можно разделить на две части: первая отвечает запросу Кирилл OR Мефодий, вторая - нет. Так вот, оператор NOT как раз и командует поисковой системе показать эту вторую часть. Очевидно, в этой части как раз и собраны страницы, в которых нет ни слова «Кирилл», ни слова «Мефодий».

Нам осталось познакомиться с режимом расширенного поиска, настроить который можно, выбрав мышыо ссылку Расширенный поиск, размещенную под кнопкой Найти!. Бланк pacuiiipeHHoro запроса.

В поле поиска можно вводить слова, связанные логическими операторами (при этом в группе Искать слова запроса должен быть установлен переключатель все), а можно просто указывать, ищется ли хотя бы одно из выбранных слов или точная ([фаза. Можно указать, где будет идти поиск - в самих документах, в названиях (title) или в текстах ссылок. Можно ограничить расстояние между словами; это, конечно, не заменит поиск фраз, но может иногда помочь. Можно задать поиск только на определенных сайтах (Искать документы только на следующих сайтах). Можно искать документы определенного типа, задавая Язык документа и Формат документа, созданные в указанный промежуток времени (Дата документа). Наконец, можно сортировать страницы не только по их соответствию запросу (релевантности). но и по дате, а также задать поиск документов, не содержащих заданных слов (Исключить документы, содержащие следующие слова).

Работа добавлена на сайт сайт: 2016-03-05

" xml:lang="ru-RU" lang="ru-RU">МИНИСТЕРСТВО ОБРАЗОВАНИЯ и науки РОССИЙСКОЙ ФЕДЕРАЦИИ

" xml:lang="ru-RU" lang="ru-RU">Белгородский государственный университет

" xml:lang="ru-RU" lang="ru-RU">Старооскольский филиал

реферат

" xml:lang="ru-RU" lang="ru-RU">Поисковые системы интернета

" xml:lang="ru-RU" lang="ru-RU">на примере системы « " xml:lang="en-US" lang="en-US">Rambler " xml:lang="ru-RU" lang="ru-RU">»

;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">Выполнил: Дёменко Але " xml:lang="ru-RU" lang="ru-RU">к ;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">сей.

;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">студент 150 группы

;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">специальности «Педагог " xml:lang="ru-RU" lang="ru-RU">и ;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">ка и методика начального обуч " xml:lang="ru-RU" lang="ru-RU">е ;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">ния»

;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">Проверила: Карнаухова М. В.

;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">Старый Оскол - 2004

" xml:lang="ru-RU" lang="ru-RU">ВВЕДЕНИЕ……………………………………………………………….……………………3

" xml:lang="ru-RU" lang="ru-RU">Язык поисковых запросов……………………………………………………....…3

" xml:lang="ru-RU" lang="ru-RU">Регистр……………………………………………………………………………………….3

" xml:lang="ru-RU" lang="ru-RU">Операторы………………………………………………………………………………….3

" xml:lang="ru-RU" lang="ru-RU">Кавычки……………………………………………………………………………………..4

" xml:lang="ru-RU" lang="ru-RU">Скобки………………………………………………………………………………………..4

" xml:lang="ru-RU" lang="ru-RU">Метасимволы…………………………………………………………………………….4

" xml:lang="ru-RU" lang="ru-RU">Применение языка запросов…………………………………………………..….4

;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">Морфология……………………………………………………………………………….5

;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">Стоп-слова………………………………………………………………………………...5

;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">Ограничение расстояния………………………………………………………….5

;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">Ненайденные слова…………………………………………………………………..5

;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">Специальные операторы…………………………………………………………..5

;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">Комфортный поиск…………………………………………………………………...5

;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">Как включить панель ссылок…………………………………………………..6

;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">Как сделать, чтобы Rambler находил мои документы?…………..6

;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">Как управлять индексированием сайта, Использование файлов robots.txt, Роботы и файл robots.txt………………………...7

;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">Размещение файла robots.txt…………………………………………………8

;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">Формат файла robots.txt…………………………………………………………8

;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">Группы инструкций для отдельных роботов: User-agent……..…8

;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">Пустые строки и комментарии………………………………………………..9

" xml:lang="ru-RU" lang="ru-RU">Использование META-тегов "Robots"……………………………………….9

;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">Определение позиции сайта в результатах поиска по заданному запросу……………………………………………………………….…9

;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">Принципы работы поисковой машины Рамблер………………….…9

" xml:lang="ru-RU" lang="ru-RU">Заключение………………………………………………………………………….….16

Введение

Здесь описаны:

Язык поисковых запросов: что и как можно написать в поисковой строке;
Применение языка запросов: как поисковая машина Рамблера обрабатывает запрос;
Расширенный поиск: как искать в Рамблере более эффективно, пользуясь страницей Расширенного поиска;
Комфортный поиск: как установить специальную кнопку для поиска в Рамблере прямо на панель браузера.

Как сделать, чтобы Rambler находил мои документы;
Как управлять индексированием сайта;
Ответы на часто задаваемые вопросы.

Язык поисковых запросов

Поисковый запрос может состоять из одного или нескольких слов, в нем могут присутствовать знаки препинания. Составлять простые запросы можно и не вдаваясь в тонкости языка запросов. Так, если ввести в поисковую строку несколько слов без знаков препинания и логических операторов, будут найдены документы, содержащие все эти слова (причем на ограниченном расстоянии друг от друга). Знание и правильное применение языка запросов поисковой машины поможет сделать поиск на Рамблере быстрым и эффективным.

Регистр

В общем случае, регистр написания поисковых слов и операторов значения не имеет, то есть дом и ДОМ, Not и nOt воспринимаются одинаково. И лишь иногда, в целях повышения качества поиска, регистр слов поискового запроса принимается во внимание.

Например, если запрос состоит из двух, трех или четырех слов, каждое из которых написано с большой буквы, то предполагается поиск по имени собственному, и автоматически производится изменение ограничения расстояния между словами запроса со значения по умолчанию на величину (n-1)*2, где n - количество слов запроса. Это позволяет находить группу слов запроса, внутри которой есть не более одного "лишнего" слова или знака препинания, например "Баден-Баден", "А. Пушкин", "Федор Михайлович Достоевский".

Операторы

Запрос, состоящий из нескольких слов, может содержать операторы. Поиск операторов в документе не производится, они служат лишь инструкцией поисковой машине. Все операторы поисковой машины бинарные, то есть имеют левую и правую часть, каждая из которых также является запросом (по умолчанию состоящим из одного слова). Для изменения сферы действия операторов (группировки нескольких слов запроса в аргумент оператора) применяются скобки и кавычки.

Два запроса, соединенные оператором AND (логическое И) образуют сложный запрос, которому удовлетворяют только те документы, которые одновременно удовлетворяют обоим этим запросам. Иными словами, по запросу "собака AND кошка" найдутся только те документы, которые содержат и слово "собака" , и слово "кошка" .

Сложному запросу, состоящему из двух запросов, соединенных оператором OR (логическое ИЛИ) удовлетворяют все документы, удовлетворяющие хотя бы одному из этих двух запросов. По запросу "собака OR кошка" найдутся документы, в которых есть хотя бы одно из слов "собака" или "кошка" (либо оба эти слова вместе).

Оператор NOT (логическое И-НЕ) образует запрос, которому отвечают документы, удовлетворяющие левой части запроса и не удовлетворяющие правой. Так, результатом поиска по запросу "собака NOT кошка" будут все документы, в которых есть слово "собака" и нет слова "кошка" .

Если оператор явно не указан, используется оператор по умолчанию AND: находятся только документы, содержащие все слова запроса. Так, запрос "информация технологии кредит" будет истолкован как "информация AND технологии AND кредит" . На странице Расширенного поиска оператор по умолчанию можно заменить на OR (Искать слова запроса: хотя бы одно).

Каждый из операторов имеет сокращенное обозначение:

Оператор	Сокращенное обозначение
AND
OR
NOT

Запрос из нескольких слов, перемежающихся операторами, будет истолкован в соответствии с их приоритетом. Операторы AND и NOT традиционно имеют более высокий приоритет, поэтому запрос из нескольких слов при обработке сначала группируется по операторам AND и NOT, и лишь потом по операторам OR. Изменить порядок группировки можно использованием скобок.

Кавычки

Для поиска цитат можно использовать двойные кавычки. Слова запроса, заключенного в двойные кавычки, ищутся в документах именно в том порядке и в тех формах, в которых они встретились в запросе.

Таким образом, двойные кавычки можно использовать и просто для поиска слова в заданной форме (по умолчанию слова находятся во всех формах). Например, запросу "самолет "заправился" посадка" удовлетворяет документ, содержащий текст "... самолет совершил посадку и заправился..." , и не удовлетворяет документ, содержащий ".. самолет совершил посадку, чтобы заправиться..." .

Скобки

При построении запросов иногда возникает необходимость объединения слов запроса в группы, которые будут аргументами некоторого оператора. Такие группы заключаются в скобки.

Часть запроса, заключенная в скобки, сама является запросом, и на нее распространяются правила языка построения запросов. Использование скобок позволяет строить вложенные запросы и передавать их операторам в качестве аргументов, а также перекрывать приоритеты операторов, принятые по умолчанию.

Если запрос без скобок "машина самолет | аэродром" эквивалентен запросу "машина AND самолет OR аэродром" и, в соответствии с приоритетами операторов, означает "найти документы, содержащие либо слова "машина" и "самолет" , либо слово аэродром, то запрос со скобками "машина (самолет | аэродром)" равносилен запросу "машина AND (самолет OR аэродром)" , что означает "найти документы, содержащие слово "машина" и одно из слов "самолет" или "аэродром" ".

Метасимволы

Рамблер пока не поддерживает поиск строк с использованием метасимволов ("*" , "?" ), которые обычно используются в значении "любая подстрока" и "произвольный одиночный символ" соответственно. Тем не менее, эти операторы зарезервированы для подобного использования в будущем.

Применение языка запросов

Каждый запрос, адресованный поисковой машине Рамблера, обрабатывается в соответствии с правилами языка запросов. Некоторые слова и символы трактуются как операторы языка запросов и обрабатываются специальным образом. Фактически, языком запросов описывается некая формула, которая используется при поиске - каждый из документов "сопоставляется" с ней, и результатом поиска являются только те документы, которые ей удовлетворяют.
Например, запросу "самолет" удовлетворяют все документы, в которых хотя бы раз встретилось слово "самолет" в любой форме. Запросу, состоящему из нескольких слов, удовлетворяют документы, содержащие каждое из этих слов в любой форме (при некоторых условиях). Вопрос соответствия документа более сложному запросу определяется логикой операторов и конструкций языка запросов.

Морфология

По каждому слову запроса поиск ведется с учетом правил словоизменения соответствующего языка. Рамблер понимает и различает слова русского и английского языков - по умолчанию, поиск ведется по всем формам слова.

Например, при поиске по слову "человек" будут также найдены документы, содержащие слова "человеку" , "человеком" , "человека" и даже "люди" . Чтобы провести поиск только по одной определенной форме слова, нужно взять его в двойные кавычки или воспользоваться поиском точной фразы в расширенном поиске.

Стоп-слова

Некоторые слова и символы по умолчанию исключаются из запроса в связи с их малой информативностью. Это так называемые стоп-слова - самые частотные слова русского и английского языков, например, предлоги, частицы и артикли. Присутствие этих слов может замедлить поиск и негативно повлиять на полноту результатов. Есть возможность обозначить необходимость этих слов в запросе, взяв запрос в двойные кавычки или воспользовавшись поиском точной фразы в расширенном поиске.

Ограничение расстояния

Если запрос составлен из одного или нескольких слов без применения операторов и конструкций языка запросов, то будут найдены документы, в которых встречаются все слова запроса. При этом для каждого запроса всегда существует так называемое ограничение контекста - положительное число, по умолчанию равное расстоянию в 40 слов. Документ, в котором встретились все слова запроса, будет выдан только в том случае, если расстояние в словах между вхождениями слов запроса будет меньше этого числа. Например, по запросу "красная армия" будут найдены те документы, в которых слова "красная" и "армия" хотя бы один раз встретятся менее чем в 40 словах друг от друга.

Значение ограничения контекста можно изменять конструкцией "(число, запрос)" , где число - любое положительное число, запрос - любой корректный с точки зрения поисковой машины запрос, состоящий более чем из одного слова (очевидно, ограничение расстояния между словами в случае однословного запроса не имеет смысла). Таким образом, по запросу "(2, красная армия)" найдутся только те документы, в которых между словами "красная" и "армия" хотя бы раз не стоит ни одного слова (поскольку лишь в случае их непосредственного соседства разница в порядковых номерах слов меньше 2, т.е. равна 1)

Ненайденные слова

Если запрос состоит из нескольких слов, и при этом некоторые из них вообще не удалось найти в Интернете, то выдаются результаты поиска по частичному запросу, из которого отсутствующие в Интернете слова исключены. При этом на странице результатов поиска выдается соответствующая диагностика.

Специальные операторы

Рамблер позволяет искать страницы, на которых размещены счетчики Top100, To p Shop, TopList, SpyLog, а также HotLog. Для того, чтобы найти в интернете все страницы, на которых размещен счетчик с заданным идентифтикатором, используйте оператор ${counter=ID} , где counter - название счетчика (top100, topshop, toplist, spylog или hotlog), а ID - номер счетчика (идентификатор ресурса).

Пример : для того, чтобы найти в Интернете все страницы раздела Рамблер-Открытки (идентификатор Top100 - 193680), подайте Рамблеру запрос ${top100=193680}.

;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">Комфортный поиск

Для облегчения поиска в Internet можно установить на панель броузера (Netscape или Internet Explorer версии не ниже 4) специальную кнопку поиска в Rambler. Как это сделать?

Перетащить мышкой одну из ссылок на специальной страничке в поле панели ссылок.

После этого на панели появится кнопка "Искать в Rambler". В броузере должно быть разрешено выполнение JavaScript. Если во время просмотра документа выделить текст, который надо задать в качестве поискового запроса, и нажать на эту кнопку, запрос будет передан Rambler . Результаты поиска будут выведены в другом окне. Длина запроса ограничена 96 символами

Как включить панель ссылок

Если панель ссылок отключена, то включить ее можно следующим образом:

Netscape

В меню "View" отметьте "Show Personal Toolbar"

Internet Explorer

В меню "View" (или "Вид") определите "ToolBars" ("Панели инструментов"). Затем пометьте "Links" ("Ссылки")

;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">Как сделать, чтобы Rambler находил мои документы?

Прежде всего надо заполнить регистрационную анкету в поисковой системе Rambler. Это будет гарантией того, что роботы Рамблера узнают о сайте и скорее начнут его индексацию. Анкета находится по адресу http://www.rambler.ru/doc/add_site_form.shtml.
Автоматически роботы Rambler сканируют сайты, находящиеся в следующих доменах первого уровня:

Российская Федерация: .ru, .su
Украина: .ua
Белоруссия: .by
Казахстан: .kz
Киргизия: .kg
Узбекистан: .uz
Грузия: .ge

и игнорируют сайты из других доменов.

Если данный сайт находится вне названных доменов (например, в зонах .com, .org, .net ), но существенная часть сайта содержит русскоязычные материалы или он может представлять интерес для русскоязычной аудитории Рамблера, можно отослать письмо на адрес [email protected] с просьбой включить сайт в число сканируемых, либо заполнить форму обратной связи. Сотрудники Рамблера рассмотрят эту просьбу и примут решение о целесообразности такого включения.

Рекомендуется зарегистрировать сайт в рейтинге Top100 и расставить счетчик на всех страницах сайта. Анкета, заполняемая при регистрации в этом рейтинге, индексируется ежедневно, а специальный робот Рамблера дважды в день пополняет базу поисковой машины новыми страницами, на которых размещен счетчик. Таким образом, включение сайта в Тор100 - это самый быстрый способ попасть в результаты поиска!
При заполнении полей анкеты "Название сайта" и "Описание" не следует вводить в них длинные перечни ключевых слов. Эти поля все равно пока не используются для поиска. Название и описание должны быть предназначены для прочтения человеком, так как эти поля используются в наших внутренних базах данных и просматриваются редакторами.
Рамблер умеет извлекать гиперссылки из объектов Macromedia Flash. Если сайт имеет заставку или навигационные панели, выполненные c использованием этой технологии, Рамблер обработает их, найдет адреса всех страниц сайта и проиндексирует весь сайт. Однако, сами тексты flash-объектов не индексируются. Это решение принято потому, что большая часть таких объектов содержит элементы навигации, заставки, меню и другие фрагменты, очень важные в качестве источника гиперссылок, но малоинформативные как текст. Для сайтов, которые целиком состоят из flash-объектов, рекомендуется создать HTML-копию и зарегистрировать ее в поисковой машине.
Роботы Рамблера при сканировании игнорируют поля и все другие поля , кроме . Это связано с тем, что эта система старается индексировать документ таким, какой он есть (то есть таким, каким его видит пользователь). Не секрет, что зачастую создатели интернет-страниц злоупотребляют этими полями, пытаясь заставить поисковые машины находить документ по запросам, не имеющим к нему прямого отношения. Не следует также использовать невидимый текст (в котором цвет шрифта совпадает с цветом фона). Комментарии в документе роботы Рамблера тоже не сканируют, поэтому использовать их лучше по прямому назначению. Помните, что каждый комментарий увеличивает размер документа, а значит, снижает вероятность того, что документ будет просмотрен пользователем до конца.
Обратите внимание на заголовки и выделения в документе. Базовые понятия и ключевые для данного сайта слова целесообразно включать в следующие HTML-теги (в порядке значимости):

<br><h1>...<h4><br><b>, <strong>, <u> </p> <p>Чем чаще слово встречается в этих полях, тем более вероятно, что поисковая система Rambler выдаст ссылку на Ваш документ ближе к началу списка результатов поиска. Конечно, использование этих тегов должно органично сочетаться с дизайном Вашего сайта. </p> <ol><li><span>С точки зрения поиска, использование фреймов в документе не приветствуется. Это не означает, что роботы не умеют сканировать фреймы. Роботы Rambler прекрасно справляются с конструкциями фреймов, однако наличие лишнего этажа ссылок (от головного навигационного фрейма к "содержательным") замедляет индексацию. </span></li> </ol><p>Оптимальным является включать в документы с фреймами HTML-тег </span><noframes> <span> с текстом документа и ссылками. Разумеется, это увеличит размер документа, но будет являться актом доброй воли по отношению к пользователям текстовых браузеров (например, Lynx) и поисковым машинам. </p> <ol><li><span>Максимальный размер документа для роботов Рамблера составляет 200 килобайт. Документы большего размера усекаются до указанной величины. Впрочем, размещать в Сети документы такого размера без особой на то необходимости - все равно дурной тон; в любом случае надо ограничивать объем документа разумными рамками. </span></li> <li><span>Роботы Рамблера обрабатывают ссылки типа </span><a href="http://samzan.ru.../imagemap ..."> <span>, однако наряду со ссылкой такого вида хорошо бы поместить в текст документа конструкцию </span><map name="name"> . <span>Это ускорит индексацию документов, указанных в </span>imagemap <span>, и облегчит доступ к документам для обычных браузеров. </span></li> <li><span>При написании документов надо внимательно следить за соблюдением русского/латинского регистров. Часто, например вместо русской буквы "р" используют латинскую "p", вместо русского "с" - латинское "c". Некоторые подобные ошибки индексатор исправляет, но не все. Слова с подобными опечатками теряют информативность. </span></li> </ol><p>Старайтесь не использовать дефисы "-" в качестве символов переноса. При этом слова разбиваются и теряют информативность; кроме того, такие переносы имеют все шансы оказаться у пользователя в середине строки. Помните, что браузер сам осуществляет представление документа согласно текущим установкам каждого конкретного пользователя. </p> <ol><li><span>Часто изменяющиеся (динамические) документы рекомендуется исключить из списка индексируемых, т. к. актуальность этих документов быстро теряется. Осуществить это можно с помощью стандартного для HTTP механизма - посредством файла robots.txt в головной директории Вашего сайта или HTML-тега </span><meta name="robots" ...> . </li> </ol><p>Части документа, не требующие, по Вашему мнению, индексации, можно отделять в документе с помощью тегов </span><noindex> ... </noindex> <span>. Из частей документа, размеченных этими тегами, также не будут выделены ссылки для дальнейшего обхода. </p> <ol><li><span>При задании перекрестных ссылок в документе будьте предельно внимательны, проверьте работоспособность каждой ссылки, иначе роботы (и пользователи!) не смогут добраться до некоторых документов. </span></li> </ol><p>Следует также иметь в виду, что с точки зрения <a href="/windows-10/kak-sdelat-fonom-izobrazhenie-v-html-sokrashchennaya-zapis-vsego.html">HTML записи</a> типа: </p> <p><a href="http://samzan.rudirectory" ...> и <br><a href="http://samzan.rudirectory/" ...> ("слэш" в конце href ) </p> <p>являются разными ссылками. Обычно при запросе по первой ссылке робот получит редирект на вторую, а значит извлечет сам документ при обращении к серверу только на следующем проходе. Тем самым замедлится индексация сайта. </p> <ol><li><span>Необходимо относится к планированию и размещению сайта серьезно, чтобы впоследствии не пришлось забрасывать администраторов поисковых систем письмами с просьбой переиндексировать сайт в связи с его переносом или полным изменением структуры. Поисковые машины - вещь достаточно инерционная, и переиндексация не будет мгновенной. </span></li> </ol><h3><span>;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">Как управлять индексированием сайта </span></h3> <p>Использование файлов robots.txt </p> <p>Роботы и файл robots.txt </p> <p>Рамблер, как и другие поисковые машины, для поиска и индексации интернет-ресурсов использует программу-робот. Робот скачивает документы, выставленные в Интернет, находит в них ссылки на другие документы, скачивает вновь найденные документы и находят в них ссылки, и так далее, пока не обойдет весь интересующий его участок Сети. Называется этот робот </span>StackRambler . </p> <p>Когда робот-индексатор поисковой машины приходит на web-сайт (к примеру, на http://www.rambler.ru/), он прежде всего проверяет, нет ли в корневом каталоге сайта служебного файла </span>robots.txt <span> (в нашем примере - http://www.rambler.ru/robots.txt). </p> <p>Если робот обнаруживает этот документ, все дальнейшие действия по индексированию сайта осуществляются в соответствии с указаниями </span>robots.txt <span>. Можно запретить доступ к определенным каталогам и/или файлам своего сайта любым роботам-индексаторам или же роботам конкретной поисковой системы. </p> <p>Правда, инструкциям файла </span>robots.txt (как и meta-тегов Robots <span>, см. ниже) следуют только так называемые "вежливые" роботы - к числу которых робот-индексатор Рамблера, разумеется, относится. </p> <p>Размещение файла robots.txt </p> <p>Робот ищет robots.txt <span> только в корневом каталоге сервера. Под именем сервера здесь понимаются доменное имя и, если он есть, порт. Размещать на сайте несколько файлов </span>robots.txt , размещать robots.txt <span> в подкаталогах (в том числе подкаталогах пользователей типа </span>www.hostsite.ru/~user1/ <span>) бессмысленно: "лишние" файлы просто не будут учтены роботом. Таким образом, вся информация о запретах на индексирование подкаталогов сайта должна быть собрана в едином файле </span>robots.txt <span> в "корне" сайта. Имя </span>robots.txt <span> должно быть набрано строчными (маленькими) буквами, поскольку имена интернет-ресурсов (URI) чувствительны к регистру. Ниже приведены примеры правильных и неправильных размещений </span>robots.txt . </p> <p>Правильные: <span><br>http://www.w3.org/robots.txt<br>http://w3.org/robots.txt<br>http://www.w3.org:80/robots.txt<br>(В данном случае все эти три ссылки ведут на один и тот же файл.)</p><p>Неправильные: <span><br>http://www.yoursite.ru/publick/robots.txt<br>http://www.yoursite.ru/~you/robots.txt<br>http://www.yoursite.ru/Robots.txt<br>http://www.yoursite.ru/ROBOTS.TXT </p> <p>Формат файла robots.txt </p> <p>Пример </p> <p>Следующий простой файл </span>robots.txt <span> запрещает индексацию всех страниц сайта всем роботам, кроме робота Рамблера, которому, наоборот, разрешена индексация всех страниц сайта. </p> <p># Инструкции для всех роботов </span><br>User-agent: * <br>Disallow: / </p><p># Инструкции для робота Рамблера </span><br>User-agent: StackRambler <br>Disallow: </p> <p>Группы инструкций для отдельных роботов: User-agent </p> <p>Любой файл robots.txt <span> состоит из групп инструкций. Каждая из них начинается со строки User-agent, указывающей, к каким роботам относятся следующие за ней инструкции </span>Disallow . </p> <p>Для каждого робота пишется своя группа инструкций. Это означает, что робот может быть упомянут только в одной строке </span>User-agent <span>, и в каждой строке </span>User-agent <span> может быть упомянут только один робот. </p> <p>Исключение составляет строка </span>User-agent: * <span>. Она означает, что следующие за ней Disallow относятся ко всем роботам, кроме тех, для которых есть свои строки </span>User-agent . </p> <p>Инструкции: Disallow </p> <p>В каждой группе, вводимой строкой </span>User-agent <span>, должна быть хотя бы одна инструкция </span>Disallow <span>. Количество инструкций </span>Disallow не ограничено. </p> <p>Строка " Disallow: /dir <span>" запрещает посещение всех страниц сервера, полное имя которых (от корня сервера) начинается с " </span>/dir ". Например : " /dir.html ", " /dir/index.html ", " /directory.html ". </p> <p>Чтобы запрещать посещение именно каталога " </span>/dir <span>", инструкция должна иметь вид: " </span>Disallow: /dir/ <span>". Для того, чтобы инструкция что-либо запрещала, указанный в ней путь должен начинаться с " </span>/ <span>". Соответственно, инструкция " </span>Disallow: <span>" не запрещает ничего, то есть все разрешает. </p> <p>Внимание: <span> точно так же и инструкции " </span>Disallow: * ", " Disallow: *.doc ", " Disallow: /dir/*.doc <span>" не запрещают ничего, поскольку файлов, имя которых начинается со звездочки или содержит ее, не существует! Использование <a href="/windows-10/kakoi-pridumat-parol-iz-8-simvolov-kak-napisat-parol.html">регулярных выражений</a> в строках </span>Disallow <span>, равно как и в файле </span>robots.txt <span> вообще, не предусмотрено. </p> <p>К сожалению, инструкций </span>Allow в файлах robots.txt <span> не бывает. Поэтому даже если закрытых для индексирования документов очень много, все равно придется перечислять именно их, а не немногочисленные "открытые" документы. Надо продумать структуру сайта, чтобы закрытые для индексирования документы были собраны по возможности в одном месте. </p> <p>Пустые строки и комментарии </p> <p>Пустые строки допускаются между группами инструкций, вводимыми User-agent. </p> <p>Инструкция Disallow <span> учитывается, только если она подчинена какой-либо строке User-agent - то есть если выше нее есть строка </span>User-agent . </p> <p>Любой текст от знака решетки " </span># <span>" до конца строки считается комментарием и игнорируется. </p> <p>Использование META-тегов "Robots" </p> <p>В отличие от файлов </span>robots.txt <span>, описывающих индексацию сайта в целом, тег </span><span><meta name="Robots" content="..."> </span><span> управляет индексацией конкретной web-страницы. При этом роботам можно запретить не только индексацию самого документа, но и проход по имеющимся в нем ссылкам. </p> <p>Инструкции по индексации записываются в поле </span>content <span>. Возможны следующие инструкции: </p> <ul><li>NOINDEX <span> - запрещает индексирование документа; </span></li> <li>NOFOLLOW <span> - запрещает проход по ссылкам, имеющимся в документе; </span></li> <li>INDEX <span> - разрешает индексирование документа; </span></li> <li>FOLLOW <span> - разрешает проход по ссылкам. </span></li> <li>ALL - равносильно INDEX, FOLLOW </li> <li>NONE - равносильно NOINDEX, NOFOLLOW </li> </ul><p>Значение по умолчанию : <span><meta name="Robots" content="INDEX, FOLLOW"> </span>. </p> <p>В следующем примере робот может индексировать документ, но не должен выделять из него ссылки для поиска дальнейших документов: </p> <p><META name="ROBOTS" content="index, nofollow"> </p> <p>Имя тега, названия и значения полей нечувствительны к регистру. </p> <p>В поле content <span> дублирование инструкций, наличие противоречивых инструкций и т.п. не допускается; в частности, значение поле </span>content <span> не может иметь вид " </span>none, nofollow ". </p> <h3><span>;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">Определение позиции сайта в результатах поиска по заданному запросу </span></h3> <p>В ходе проверки Рамблер просматривает примерно 650 первых результатов поиска по заданному запросу и ищет в них интересующий пользователя сайт. Если этот сайт найден, результат поиска содержит его позицию в общей выдаче (на странице результатов поиска Rambler"a) и ссылку на наиболее <a href="/tips-for-beginners/relevantnaya-model-relevantnost-informacii-stranic-chto-eto-prostymi.html">релевантную страницу</a> сайта. Если же сайт найти не удалось, выдаются первые 15 сайтов. </p> <h3><span>;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">Принципы работы поисковой машины Рамблер, </span></h3> <p>или как выжить в условиях постоянно растущего Интернета </p> <p>Интернет постоянно растет, так же как растет и число пользователей, которые обращаются с запросами к поисковым системам. Увеличение объема информации и количества запросов, в свою очередь, приводит к повышению требований к скорости работы поисковых машин, качеству поиска и наглядности представления результатов. Так, для того чтобы пользователь остался доволен результатом, на сегодняшний день поисковой системе нужно собрать, обработать, обновить, найти и отсортировать в два раза больше документов, чем год назад. А основная задача поиска как раз и состоит в том, чтобы пользователь был доволен его результатами. </p> <p>Когда пользователь обращается с запросом к поисковой машине, он хочет найти то, что ему нужно, максимально быстро и просто. Получая результат, он оценивает работу системы, руководствуясь несколькими основными параметрами. Нашел ли он то, что искал? Если не нашел, то сколько раз ему пришлось переформулировать запрос, чтобы найти искомое? Насколько актуальную информацию он смог найти? Насколько быстро обрабатывала запрос поисковая машина? Насколько удобно были представлены результаты поиска? Был ли искомый результат первым или сотым? Как много <a href="/useful-programs/how-to-clean-your-computer-of-unnecessary-debris-remove-excess-garbage-from-your-computer.html">ненужного мусора</a> было найдено наравне с полезной информацией? Сможет ли он, вернувшись завтра и дав тот же запрос, получить те же результаты? </p> <p>Для того, чтобы ответы на эти вопросы оставались удовлетворительными, разработчики поисковых машин постоянно совершенствуют алгоритмы и принципы поиска, добавляют новые функции, ускоряют работу системы. В этом реферате мы обратимся к механизму работы поисковой машины Рамблер, и на примере ее устройства продемонстрируем, как достигается повышение качества и скорости поиска в условиях постоянного роста объема информации в сети Интернет. </p> <h3><span>;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">Полнота </span></h3> <p>Полнота - это одна из основных характеристик поисковой системы, которая представляет собой отношение количества найденных по запросу документов к общему числу документов в Интернете, удовлетворяющих данному запросу. Например, если в сети Интернет имеется 100 страниц, содержащих словосочетание "Красная площадь", а по соответствующему запросу было найдено всего 70 из них, то полнота поиска будет 0,7. Чем <a href="/useful-programs/vkontakte-poisk-polnaya-versiya-poisk-po-lyudyam-ot-yandeksa-kak-naiti.html">полнее поиск</a>, тем меньше вероятность, что пользователь не сможет найти нужный ему документ, при условии, что он вообще существует в Интернете. </p> <p>Полнота поиска в большой мере зависит от работы системы сбора и обработки информации. В связи с постоянным ростом количества документов в сети, эта система в первую очередь должна быть масштабируемой. В Рамблере масштабируемость достигается за счет параллельного исполнения задачи произвольным количеством машин. </p> <p>Сбором информации занимается робот-паук, который обходит страницы с заданными URL и скачивает их в базу данных, а затем архивирует и перекладывает в хранилище суточными порциями. Робот размещается на нескольких машинах, и каждая из них выполняет свое задание. Так, робот на одной машине может качать новые страницы, которые еще не были известны поисковой системе, а на другой - страницы, которые ранее уже были скачаны не менее месяца, но и не более года назад. Хранилище у всех машин едино. При необходимости работу можно распределить другим способом, например, разбив список URL на 10 частей и раздав их 10 машинам. Параллельная работа программы позволяет легко выдерживать дополнительную нагрузку: при увеличении количества страниц, которые нужно обойти роботу, достаточно просто распределить задачу на большее число машин. </p> <p>В хранилище информация в сжатом виде собирается и разбивается на куски по 50 Мб. Эти части постепенно распределяются между 70 машинами, на которых запущена программа-индексатор. Как только индексатор на одной из машин заканчивает обработку очередной части страниц, он обращается за следующей порцией. В результате на первом этапе формируется много маленьких индексных баз, каждая из которых содержит информацию о некоторой части Интернета. Таким образом, вся интеллектуальная обработка данных осуществляется параллельно, поэтому ускорение процесса индексации достигается простым добавлением машин в систему. </p> <p>После того, как все части информации обработаны, начинается объединение (слияние) результатов. Благодаря тому, что частичные индексные базы и основная база, к которой обращается поисковая машина, имеют одинаковый формат, процедура слияния является простой и быстрой операцией, не требующей никаких дополнительных модификаций частичных индексов. Основная база участвует в анализе как одна из частей нового индекса. Так, если объединяются 70 новых частей, то в анализе участвует 71 фрагмент (70 новых + основная база <a href="/configuring-windows/what-to-do-if-the-blue-screen-is-windows-10-we-roll-back-to-the-previous-version-of-the-driver.html">предыдущей редакции</a>). Кроме того, единый формат позволяет проводить тестирование частичных баз еще до объединения их с основной, и обнаруживать ошибки на более раннем этапе. </p> <p><a href="/computer-literacy/razgon-processora-cherez-bios-i-specialnye-programmy-povyshaem.html">Специальная программа</a> ("сливатор") составляет таблицы перенумерации документов базы. Содержимое всех частей объединяется. Среди страниц с одинаковыми адресами выбирается наиболее свежая версия; если при скачивании URL последней информацией была ошибка 404 (запрашиваемая страница не существует), она временно удаляется из индексной базы. Параллельно осуществляется склейка дублей: страницы, которые имеют одинаковое содержимое, но различные URL, объединяются в один документ. </p> <p>Сборка единой базы из частичных индексных баз представляет собой простой и быстрый процесс. Сопоставление страниц не требует никакой интеллектуальной обработки и происходит со скоростью чтения данных с диска. Если информации, которая генерируется на машинах-индексаторах, получается слишком много, то процедура "сливания" частей проходит в несколько этапов. В начале частичные индексы объединяются в несколько промежуточных баз, а затем промежуточные базы и основная база предыдущей редакции пересекаются. Таких этапов может быть сколько угодно. Промежуточные базы могут сливаться в другие промежуточные базы, а уже потом объединяться окончательно. Поэтапная работа незначительно замедляет формирование единого индекса и не отражается на качестве результатов. </p> <h3><span>;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">Точность </span></h3> <p>Точность - еще одна основная характеристика поисковой машины, которая определяется как степень соответствия найденных документов запросу пользователя. Например, если по запросу "Красная площадь" находится 150 документов, в 70 из них содержится словосочетание "Красная площадь", а в остальных просто присутствуют эти слова (" </span>красная <span> баба кричала на всю </span>площадь <span>"), то точность поиска считается равной 70/150 (~0,5). Чем точнее поиск, тем <a href="/the-security-of-your-computer/udobnyi-brauzer-dlya-raboty-obshchii-reiting-brauzerov-pk-protiv-mobilnyh.html">быстрее пользователь</a> находит нужные ему документы, тем меньше "мусора" среди них встречается, тем реже найденные документы не соответствуют запросу. </p> <p>Повышение точности в поисковой машине Рамблер достигается за счет использования различных технологий на всех этапах обработки и поиска информации. Одним из наиболее интересных процессов является распознавание грамматических омонимов. Омонимы - это слова, которые имеют одинаковое написание, но различный смысл. Различают лексические и грамматические омонимы. Лексические омонимы относятся к одной части речи, как, например, существительное "бор": хвойный лес, стальное сверло и химический элемент. Грамматические омонимы относятся к разным частям речи, поэтому по написанию у них обычно совпадают только отдельные формы. Примерами грамматических омонимов могут служить слова "печь" - существительное русская "печь" и глагол "печь" пирожки; "рядовой" - прилагательное "рядовой" сотрудник и существительное "рядовой" Иванов. </p> <p>Омонимы не только увеличивают размер индексной базы (так как для каждого такого слова приходится хранить все его возможные значения), но и отрицательно сказываются на точности поиска. Если пользователь ищет слово "данные", ему неинтересно получить в найденном все документы, которые содержат слово "дать". Для того, чтобы результаты поиска были точнее, модуль синтаксического анализа проводит разбор окружения слов-омонимов с целью установления их наиболее вероятных значений. Например, если рядом со словом "печь" стоит существительное ("пирожки", "картошка"), то с высокой вероятностью "печь" в данном контексте является глаголом. На сегодняшний день анализатор способен распознавать значения только грамматических омонимов. </p> <p>Синтаксический анализ позволяет также с определенной вероятностью распознавать некоторые имена собственные. Например, если в тексте несколько слов подряд написано с большой буквы, они чаще всего представляют собой имя собственное (Петр Петрович, Московский Государственный Университет). Данные о таких конструкциях учитываются при индексации и обработке запроса. </p> <p>Еще один способ повышения точности поиска - это выделение устойчивых обозначений и поиск их как отдельных лексических единиц. На сегодняшний день в Рамблере реализована система распознавания таких конструкций, например C++, б/у, п/п-к. Если по запросу С++ поднимать все тексты, в которых присутствуют <a href="/useful-programs/napisanie-kirillicy-latinskimi-bukvami-servis-po-perevodu.html">латинская буква</a> С, а также знак +, то получится огромное количество документов, далеко не все из которых соответствуют запросу; кроме того, это <a href="/windows-10/informacionnye-resursy-obshchestva-obrazovatelnye.html">большая работа</a>, значительно увеличивающая время поиска. </p> <p>Огромную роль в повышении точности поиска играет ранжирование. Пользователь очень редко просматривает больше трех страниц с результатами поиска. Поэтому субъективно он оценивает точность по "верхним" документам. Даже если нужный документ найден поисковой машиной, но расположен на двухсотой позиции, скорее всего, он никогда не будет найден пользователем. </p> <p>По умолчанию в Рамблере результаты ранжируются по степени соответствия (релевантности) запросу и группируются по сайтам. При ранжировании оцениваются различные характеристики текстов, такие как: </p> <ul><li><span>Количество вхождений слов (словосочетаний) в документ - чем больше раз словосочетание "Красная площадь" присутствует в тексте, тем выше вероятность, что в нем действительно говорится о Красной площади; </span></li> <li><span>Расположение слов запроса в документе - если словосочетание "Красная площадь" присутствует в заголовках или названии документа, то документ с большей вероятностью посвящен Красной площади; </span></li> <li><span>Формы слов запроса - преимущество отдается вхождениям, в которых слова имеют тот же падеж, число, склонение и т.д., что и в запросе пользователя ("Красная площадь", а не "Красной площадью"). Помимо точного совпадения, выделяются две группы форм слов - близкие и далекие. Близкими считаются изменения по падежам, склонениям, спряжениям, числам и родам. Далекими формами являются причастия, деепричастия и т.п. При ранжировании преимущество отдается близким формам слов запроса. </span></li> <li><span>Расстояние между словами запроса - если запрос состоит из нескольких слов, то в найденных документах оценивается, насколько близко друг от друга расположены эти слова. Преимущество отдается документам, в которых слова запроса находятся ближе друг к другу, потому что в этом случае они с большей вероятностью связаны между собой. Например, если слово "Красная" расположено в тексте на 5 позиции, а слово "площадь" - на 650, то скорее всего в документе речь идет не о Красной площади. </span></li> <li><span>Относительная частота (отношение количества вхождений слов запроса в документ к общему количеству слов в документе) - если словосочетание встречается 10 раз в документе из 100 слов, то он скорее соответствует запросу, чем если оно встречается те же 10 раз в документе из 20 тысяч слов; </span></li> <li><span>Популярность - поисковая машина автоматически вычисляет коэффициент популярности каждой страницы Интернет на основе данных счетчика Top100 и анализа гипертекстовых ссылок между страницами. Преимущество отдается более популярным ресурсам. </span></li> <li><span>Ссылочный вес документа - при ранжировании учитывается ссылочный вес страницы, рассчитанный на основании учета гиперссылок, содержащих слова запроса. Так, если на некоторый документ словами "Красная площадь" ссылается большое количество страниц с высокими поэффициентами популярности, то ему отдается приоритет по запросу Красная площадь. </span></li> </ul><p>Помимо <a href="/configuring-windows/est-li-taimer-windows-10-avtovyklyuchenie-kompyutera-raznymi-sposobami-kak-postavit.html">автоматических способов</a> увеличения точности поиска, существуют различные средства, с помощью которых пользователь сам может уточнить поиск по отдельным запросам. В первую очередь к ним относится специальный язык поискового запроса, используя который можно ограничивать количество найденных документов. Например, запрос или его часть, взятые в кавычки, обрабатываются буквально, с учетом всех стоп-слов, форм, порядка, знаков препинания. Это повышает точность поиска, но уменьшает его полноту: если часть, заключенная в кавычки, неточна, нужный документ найден не будет. </p> <p>Использование <a href="/the-security-of-your-computer/strokovye-operatory-vba-i-operatory-sravneniya-logicheskie.html">логического оператора</a> OR (ИЛИ) позволяет расширить сферу поиска и увеличить его полноту, в то время как оператор NOT (И-НЕ), наоборот, повышает точность поиска за счет нахождения документов, которые содержат одни слова запроса и не содержат другие. Для повышения точности можно также задавать расстояние между словами. Если в искомом словосочетании порядок слов обычно сохраняется (например, Красная площадь), то в запросе для повышения точности имеет смысл ограничить расстояние, указав его в скобках через запятую: (2, Красная площадь). Это позволит отсеять документы, в которых слова красная и площадь не расположены рядом, а разбросаны по тексту. </p> <p>Увеличить точность можно с помощью использования поиска в найденном. Уточняющий поиск, проводится уже не по всей индексной базе, а только по результатам <a href="/tips-for-beginners/more-intitle-vse-publikacii-polzovatelya-predydushchaya-poisk-slov-pri.html">предыдущего поиска</a>. Таким образом, круг найденных документов сужается. Например, если дать запрос Красная площадь, а затем, провести поиск в найденном по запросу Москва, то результат будет содержать только те документы, в которых говорится о Красной площади города Москвы. </p> <h3><span>;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">Актуальность </span></h3> <p>Актуальность - не менее <a href="/internet-tips/obzor-meizu-m6-note-idealnyi-byudzhetnik-s-dvoinoi-kameroi-obzor-meizu-m6.html">важная характеристика</a> поиска, которая определяется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу. Например, на следующий день после теракта в Тушино огромное количество пользователей обратились к поисковой машине Рамблер с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток. Однако основные документы уже были заиндексированы и доступны для поиска, благодаря существованию "быстрой базы", которая обновляется два раза в день, а при необходимости может обновляться быстрее. </p> <p>На сегодняшний день индексная база поисковой системы Рамблер состоит из 8 частей, каждая из которых живет своей независимой жизнью. Весь Интернет условно разделен на 7 секторов и называется своим цветом: красный, оранжевый, желтый, зеленый, голубой, синий, фиолетовый. Сайт компании Рамблер относится к голубому сектору. Информация о web-ресурсах каждого сектора хранится в соответствующей части индексной базы. Восьмая часть - "быстрая база" - включает в себя страницы, на которых размещен счетчик Тор 100 и которые еще не успели попасть в основную индексную базу. </p> <p>Все части индексной базы собираются и обновляются по отдельности. Так, сегодня происходит переиндексация и обновление красного сектора, завтра - оранжевого и желтого, послезавтра - зеленого и т.д. Благодаря такому ступенчатому алгоритму в поисковой машине регулярно появляется свежая информация. Полный цикл обновления занимает около недели. При этом сбор информации происходит параллельно, а непосредственно на изготовление индекса документов одного сектора уходит всего несколько часов. Поэтому существует принципиальная возможность обновлять индексную базу быстрее. </p> <p>Разделение Интернета на 7 секторов условно. При необходимости он может быть разбит на 10, 20 или 40 секторов, каждый из которых будет обрабатываться автономно. В такой системе заложена возможность значительного увеличения нагрузки. С ростом объема информации в сети Интернет растет и индексная база поисковой машины. Постепенно переиндексация и сборка базы начинает занимать все больше времени, а процесс обновления индекса становится более громоздким. Поступление новых данных затягивается, информация начинает терять свою актуальность. Возможность "передела" Интернета на большее число секторов позволяет удерживать размер каждой части базы в оптимальном диапазоне, контролировать время ее сборки и обновления. </p> <p>"Быстрая база" отличается от остальных частей индекса меньшим объемом и очень оперативным обновлением: время ее построения занимает около двух часов. В базе содержится информация о страницах, на которых был установлен счетчик Тор 100. Участниками рейтинга Тор 100 являются новостные порталы, сайты <a href="/computer-literacy/kitaiskie-roboty-ubtech-robotics-prishli-v-rossiyu-revolyuciya-mashin-kak.html">крупных компаний</a>, Интернет-магазины, форумы, - все наиболее популярные ресурсы в сети. Каждый раз при установке счетчика на <a href="/the-security-of-your-computer/kak-sozdat-novuyu-stranicu-v-odnoklassnikah-sozdanie-stranicy-v.html">новую страницу</a> сайта, зарегистрированного в Тор 100, информация передается в поисковую систему. Страница ищется во всех цветах основной базы и, если она еще не известна поисковой системе, отправляется в очередь на обработку. Перед обработкой страницы дополнительно фильтруются, из них отбираются самые посещаемые. Таким образом, "сливки" с Интернета собираются два раза в день. </p> <p>"Быстрая база" представляет собой разумное решение проблемы актуальности данных в поиске. Информационное агентство может выложить новость через десять минут после ее появления, потому что тратит время только на верстку страницы. Поисковая машина должна сначала заиндексировать текст, а на это требуется гораздо больше времени. "Быстрая база" охватывает все ресурсы Интернет, зарегистрированные в Тор 100, на которых был размещен счетчик, и которые еще не успели попасть в основную базу. При этом индексируются как страницы с новостями, так и другие свежие документы, появившиеся в Тор 100. В результате через сутки после теракта в поиске Рамблера была доступна не только основная информация, опубликованная на сайтах новостных агентств, которую можно найти и прочитать в разделах новостей, но и комментарии, высказывания очевидцев, обсуждения на форумах, все, что было к этому времени опубликовано на наиболее посещаемых страницах Интернета. </p> <h3><span>;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">Скорость поиска </span></h3> <p>Скорость поиска тесно связана с его устойчивостью к нагрузкам. На сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель хочет получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих. Схематично обработка поискового запроса изображена на рисунке 1. </p> <p>Запрос поступает в поисковую систему через маршрутизатор Cisco 6000 series. Cisco передает его наименее загруженной машине первого уровня - frontend (1.1 - 1.3, на рис. машине 1.3). Frontend, в свою очередь, отправляет запрос дальше, на один из восьми proxy-серверов, также выбирая наиболее свободный сервер (2.1 - 2.8, на рис. машине 2.2). Одновременно frontend отправляет запрос на машины, осуществляющие поиск по товарам (3.1 - 3.2, на рис. машине 3.1) и по базе Тор 100 (4.1 - 4.2, на рис. машине 4.1). На proxy проводится поиск по ссылочному индексу, и его результаты вместе с поисковым запросом передаются на машины, которые содержат основную индексную базу, - backends (5.1.х - 5.7.х, на рис. машинам 5.1.2, 5.2.11, 5.3.1 и т.д.) Та же информация отправляется на машины с "быстрой базой" (6.1 - 6.2, на рис. 6.1). </p> <p>На текущий момент в поиск включено 77 backend"ов. Они сгруппированы по 11 машин, и каждая группа содержит копию одной из частей поискового индекса. Таким образом, информация о сайтах, условно входящих в красный сектор Интернета, находится на backend"ах первой группы (5.1.1 - 5.1.11 на рис), оранжевый сектор - на backend"ах второй группы (5.2.1 - 5.2.11) и т.д. Proxy-сервер выбирает наименее загруженный backend в каждой группе машин и отправляет на него поисковый запрос с результатами ссылочного поиска. На backend"ах осуществляется поиск по частям индексной базы и ранжирование с учетом результатов поиска по ссылочному индексу. При ранжировании для всех найденных документов высчитываются веса по конкретному запросу. </p> <p>После того, как запрос обработан на backend"ах, информация о результатах и ранжировании отдается обратно на proxy-сервер. Туда же поступают отсортированные результаты с машин "быстрой базы". Proxy интегрирует данные, полученные с восьми машин: клеит дубли, объединяет зеркала сайтов, переранжирует документы в общий список по весам, рассчитанным на backend"ах. Так, первым в списке найденного может быть документ с машины 5.3.1, вторым и третьим - с 6.1, четвертым - с 5.5.2 и т.д. На proxy-сервере также реализуется построение цитат к документам и подсветка слов запроса в тексте. Полученные результаты отдаются на frontend. </p> <p>Помимо информации с proxy-сервера, frontend получает результаты из поиска по товарам и из базы Тор 100, отсортированные, с цитатами и подсветкой слов запроса. Frontend осуществляет окончательное объединение результатов, генерирует html со списком найденного, вставляет баннеры и перевязки (ссылки на <a href="/tips-for-beginners/kak-preobrazovat-gpt--disk-v-mbr-bez-poteri-dannyh-konvertirovanie-razdelov-diska-razlichnymi-sposo.html">различные разделы</a> Рамблера) и отдает html Cisco, который маршрутизирует информацию пользователю. </p> <p>Каждый из этапов обработки запроса многократно продублирован и защищен системой балансировки нагрузки. Благодаря дублированию информации поисковая система Рамблер является устойчивой к сбоям на отдельных участках, авариям, отказам оборудования. Если одна их машин перестала функционировать, нагрузка перераспределяется на другие машины, и выпадения документов из поиска не происходит. Масштабируемость достигается простым добавлением в систему машин соответствующего уровня. До недавнего времени в Рамблере работало 45 backend"а. В связи с тем, что осенью нагрузка на поисковые системы обычно возрастает, число backend"ов было увеличено до 77, что позволило значительно ускорить вычисление запросов. </p> <p>Еще один способ повышения скорости поиска - "кэширование", сохранение информации о запросах и результатах поиска в буфере. Многие люди дают одни и те же <a href="/configuring-windows/samye-rasprostranennye-zaprosy-v-internete-statistika.html">поисковые запросы</a>. Вычислять их каждый раз заново было бы неразумной тратой времени. Поэтому если запрос уже обрабатывался в течение некоторого интервала времени, результаты поиска отдаются пользователю из "кэша". </p> <p>Лингвистический анализ текста документов и запроса также позволяет ускорить обработку информации. Например, определение значения омонимов уменьшает количество нерелевантных запросу документов, которые нужно ранжировать и цитировать. Выделение устойчивых обозначений (С++, б/у) на этапах индексации и обработки запроса приводит одновременно к повышению точности и сокращению временных затрат на обработку каждого отдельного элемента обозначения (раньше запрос С++ обрабатывался как отдельно латинское С, отдельно плюс и еще один плюс. Запрос вычислялся долго, а среди результатов поиска было много нерелевантных документов, например, страницы, содержащие математические формулы и т.п.) С этой же целью используются словари стоп-слов. Стоп-слова - это наиболее частотные слова языка, которые встречаются практически в любом тексте и являются малоинформативными. В основном, это служебные слова - предлоги, частицы, артикли. Если нет специальных указаний, поисковая машина игнорирует стоп-слова, встречающиеся в запросе, чтобы не тратить время на обработку <a href="/useful-programs/hard-disk-drive-media-abstract-information-carriers.html">дополнительной информации</a>, снижающей качество поиска. </p> <h3><span>;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">Наглядность </span></h3> <p>Наглядность представления результатов является необходимым компонентом удобного поиска. На плохой витрине легко не заметить <a href="/hardware-solutions/horoshee-ohlazhdenie-dlya-pk-tovary-dlya-moddinga-naskolko-eto-vazhno.html">хороший товар</a>. По большинству запросов поисковая машина находит сотни, а то и тысячи документов. В следствие нечеткости запросов или неточности поиска, даже первые страницы не всегда содержат только нужную информацию. Это означает, что пользователю часто приходится проводить свой собственный поиск внутри списка найденного. Различные элементы ответной страницы помогают ориентироваться в результатах поиска. </p> <p>Группировка по сайтам предназначена для того, чтобы на странице можно было вывести как можно больше Интернет-ресурсов, релевантных запросу пользователя. Это бывает важным, когда необходимо получить информацию из различных источников. Если более информативной для посетителя является дата обновления или релевантность отдельных документов, в ответной странице Рамблера существует возможность сортировки по этим параметрам. </p> <p>В некоторых случаях полезным бывает знание имени сайта. Если пользователя интересует конкретный Интернет-ресурс, имя может дать ему гораздо больше информации, чем заголовок страницы или цитата. Если запросу соответствует больше одной страницы с сайта, то в качестве результата поиска предъявляется наиболее релевантная из них, а ниже располагается частичный список остальных документов. Это увеличивает количество потенциально полезной информации на ответной странице и часто позволяет уточнить поиск без дополнительного запроса. </p> <p>Цитата помогает определить, насколько <a href="/tips-for-beginners/avtozapolnenie-form-s-pomoshchyu-xweb-human-emulator-avtomaticheskoe.html">полезную информацию</a> содержит найденный документ. Очень часто посетителю не требуется переходить по ссылке, чтобы обнаружить, что текст не соответствует его интересам и потребностям. Иногда ответ на вопрос пользователя содержится непосредственно в цитате документа. Это экономит время и повышает эффективность работы поисковой системы. </p> <p>Восстановить текст - иногда единственный способ получить доступ к содержимому найденного документа. Ресурс бывает недоступен по разным причинам. Документ может быть удален, перенесен, изменен, но его текстовое содержание некоторое время сохраняется в индексной базе. Кроме того, внутри самого документа часто отсутствует навигация, позволяющая быстро найти фрагмент, релевантный запросу. В восстановленном тексте все слова запроса подсвечиваются. </p> <p>Ассоциации представляют собой список запросов, которые часто подаются пользователями в течении одной поисковой сессии. Алгоритм построения ассоциаций устроен так, что они почти всегда связаны между собой по смыслу. В некоторых случаях ассоциации позволяют повысить качество поиска за счет уточнения запроса (запрос "отдых в Польше" - ассоциации "отдых в Польше с детьми", "семейный отдых", "пансионаты в Польше"), исправления распространенных ошибок (запрос "gjujlf" - ассоциация "погода"), возможности сориентироваться в незнакомой тематике (запрос "антибиотик" - ассоциации "сумамед", "цифран", "бисептол" и т.д.) </p> <h3><span>;font-family:"Times New Roman"" xml:lang="ru-RU" lang="ru-RU">Заключение </span></h3> <p>Заключение пишется в конце и предполагает конечность. Но рост информации бесконечен, а потому нет предела совершенствованию поисковых машин. Важнейшей задачей разработчиков является улучшение качества поиска, движение в сторону большей эффективности и удобства в использовании системы. С этой целью постоянно меняются поисковые алгоритмы, создаются дополнительные сервисы, дорабатывается дизайн. </p> <p>Однако для того, чтобы выжить в мире динамичного Интернета, при разработке необходимо закладывать большой запас устойчивости, постоянно заглядывать в завтрашний день и примерять будущую нагрузку на сегодняшний поиск. Все, что сегодня программируется в Рамблере, рассчитано "на вырост". Такой подход позволяет заниматься не только постоянной борьбой и приспособлением поисковой машины к растущим объемам информации, но и реализовывать что-то новое, действительно важное и нужное для повышения эффективности поиска в сети Интернет. </p> <p>При подготовке реферата использовались официальные материалы компании « </span>Rambler». </p> <blockquote><p>Как известно всем, всемирная WEB-паутина делится на много разных зон, в основном в зависимости от национальной принадлежности сектора. Общая зона для всех людей планеты – это Интернет, а вот для русскоязычных пользователей основной зоной является так называемый Рунет, и в ней действует достаточно большое количество поисковых систем, ориентированных в основном на русскоязычные сайты и на русскоязычную выдачу.</p> </blockquote> <p>Поисковая система Рамблер (Rambler) является старейшей в Рунете. Родилась она усилиями многих известных интернет-специалистов ещё в 1996 году, в то самое время, когда Рунет ещё только зарождался.</p> <p>Конечно, Рамблеру, как и каждому пионеру в своей области, присущи некоторые недостатки, например алгоритмы, которые были заложены в этот поисковик почти полтора десятилетия назад, сегодня с трудом поддаются необходимым изменениям, а апдейты (пересчёты результатов выдачи) происходят в этой системе довольно редко, примерно пять-шесть раз в год.</p> <p>Именно по этой самой причине <b>раскрутка и продвижение сайтов в Рамблере </b> не всегда приносит быстрых результатов, да и доля Рамблера, как поисковой системы за последние несколько лет в общем объёме всего российского поискового трафика заметно сократилась - с 20% до 5%.</p> <p>Но также следует отметить тот факт, что долгоживучесть Рамблера в современных быстроизменяемых условиях обусловлена в первую очередь не совсем угасшей значимостью поисковика в Рунете – у Рамблера имеется много всяких нужных всем пользователям дополнительных сервисов, таких как, например, популярный счетчик Rambler.Top100, а также известный всем сервис Rambler.ICQ.</p> <p>Также немаловажен и тот факт, что на портале Рамблера очень давно и весьма успешно функционирует своя собственная <a href="/internet-tips/kak-poslat-fotografii-po-pochte-besplatnye-failoobmenniki-kak-zalit-foto-i.html">бесплатная почта</a>, а кроме того имеется достаточно продвинутая система <a href="/solving-problems/populyarnye-klyuchevye-slova-yandeks-vse-vozmozhnosti-yandeks-wordstat-dlya.html">контекстной рекламы</a> под названием «Бегун».<br> Если говорить об основном назначении этой поисковой системы, то невзирая на потерю многих ранее ведущих позиций в этой сфере, Рамблер остаётся по-прежнему значимым поисковиком и занимает третье место в Рунете после Яндекса и Гугла – поисковик Mail.ru, можно не считать, так как он всего лишь транслирует поиск Яндекса.</p> <p>Конечно, 5% аудитории не являются каким-либо рекордным показателем, однако следует учитывать, что это тоже аудитория, причём аудитория весьма целевая. Практика показывает, что основной аудиторией Рамблера являются люди, которые пользуются этим ресурсом исторически давно, а это автоматически значит, что среди них практически не присутствует молодежь, что значительно повышает платежеспособность получаемого на сайты трафика.</p> <p>В этом смысле можно даже сказать, что именно эта платежеспособность нивелирует факт заметной на данный момент малочисленности аудитории Рамблера.<br> Таким образом, принимая во внимание эти факты и рассматривая доводы «за» и «против», можно прийти к единственному верному выводу – <b>оптимизацию сайтов под Рамблер </b> и их продвижение в этой поисковой системе проводить не только целесообразно, но и необходимо.</p> <p>Теперь что касается <b>основных особенностей <a href="/windows-10/veb-dizain-i-poiskovaya-optimizaciya-kak-sdelat-begushchuyu.html">поисковой оптимизации</a> веб-ресурсов под Рамблер </b>.</p> <p>Как правило, скорость индексации свежего контента Рамблером довольно высокая. Однако недостаточно быстрый учёт влияния внешних факторов заметно увеличивает минимальные сроки поискового продвижения Рамблером новых сайтов в достаточно конкурентных тематиках. Тем не менее в самое последнее время, как было замечено, апдейты базы Рамблера стали проходить гораздо чаще, чем раньше, и хотя их частота пока не сравнима с частотой апдейтов Яндекса и Гугла, похоже на то, что Рамблер всё же начинает конкурентную борьбу с ними за своё место под солнцем.</p> <p>К этому следует добавить ещё и такой немаловажный факт, как почти полное отсутствие применения каких-либо фильтров к качеству источников ссылок по всему диапазону среднечастотных и низкочастотных запросов.</p> <p>Но с другой стороны по некоторым понятиям это не является плюсом, а скорее минус, потому что такое положение дел значительно упрощает процесс оптимизации сайтов, которые продвигаются с использованием «чёрных» методов продвижения. Таким образом, возможно засорение <a href="/configuring-wi-fi/kak-naiti-v-feisbuke-kommentarii-po-familii-kak-iskat-v-facebook-i.html">поисковой выдачи</a> Рамблера не совсем качественными сайтами, и следует надеяться, что администрация поисковой системы в недалёком будущем всё же начнёт предпринимать какие-либо шаги к исправлению такого положения.</p> <br> <br> </div> </article> <div class="entry-footer"> <span class="entry-meta__comments" title="Комментариев"><span class="fa fa-comment-o"></span> </span> <span class="entry-meta__views" title="Просмотров"><span class="fa fa-eye"></span> </span> </div> <div class="b-share b-share--post"> <div class="b-share__title">Понравилась статья? Поделиться с друзьями:</div> <span class="b-share__ico b-share__vk js-share-link" data-uri="http://vk.com/share.php?url=https%3A%2F%2Fcrabo.ru%2Fbeg-na-begovoj-dorozhke%2F"></span><span class="b-share__ico b-share__fb js-share-link" data-uri="http://www.facebook.com/sharer.php?u=https%3A%2F%2Fcrabo.ru%2Finternet-tips%2Frambler-what-happened-to-the-search-engine-the-architecture-of-metasearch-systems.html"></span><span class="b-share__ico b-share__tw js-share-link" data-uri="http://twitter.com/share?text=https%3A%2F%2Fcrabo.ru%2Finternet-tips%2Frambler-what-happened-to-the-search-engine-the-architecture-of-metasearch-systems.html"></span> <span class="b-share__ico b-share__ok js-share-link" data-uri="https://connect.ok.ru/dk?st.cmd=WidgetSharePreview&service=odnoklassniki&st.shareUrl=https%3A%2F%2Fcrabo.ru%2Finternet-tips%2Frambler-what-happened-to-the-search-engine-the-architecture-of-metasearch-systems.html"></span><span class="b-share__ico b-share__gp js-share-link" data-uri="https://plus.google.com/share?url=https%3A%2F%2Fcrabo.ru%2Finternet-tips%2Frambler-what-happened-to-the-search-engine-the-architecture-of-metasearch-systems.html"></span><span class="b-share__ico b-share__whatsapp js-share-link js-share-link-no-window" data-uri="whatsapp://send?text=https%3A%2F%2Fcrabo.ru%2Finternet-tips%2Frambler-what-happened-to-the-search-engine-the-architecture-of-metasearch-systems.html"></span> <span class="b-share__ico b-share__viber js-share-link js-share-link-no-window" data-uri="viber://forward?text=https%3A%2F%2Fcrabo.ru%2Finternet-tips%2Frambler-what-happened-to-the-search-engine-the-architecture-of-metasearch-systems.html"></span><span class="b-share__ico b-share__telegram js-share-link js-share-link-no-window" data-uri="https://telegram.me/share/url?url=https%3A%2F%2Fcrabo.ru%2Finternet-tips%2Frambler-what-happened-to-the-search-engine-the-architecture-of-metasearch-systems.html"></span> </div> <div class="b-related"> <div class="b-related__header"><span>Вам также может быть интересно</span></div> <div class="b-related__items"> <article id="post-313974" class="post-card post-313974 post type-post status-publish format-standard has-post-thumbnail hentry" itemscope itemtype="http://schema.org/BlogPosting"> <div class="post-card__image"> <a href="/tips-for-beginners/chto-nado-nazhat-chtoby-vyiti-v-bios-kak-voiti-v-bios-bios-kombinacii.html"> <img width="330" height="140" src="/uploads/35db83e34ccbccbb1456bc52b800005d.jpg" class="attachment-thumb-wide size-thumb-wide wp-post-image" alt="Как войти в биос (bios): комбинации клавиш" itemprop="image" sizes="(max-width: 330px) 100vw, 330px" / loading=lazy> <div class="entry-meta"> <span class="entry-category"><span itemprop="articleSection">Советы начинающим</span></span> </div> </a> </div> <header class="entry-header"> <div class="entry-title" itemprop="name"><a href="/tips-for-beginners/chto-nado-nazhat-chtoby-vyiti-v-bios-kak-voiti-v-bios-bios-kombinacii.html" rel="bookmark" itemprop="url"><span itemprop="headline">"рамблер" - что такое случилось с поисковой системой. Архитектура метапоисковых систем. Поисковая система Aport</span></a></div> </header> <div class="post-card__content" itemprop="articleBody">Когда-то давно, на заре зарождения рунета, когда, собственно, количество самих сайтов в русскоязычном сегменте измерялось сотнями, объявил о себе "Рамблер". которая была одной из первой у нас, но...</div> </article> <article id="post-313973" class="post-card post-313973 post type-post status-publish format-standard has-post-thumbnail hentry" itemscope itemtype="http://schema.org/BlogPosting"> <div class="post-card__image"> <a href="/windows-10/draiver-dlya-platy-usb-3-0-utilita-ot-gigabyte.html"> <img width="330" height="140" src="/uploads/d986ac1f4aa0e6e203f84f66cb24e939.jpg" class="attachment-thumb-wide size-thumb-wide wp-post-image" alt="Драйвер для платы usb 3.0. Утилита от Gigabyte" itemprop="image" sizes="(max-width: 330px) 100vw, 330px" / loading=lazy> <div class="entry-meta"> <span class="entry-category"><span itemprop="articleSection">Windows 10</span></span> </div> </a> </div> <header class="entry-header"> <div class="entry-title" itemprop="name"><a href="/windows-10/draiver-dlya-platy-usb-3-0-utilita-ot-gigabyte.html" rel="bookmark" itemprop="url"><span itemprop="headline">"рамблер" - что такое случилось с поисковой системой. Архитектура метапоисковых систем. Поисковая система Aport</span></a></div> </header> <div class="post-card__content" itemprop="articleBody">Когда-то давно, на заре зарождения рунета, когда, собственно, количество самих сайтов в русскоязычном сегменте измерялось сотнями, объявил о себе "Рамблер". которая была одной из первой у нас, но...</div> </article> <article id="post-313972" class="post-card post-313972 post type-post status-publish format-standard has-post-thumbnail hentry" itemscope itemtype="http://schema.org/BlogPosting"> <div class="post-card__image"> <a href="/windows-10/skrytye-funkcii-nokia-sekrety-telefonov-nokia-mms---novaya-tehnologiya.html"> <img width="330" height="140" src="/uploads/335bb9c5b6f35baeb0e1be7f82b7a75e.jpg" class="attachment-thumb-wide size-thumb-wide wp-post-image" alt="Скрытые функции nokia. Секреты телефонов Nokia. MMS - новая технология в мире мобильной связи" itemprop="image" sizes="(max-width: 330px) 100vw, 330px" / loading=lazy> <div class="entry-meta"> <span class="entry-category"><span itemprop="articleSection">Windows 10</span></span> </div> </a> </div> <header class="entry-header"> <div class="entry-title" itemprop="name"><a href="/windows-10/skrytye-funkcii-nokia-sekrety-telefonov-nokia-mms---novaya-tehnologiya.html" rel="bookmark" itemprop="url"><span itemprop="headline">"рамблер" - что такое случилось с поисковой системой. Архитектура метапоисковых систем. Поисковая система Aport</span></a></div> </header> <div class="post-card__content" itemprop="articleBody">Когда-то давно, на заре зарождения рунета, когда, собственно, количество самих сайтов в русскоязычном сегменте измерялось сотнями, объявил о себе "Рамблер". которая была одной из первой у нас, но...</div> </article> <article id="post-313971" class="post-card post-313971 post type-post status-publish format-standard has-post-thumbnail hentry" itemscope itemtype="http://schema.org/BlogPosting"> <div class="post-card__image"> <a href="/computer-literacy/sozdanie-internet-magazina-na-opencart-obshchie-nastroiki-opencart.html"> <img width="330" height="140" src="/uploads/82bdd18b471d68443aea2aa96aa69c97.jpg" class="attachment-thumb-wide size-thumb-wide wp-post-image" alt="Общие настройки OpenCart: первые настройки интернет-магазина Почему стоит работать с OpenCart" itemprop="image" sizes="(max-width: 330px) 100vw, 330px" / loading=lazy> <div class="entry-meta"> <span class="entry-category"><span itemprop="articleSection">Компьютерная грамотность</span></span> </div> </a> </div> <header class="entry-header"> <div class="entry-title" itemprop="name"><a href="/computer-literacy/sozdanie-internet-magazina-na-opencart-obshchie-nastroiki-opencart.html" rel="bookmark" itemprop="url"><span itemprop="headline">"рамблер" - что такое случилось с поисковой системой. Архитектура метапоисковых систем. Поисковая система Aport</span></a></div> </header> <div class="post-card__content" itemprop="articleBody">Когда-то давно, на заре зарождения рунета, когда, собственно, количество самих сайтов в русскоязычном сегменте измерялось сотнями, объявил о себе "Рамблер". которая была одной из первой у нас, но...</div> </article> <article id="post-313970" class="post-card post-313970 post type-post status-publish format-standard has-post-thumbnail hentry" itemscope itemtype="http://schema.org/BlogPosting"> <div class="post-card__image"> <a href="/configuring-wi-fi/mts-igra-kazhdyi-den-operatory-mobilnoi-svyazi-mts-cherez-specialnye-komandy.html"> <img width="330" height="140" src="/uploads/266433aa66cab5f277748144a060faa5.jpg" class="attachment-thumb-wide size-thumb-wide wp-post-image" alt="Операторы мобильной связи мтс" itemprop="image" sizes="(max-width: 330px) 100vw, 330px" / loading=lazy> <div class="entry-meta"> <span class="entry-category"><span itemprop="articleSection">Настройка Wi-Fi</span></span> </div> </a> </div> <header class="entry-header"> <div class="entry-title" itemprop="name"><a href="/configuring-wi-fi/mts-igra-kazhdyi-den-operatory-mobilnoi-svyazi-mts-cherez-specialnye-komandy.html" rel="bookmark" itemprop="url"><span itemprop="headline">"рамблер" - что такое случилось с поисковой системой. Архитектура метапоисковых систем. Поисковая система Aport</span></a></div> </header> <div class="post-card__content" itemprop="articleBody">Когда-то давно, на заре зарождения рунета, когда, собственно, количество самих сайтов в русскоязычном сегменте измерялось сотнями, объявил о себе "Рамблер". которая была одной из первой у нас, но...</div> </article> <article id="post-313962" class="post-card post-313962 post type-post status-publish format-standard has-post-thumbnail hentry" itemscope itemtype="http://schema.org/BlogPosting"> <div class="post-card__image"> <a href="/tips-for-beginners/kak-podklyuchit-elektronnyi-mikroskop-k-kompyuteru-kak-vybrat.html"> <img width="330" height="140" src="/uploads/9be137c6c34894a62d328b71545a349e.jpg" class="attachment-thumb-wide size-thumb-wide wp-post-image" alt="Как выбрать электронный микроскоп" itemprop="image" sizes="(max-width: 330px) 100vw, 330px" / loading=lazy> <div class="entry-meta"> <span class="entry-category"><span itemprop="articleSection">Советы начинающим</span></span> </div> </a> </div> <header class="entry-header"> <div class="entry-title" itemprop="name"><a href="/tips-for-beginners/kak-podklyuchit-elektronnyi-mikroskop-k-kompyuteru-kak-vybrat.html" rel="bookmark" itemprop="url"><span itemprop="headline">"рамблер" - что такое случилось с поисковой системой. Архитектура метапоисковых систем. Поисковая система Aport</span></a></div> </header> <div class="post-card__content" itemprop="articleBody">Когда-то давно, на заре зарождения рунета, когда, собственно, количество самих сайтов в русскоязычном сегменте измерялось сотнями, объявил о себе "Рамблер". которая была одной из первой у нас, но...</div> </article> </div> </div> <meta itemscope itemprop="mainEntityOfPage" itemType="https://schema.org/WebPage" itemid="/beg-na-begovoj-dorozhke/" /> <meta itemprop="dateModified" content="2017-05-13" /> <meta itemprop="datePublished" content="2016-10-28T11:16:04+00:00" /> <script> var mt_cid = 43603314 </script> <script async="async" src="https://adcounter14.uptolike.com/counter.js?sid=stf22ceea420b22686332c72fa963f260cb21fbe9e" type="text/javascript"></script> </main> </div> </div> <aside id="secondary" class="widget-area" itemscope itemtype="http://schema.org/WPSideBar"> <div id="search-2" class="widget widget_search"> <form role="search" method="get" id="searchform" action="/" class="search-form"> <label class="screen-reader-text" for="s">Поиск: </label> <input type="text" value="" name="s" id="s" class="search-form__text"> <button type="submit" id="searchsubmit" class="search-form__submit"></button></form> </div> <div id="text-13" class="widget widget_text"> <div class="textwidget"> <div id="luqusa1" style="height:500px;width:300px;" align="center"></div> </div> </div> <div id="wpshop_articles-3" class="widget widget_wpshop_articles"> <div class="widget-header">Популярные материалы</div> <div class="widget-article"> <div class="widget-article__image"><a href="/solving-problems/as-wms-klyuch-k-effektivnomu-upravleniyu-skladom.html"> <img width="330" height="140" src="/images/39f0b8256d538e3aa650fabcb90cbf13ub-330x140.png" class="attachment-thumb-wide size-thumb-wide wp-post-image" alt="AS WMS: Ключ к Эффективному Управлению Складом" / loading=lazy> </a> </div> <div class="widget-article__body"> <div class="widget-article__title"><a href="/solving-problems/as-wms-klyuch-k-effektivnomu-upravleniyu-skladom.html">AS WMS: Ключ к Эффективному Управлению Складом</a></div> </div> </div> <div class="widget-article"> <div class="widget-article__image"><a href="/hardware-solutions/kak-vlozhit-fail-v-pismo-iphone-kak-poslat-fail-s-aifona-kak-udalit.html"> <img width="330" height="140" src="/uploads/20cf0987ab65157652e031f1ce93a6f0.jpg" class="attachment-thumb-wide size-thumb-wide wp-post-image" alt="Как послать файл с айфона" / loading=lazy> </a> </div> <div class="widget-article__body"> <div class="widget-article__title"><a href="/hardware-solutions/kak-vlozhit-fail-v-pismo-iphone-kak-poslat-fail-s-aifona-kak-udalit.html">Как послать файл с айфона</a></div> </div> </div> <div class="widget-article"> <div class="widget-article__image"><a href="/hardware-solutions/kriptovalyuty-nabirayushchie-populyarnost-v-monetnyi-dvor-samye.html"> <img width="330" height="140" src="/uploads/d7caedc04d0306996825739cd7bcdcb4.jpg" class="attachment-thumb-wide size-thumb-wide wp-post-image" alt="Криптовалюты набирающие популярность в" / loading=lazy> </a> </div> <div class="widget-article__body"> <div class="widget-article__title"><a href="/hardware-solutions/kriptovalyuty-nabirayushchie-populyarnost-v-monetnyi-dvor-samye.html">Криптовалюты набирающие популярность в</a></div> </div> </div> <div class="widget-article"> <div class="widget-article__image"><a href="/windows-10/remont-i-obsluzhivanie-kompyuternoi-tehniki-okved-chto-mozhet-byt.html"> <img width="330" height="140" src="/uploads/6755b79dd3fff17136a886d53bf71510.jpg" class="attachment-thumb-wide size-thumb-wide wp-post-image" alt="Что может быть включено в этот вид деятельности" / loading=lazy> </a> </div> <div class="widget-article__body"> <div class="widget-article__title"><a href="/windows-10/remont-i-obsluzhivanie-kompyuternoi-tehniki-okved-chto-mozhet-byt.html">Что может быть включено в этот вид деятельности</a></div> </div> </div> <div class="widget-article"> <div class="widget-article__image"><a href="/computer-literacy/udalenie-modov-wot-kak-udalit-mody-v-world-of-tanks-chistka-sistemy-vruchnuyu.html"> <img width="330" height="140" src="/uploads/07821112ef7d20d52b0b4e82892d4470.jpg" class="attachment-thumb-wide size-thumb-wide wp-post-image" alt="Как удалить моды в World of Tanks?" / loading=lazy> </a> </div> <div class="widget-article__body"> <div class="widget-article__title"><a href="/computer-literacy/udalenie-modov-wot-kak-udalit-mody-v-world-of-tanks-chistka-sistemy-vruchnuyu.html">Как удалить моды в World of Tanks?</a></div> </div> </div> </div> <div id="wpshop_articles-2" class="widget widget_wpshop_articles"> <div class="widget-header">Рекомендуем</div> <div class="widget-article"> <div class="widget-article__image"><a href="/computer-literacy/zakachat-na-mainkraft-mod-po-instrukcii-kak-ustanovit-mody-v.html"> <img width="330" height="140" src="/uploads/25588fd943643de2723bb9f404a92d07.jpg" class="attachment-thumb-wide size-thumb-wide wp-post-image" alt="Как установить моды в Minecraft?" / loading=lazy> </a> </div> <div class="widget-article__body"> <div class="widget-article__title"><a href="/computer-literacy/zakachat-na-mainkraft-mod-po-instrukcii-kak-ustanovit-mody-v.html">Как установить моды в Minecraft?</a></div> </div> </div> <div class="widget-article"> <div class="widget-article__image"><a href="/tips-for-beginners/chto-delat-esli-ne-robit-myshka-prichiny-po-kotorym-ne-rabotaet-myshka.html"> <img width="330" height="140" src="/uploads/4aa3dfc3fd736adefeec1fa8641f4a8d.jpg" class="attachment-thumb-wide size-thumb-wide wp-post-image" alt="Причины по которым не работает мышка" / loading=lazy> </a> </div> <div class="widget-article__body"> <div class="widget-article__title"><a href="/tips-for-beginners/chto-delat-esli-ne-robit-myshka-prichiny-po-kotorym-ne-rabotaet-myshka.html">Причины по которым не работает мышка</a></div> </div> </div> <div class="widget-article"> <div class="widget-article__image"><a href="/the-security-of-your-computer/vse-chto-nuzhno-znat-o-besprovodnoi-zaryadke-qi-besprovodnye-zaryadki-i.html"> <img width="330" height="140" src="/uploads/b2d5a018f646d978a7ae6190d6290e74.jpg" class="attachment-thumb-wide size-thumb-wide wp-post-image" alt="Qi: беспроводные зарядки и совместимые устройства Ци зарядное устройство" / loading=lazy> </a> </div> <div class="widget-article__body"> <div class="widget-article__title"><a href="/the-security-of-your-computer/vse-chto-nuzhno-znat-o-besprovodnoi-zaryadke-qi-besprovodnye-zaryadki-i.html">Qi: беспроводные зарядки и совместимые устройства Ци зарядное устройство</a></div> </div> </div> <div class="widget-article"> <div class="widget-article__image"><a href="/configuring-wi-fi/kak-udalit-avg-s-kompyutera-polnostyu-kak-udalit-avg-antivirus.html"> <img width="330" height="140" src="/uploads/52aab2c713b419525291e3cb647f9d2a.jpg" class="attachment-thumb-wide size-thumb-wide wp-post-image" alt="Как удалить AVG антивирус" / loading=lazy> </a> </div> <div class="widget-article__body"> <div class="widget-article__title"><a href="/configuring-wi-fi/kak-udalit-avg-s-kompyutera-polnostyu-kak-udalit-avg-antivirus.html">Как удалить AVG антивирус</a></div> </div> </div> </div> <div id="text-11" class="widget widget_text"> <div class="textwidget"> <p></p> <div id="yandex_rtb_R-A-218842-11"></div> <p> </p> </div> </div> <div id="text-12" class="widget widget_text"> <div class="textwidget"> <div id="luqusa2" style="height:500px;width:300px;" align="center"></div> </div> </div> </aside> </div> <div class="footer-navigation container"> <div class="main-navigation-inner "> <div class="menu-menyu-2-container"><ul id="footer_menu" class="menu"> <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item"><a href="/feedback.html">Контакты</a></li> <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item"><a href="">О нас</a></li> <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item"><a href="">Реклама</a></li> </ul></div> </div></div> <footer class="site-footer container" itemscope itemtype="http://schema.org/WPFooter"> <div class="site-footer-inner "> <button type="button" class="scrolltop js-scrolltop"></button> <div class="footer-info"> © 2024 crabo.ru Компьютерный портал </div> <div class="footer-counters"> </div> </div></footer> </div> <script type="text/javascript"> //<![CDATA[ jQuery(document).ready(function() { cli_show_cookiebar({ settings: '{ "animate_speed_hide":"500","animate_speed_show":"500","background":"#fff","border":"#444","border_on":true,"button_1_button_colour":"#1e73be","button_1_button_hover":"#185c98","button_1_link_colour":"#ffffff","button_1_as_button":true,"button_2_button_colour":"#333","button_2_button_hover":"#292929","button_2_link_colour":"#444","button_2_as_button":true,"font_family":"inherit","header_fix":true,"notify_animate_hide":true,"notify_animate_show":false,"notify_div_id":"#cookie-law-info-bar","notify_position_horizontal":"right","notify_position_vertical":"bottom","scroll_close":false,"scroll_close_reload":false,"showagain_tab":false,"showagain_background":"#fff","showagain_border":"#000","showagain_div_id":"#cookie-law-info-again","showagain_x_position":"100px","text":"#000","show_once_yn":false,"show_once":"10000"} ' }); }); //]]> </script> <script type='text/javascript' src='https://crabo.ru/wp-content/plugins/jetpack/modules/photon/photon.js'></script> <script type='text/javascript' src='https://crabo.ru/wp-content/plugins/table-of-contents-plus/front.min.js'></script> <script type='text/javascript' src='https://crabo.ru/wp-content/plugins/wp-polls/polls-js.js'></script> <script type='text/javascript' src='https://crabo.ru/wp-content/plugins/clearfy/components/comments-plus/assets/js/url-span.js'></script> <script type='text/javascript' src='https://crabo.ru/wp-content/themes/root/js/scripts.js'></script> <script type='text/javascript' src='/wp-includes/js/comment-reply.min.js'></script> <script type='text/javascript'> var q2w3_sidebar_options = new Array(); q2w3_sidebar_options[0] = { "sidebar": "sidebar-1", "margin_top": 10, "margin_bottom": 0, "stop_id": "", "screen_max_width": 0, "screen_max_height": 0, "width_inherit": false, "refresh_interval": 1500, "window_load_hook": false, "disable_mo_api": false, "widgets": ['text-11'] }; </script> <script type='text/javascript' src='/wp-includes/js/wp-embed.min.js'></script> <script async="async" type='text/javascript' src='https://crabo.ru/wp-content/plugins/akismet/_inc/form.js'></script> </body> </html> <script data-cfasync="false" src="/cdn-cgi/scripts/5c5dd728/cloudflare-static/email-decode.min.js"></script>