Технология поиска и публикации информации. Анализ веб-страниц и занесение результатов анализа на тот или иной уровень базы данных поискового сервера. Основные источники индексирования для документов WWW

А сколько
стоит написать твою работу?

Тип работы Дипломная работа (бакалавр/специалист) Курсовая с практикой Курсовая теория Реферат Контрольная работа Задачи Эссе Аттестационная работа (ВАР/ВКР) Бизнес-план Вопросы к экзамену Диплом МВА Дипломная работа (колледж/техникум) Другое Кейсы Лабораторная работа, РГР Магистерский диплом Он-лайн помощь Отчёт по практике Поиск информации Презентация в PowerPoint Реферат для аспирантуры Сопроводительные материалы к диплому Статья Тест Часть дипломной работы Чертежи Срок 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Сдачи Январь Февраль Март Апрель Май Июнь Июль Август Сентябрь Октябрь Ноябрь Декабрь цену

Вместе с оценкой стоимости вы получите бесплатно
БОНУС: спец доступ к платной базе работ!

и получить бонус

Спасибо, вам отправлено письмо. Проверьте почту.

Если в течение 5 минут не придет письмо, возможно, допущена ошибка в адресе.

Технология поиска документальной информации в Интернет

Похожие рефераты:

Характеристика поисковых машин: сущность, задачи, базовые компоненты; основные параметры. Глобальные поисковые системы, их достоинства и недостатки; особенности правовой системы - Garant. Стратегия и методика профессионального информационного поиска.

Общие принципы организации поиска информации в сети Интернет. Поиск с помощью каталогов информационных ресурсов и с помощью поисковых машин. Правила поиска информации, касающейся учета текущих обязательств и расчетов с покупателями и заказчиками.

Кабардино-Балкарский Государственный Университет Колледж Информационных Технологий и Экономики Реферат «Поисковые системы Интернета» Выполнил:

Программа-просмотрщик Internet Explorer как расширение программы Проводник, ориентированное на работу не только с файловой системой данного компьютера, но и с Web-документами Интернета. Особенности программы-приложения просмотрщика картинок PixGrabber.

2. Поисковые системы и машины в Internet. Обратимся к истории возникновения сети Internet, которая была создана в связи с возникшей необходимостью совместного использования информационных ресурсов, распределенных между различными компьютерными системами. Большинство первых приложений, включая FTP и...

Структура справочно-поисковых систем сети Интернет, работа механизмов поиска. Сравнительный обзор справочно-поисковых систем (Gopher, WAIS, WWW, AltaVista, Yahoo, OpenText, Infoseek). Поисковые роботы, наиболее популярные справочно-поисковые системы.

Знание основных понятий и терминов позволяет провести углубленный поиск с применением ключевых слов, наиболее точно характеризующих искомую тему. При этом следует различать приемы простого, расширенного и контекстного поиска.

Характеристика методов поиска информации в Интернете, а именно - с использованием гипертекстовых ссылок, поисковых машин и специальных средств. Анализ новых интернет ресурсов. История возникновения и описание западных и русскоязычных поисковых систем.

Всемирная Паутина - это совокупность информационных ресурсов, связанных средствами телекоммуникаций и основанных на гипертекстовом представлении данных, разбросанных по всему миру. Всемирная Паутина также обозначается как WWW.

Поиск - жизненно важен для пользователей, с его помощью они работают со сложными веб-сайтами. Лучшие веб-сайты предлагают поле простого поиска на главной странице и отказываются от продвинутого поиска и использования рамок поиска.

Типология методов поиска. Непосредственный поиск с использованием гипертекстовых ссылок. Технология поиска с использованием поисковых машин. Составление и выполнение запросов к поисковым машинам.

Технология гиперпосылок, содержащихся в WWW - документах и отрабатываемых программами доступа к WWW - серверам составляет основное отличие WWW, позволяющее пользователям быстро ориентироваться в Internet.

Что такое Internet. Краткая история Internet. Основные протоколы в Internet и поиск в них. Всемирная паутина. Поисковые системы в России.

Интернет предоставил нам лёгкий и быстрый доступ к большому количеству информационных материалов, возможность как читать, сохранять, распечатывать эти материалы, так и самим размещать полезную, а может и бесполезную информацию в сети.

Изучение типов подключения (постоянное по выделенной линии, сеансное телефонное Dial-up), доступа к информации, видов сервисов (интерактивные, прямые, отложенного чтения) и поисковых систем (Lycos, AltaVista, Yahoo, OpenText, WAIS) в сети Интернет.

История появления и развития сети Интернет, особенности ее гуманитарной и технической стороны. Применение системы World Wide Web - "Всемирная паутина". Ключевые аспекты WWW-технологии, специфика ее использования для создания образовательных ресурсов.

Понятие системы "Интернет", использование, размер сети, количество абонентов и пользователей. Поисковые системы, подход к сбору информации о ресурсах Интернет. Современные поисковые серверы. Работа с каталогами ресурсов, сохранение информации в Интернете.

Технологии поиска в интернете

С каждым годом объемы Интернета увеличиваются в разы, поэтому вероятность найти необходимую информацию резко возрастает. Интернет объединяет миллионы компьютеров, множество разных сетей, число пользователей увеличивается на 15-80% ежегодно. И, тем не менее, все чаще при обращении к Интернет основной проблемой оказывается не отсутствие искомой информации, а возможность ее найти. Как правило, обычный человек в силу разных обстоятельств не может или не хочет тратить на поиск нужного ему ответа больше 15-20 минут. Поэтому особенно актуально правильно и грамотно научиться, казалось бы, простой вещи - где и как искать, чтобы получать ЖЕЛАЕМЫЕ ответ. Чтобы найти нужную информацию, необходимо найти её адрес. Для этого существуют специализированные поисковые сервера (роботы индексов (поисковые системы), тематические Интернет-каталоги, системы мета-поиска, службы поиска людей и т.д.). В данном мастер-классе раскрываются основные технологии поиска информации в Интернет, предоставляются общие черты поисковых инструментов, рассматриваются структуры поисковых запросов для наиболее популярных русскоязычных и англоязычных поисковых систем.

Web-технология World Wide Web (WWW) считается специальной технологией подготовки и размещения документов в сети Интернет. В состав WWW входят и web-страницы, и электронные библиотеки, каталоги, и даже виртуальные музеи! При таком обилии информации остро встает вопрос: «Как сориентироваться в столь огромном и масштабном информационном пространстве?» В решении данной проблемы на помощь приходят поисковые инструменты.Поисковые инструменты - это особое программное обеспечение, основная цель которого - обеспечить наиболее оптимальный и качественный поиск информации для пользователей Интернета. Поисковые инструменты размещаются на специальных веб-серверах, каждый из которых выполняет определенную функцию:

Анализ веб-страниц и занесение результатов анализа на тот или иной уровень базы данных поискового сервера.

Поиск информации по запросу пользователя.

Обеспечение удобного интерфейса для поиска информации и просмотра результата поиска пользователем.

Приемы работы, используемые при работе с теми или другими поисковыми инструментами, практически одинаковы. Перед тем как перейти к их обсуждению, рассмотрим следующие понятия:

Интерфейс поискового инструмента представлен в виде страницы с гиперссылками, строкой подачи запроса (строкой поиска) и инструментами активизации запроса.

Индекс поисковой системы - это информационная база, содержащая результат анализа веб-страниц, составленная по определенным правилам.

Запрос - это ключевое слово или фраза, которую вводит пользователь в строку поиска. Для формирования различных запросов используются специальные символы ("", ~), математические символы (*, +, ?).

Схема поиска информации проста. Пользователь набирает ключевую фразу и активизирует поиск, тем самым получает подборку документов по сформулированному (заданному) запросу. Этот список документов ранжируется по определенным критериям так, чтобы вверху списка оказались те документы, которые наиболее соответствуют запросу пользователя. Каждый из поисковых инструментов использует различные критерии ранжирования документов, как при анализе результатов поиска, так и при формировании индекса (наполнении индексной базы данных web-страниц)Таким образом, если указать в строке поиска для каждого поискового инструмента одинаковой конструкции запрос, можно получить различные результаты поиска. Для пользователя имеет большое значение, какие документы окажутся в первых двух-трех десятках документов по результатам поиска и на сколько эти документы соответствуют ожиданиям пользователя. Большинство поисковых инструментов предлагают два способа поиска - simple search (простой поиск) и advanced search (расширенный поиск) с использованием специальной формы запроса и без нее. Рассмотрим оба вида поиска на примере англоязычной поисковой машины. Например, AltaVista удобно использовать для произвольных запросов, «Something about online degrees in information technology», тогда как поисковый инструмент Yahoo позволяет получать мировые новости, информацию о курсе валют или прогнозе погоды.

Освоение критериев уточнения запроса и приемов расширенного поиска, позволяет увеличивать эффективность поиска и достаточно быстро найти необходимую информацию. Прежде всего, увеличить эффективность поиска Вы можете за счет использования в запросах логических операторов (операций) Or, And, Near, Not, математически х и специальных символов. С помощью операторов и или символов пользователь связывает ключевые слова в нужной последовательности, чтобы получить наиболее адекватный запросу результат поиска. [ 9 ]

Интернет-ресурсов в Глобальной сети становится все больше, а найти там необходимую информацию с каждым днем все труднее. Поэтому у всех участников рынка современных поисковых систем уже сложилось впечатление, что сегодняшние технологии поиска устарели и что необходимо менять саму концепцию поиска. В настоящий момент бесспорным лидером поиска все еще является Google -- 47% всех пользователей Интернета выбирают именно этот сервис, далее идут Yahoo ! и MSN -- 21 и 13% обращений соответственно, то есть в целом более 80% жителей планеты предпочитают именно эти поисковики. Одна ко ни один из трех главных поисковых серверов не может похвастаться высокой степенью лояльности среди своих постоянных пользователей: почти 71% из тех, кто искал в Yahoo !, также посещают иногда и один из двух других сервисов -- Google или MSN Search , 70% из тех, кто искал в MSN , также пытали удачу в том или ином конкурентном поисковом механизме. Видя такую неудовлетворенность результатами поиска, создатели поисковых машин стараются совершенствовать свои поисковые механизмы и пытаются применять новые технологии поиска. Так, на портале Google был запущен так называемый самоконструктор (self - constructor), где пользователи этой поисковой системы могут настроить процесс поиска по своему усмотрению. К примеру, если пользователя интересует погода, он с может видеть информер погодных условий именно в своем городе. А способ отображения новостей, вывод биржевых сводок и многие другие полезные вещи можно настроить в соответствии со своими интересами. Естественно, все подобные настройки пользователь сможет использовать, только пока он авторизован на сайте поисковика. С появлением этой технологии сайт Google во многом опередил своих конкурентов -- старейшие порталы Интернета Yahoo ! и MSN .

Цель модуля- получить представление об основных принципах функционирования поисковых систем Internet, изучить технологии эффективного поиска информационных ресурсов.

Постановка задачи поиска

Рассмотрим постановку задачи поиска. Для этого нам необходимо ответить на три вопроса: что искать (какие источники информации); где искать (место размещения этих источников) и как искать (какие инструменты для этого использовать).

Источники информации в сети Интернет

Выделим основные источники информации, представленные в Internet. Это:

  • документы WWW ;
  • статьи в группах новостей и списках рассылки;
  • файлы в библиотеках файлов;
  • справочники адресной информации об организациях и людях (электронная почта, адрес, телефон);
  • статьи в тематических базах данных, энциклопедиях.

Размещение источников информации в Интернет

Теперь ответим на вопрос, где размещаются эти источники информации. Это такие популярные ресурсы Internet, как WWW , группы новостей, списки рассылки и FTP -серверы. В настоящее время основным местом размещения информации в Internet является всемирная паутина.

Способа поиска

Безусловно, можно искать источники информации «вручную», начиная с какого-либо стартового адреса и переходя по нужным ссылкам. Вы можете узнать адреса из специализированных журналов по информатике и Internet, использовать справочники под названием Желтые страницы с классифицированными по категориям адресами фирм и учреждений. Подобные справочники выпускаются в бумажном варианте или на CD -ROM . Однако для эффективного поиска информации в таком изменчивом пространстве как Internet необходимо научиться пользоваться специальными инструментами, цель которых - собирать данные об информационных ресурсах глобальной компьютерной сети и предоставлять пользователям услугу быстрого поиска.

Информационно-поисковые системы (ИПС). Определение.

Таким образом, мы подходим к понятию автономного инструмента поиска - информационно-поисковой системы.

ИПС - то система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска.

Главная задача ИПС

Главной задачей любой ИПС является поискинформации в соответствии с информационными потребностями пользователя, формируемыми в виде запроса. Очень важно в результате проведенного поиска ничего не потерять, то есть найти в индексе все документы, относящиеся к запросу (полнота поиска), и не найти ничего лишнего (точность поиска). Поэтому вводится качественная характеристика процедуры поиска - релевантность.

Релевантность - это соответствие результатов поиска сформулированному запросу.

Основные показатели ИПС для WWW

Далее мы будем, в основном, рассматривать ИПС для всемирной паутины (WWW ). Основными показателями ИПС для WWW являются пространственный масштаб и специализация.

По пространственному масштабу ИПС можно разделить на локальные, глобальные, региональные и специализированные. Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера. Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Internet. Глобальные поисковые системы в отличие от локальных стремятся по возможности наиболее полно описать ресурсы всего информационного пространства сети Internet.

Кроме того, ИПС могут специализироваться по поиску различных источников информации, например, документов WWW , файлов, адресов и т.д.

Основные задачи проектирования ИПС для WWW

Рассмотрим подробнее основные задачи, которые должны решить разработчики ИПС. Как следует из определения, ИПС для WWW проводят поиск в собственной базе (индексе), в которой содержится результат описания распределенных источников информации. Значит, сначала нужно описать информационные ресурсы и создать индекс. Построение индекса начинается с определения начального набора URL источников информации. Затем проводится процедура индексирования.

Индексирование - описание источников информации и построение индекса.

Индекс - специальная база данных для эффективного поиска описанных информационных ресурсов.

В некоторых информационно-поисковых системах описание источников информации проводится персоналом ИПС, то есть людьми, которые составляют краткую аннотацию на каждый ресурс. Затем, как правило, проводится сортировка описанных ресурсов по темам (составление тематического каталога). Конечно, описание, составленное человеком, будет адекватно источнику. Правда, в этом случае процедура индексирования занимает значительный период времени, поэтому формируемый индекс имеет, как правило, ограниченный объем. Зато поиск в подобной системе можно будет проводить так же легко, как в тематических каталогах библиотек.

В ИПС другого типа процедура описания информационных ресурсов автоматизирована. Для этого разрабатывается специальная программа-робот, которая по определенной технологии обходит ресурсы, описывает их (проводит индексирование) и анализирует ссылки с текущей страницы для расширения области поиска. Как может описать документ программа? Чаще всего просто составляется список слов, которые встречаются в тексте и других частях документа, при этом учитывается частота повторения и местоположение слова, то есть, слову приписывается своеобразный весовой коэффициент в зависимости от его значимости. Например, если слово находится в названии Web -страницы, робот присвоит ему более высокий коэффициент. Поскольку описание автоматизировано, затраты времени невелики, и индекс может оказаться очень большим по размеру. Таким образом, следующей задачей для ИПС второго типа является разработка робота-индексировщика.

Робот-индексировщик - программа, которая служит для сканирования Internet и поддержки базы данных индекса в актуальном состоянии.

Для поиска в системах данного типа пользователю необходимо научиться составлять запросы, в простейшем случае состоящие из нескольких слов. Тогда ИПС будет искать в своем индексе документы, в описаниях которых встречаются слова из запроса. Для проведения более качественного поиска необходимо разрабатывать специальный язык запросов для пользователя. В зависимости от особенностей построения модели индекса и поддерживаемого языка запросов разрабатываются механизм поиска и алгоритм сортировки результатов.

Поскольку индекс имеет значительный объем, количество найденных документов может оказаться достаточно большим. Следовательно, чрезвычайно важно, как поисковая машина проведет поиск и отсортирует его результаты.

Существенное значение имеет внешний вид поисковой системы, предстающий перед пользователем, поэтому одной из задач является разработка удобного и красивого интерфейса.

Наконец, исключительно важна форма представления результатов поиска, поскольку пользователю необходимо узнать как можно больше о найденном источнике информации, чтобы принять правильное решение о необходимости его посещения.

Работа с ИПС для WWW

Рассмотрим обобщенную схему взаимодействия пользователя с информационно-поисковой системой для всемирной паутины WWW (рис. 1.). Пользователь с помощью стандартной программы-клиента для всемирной паутины (браузера) подключается к ИПС по ее адресу и формулирует запрос для поиска.

Основным компонентом ИПС является поисковая машина, которая проводит в индексе поиск ссылок на информационные ресурсы и выдает результаты поиска пользователю.

Как уже говорилось ранее, поиск осуществляется в специальной базе, именуемой индексом. Архитектура индекса устроена таким образом, чтобы поиск проходил максимально быстро, и можно было использовать эффективные алгоритмы сортировки результатов поиска. В идеале результаты поиска должны быть отсортированы таким образом, чтобы наиболее релевантные ссылки находились вверху списка.


Основные источники индексирования для документов WWW

Как известно, Web -страница - это сложный документ, состоящий из множества элементов. При описании подобного документа программой-роботом необходимо учитывать, в какой именно части Web -страницы встретилось данное слово. Источниками индексирования для документов WWW обычно являются:

  • заголовок Web -страницы (Title );
  • заголовки различных уровней (H 1- H 6);
  • аннотация (Description);
  • списки ключевых слов (KeyWords);
  • гипертекстовые ссылки;
  • полные тексты документов.

Поисковые системы, которые описывают весь текст документа WWW , называются полнотекстовыми.

Особенности и процедуры индексирования

Во время процедуры индексирования часто производится нормализация лексики (приведение слова к базовой форме). Некоторые неинформативные слова, например, союзы или предлоги, не индексируются. В каждой ИПС существует свой список так называемых стоп-слов, которые игнорируются в процессе индексирования. В системах с сильно изменяемыми языками, например, русским, проводится учет морфологии. Учет морфологии означает умение работать с различными формами слов конкретного языка. Здесь следует отметить относительную сложность русского языка, слова которого изменяются по числам, падежам, родам и временам, причем зачастую неожиданным образом (например: идет, шел, пойдет, идут и т.д.). Все существующие ИПС с учетом морфологии русского языка используют «Грамматический словарь русского языка», составленным Андреем Анатольевичем Зализняком. Словарь включает 90000 словарных статей, по каждому слову даются сведения о том, изменяемо ли оно, и как именно оно склоняется или спрягается.

Средства поиска в WWW

Из вышеизложенного следует, что основными инструментами поиска информации в WWW являются ИПС. Однако в Internet существуют средства поиска, имеющие принципиальные отличия от рассмотренных выше ИПС. В общем случае, можно выделить следующие поисковые инструменты для WWW : поисковые системы, метапоисковые системы (поисковые службы) и программы ускоренного поиска (поисковые агенты).


Центральное место по праву принадлежит поисковым системам, которые в свою очередь подразделяются на каталоги, автоматические индексы (поисковые машины) и каталоги-машины. Только поисковые системы почти в полном объеме обладают возможностями и свойствами ИПС.

Каталог (Directory) - поисковая система, в которой описание ресурсов проводится персоналом (людьми). Затем проводится сортировка описанных ресурсов по темам (составление тематического каталога).

Поисковая машина (Search Engine) - поисковая система, которая для автоматизации процедуры описания информационных ресурсов использует программу-робот.

Последнее время во всемирной паутине стали появляться системы, автоматически осуществляющие поиск сразу в двух индексах (индексе каталога и индексе поисковой машины). Подобные системы позволяют использовать преимущества поисковых серверов обоих типов и называются каталогами-машинами.

Принципиальным отличием метапоисковых систем и программ ускоренного поиска от ИПС является отсутствие своего собственного индекса. Данные инструменты проводят поиск в индексах других поисковых систем.

Метапоисковая система (Metacrawler) - поисковая система, не имеющая своего индекса, но способная послать запросы пользователя одновременно нескольким поисковым серверам, затем отобрать самые релевантные результаты, объединить их и представить пользователю в виде документа со ссылками.

Программа ускоренного поиска (Searchbots) - это программа, устанавливаемая на компьютере пользователя, способная отправить запрос нескольким поисковым серверам и отсортировать полученные результаты, удаляя дубликаты.

Заметим, что большинство поисковых систем являются одним из компонентов многофункциональных Web -сайтов Internet - так называемых порталов.

Портал - многофункциональный Web -узел Internet , предлагающий разнообразные услуги: поиск информации, бесплатная электронная почта и т.д.

Каталоги WWW

Рассмотрим особенности систем-каталогов. В каталогах описание источников информации проводится персоналом, то есть, людьми, которые составляют краткую аннотацию на каждый ресурс. Затем, как правило, проводится сортировка описанных ресурсов по темам (составление тематического каталога).

Поиск в каталоге очень удобен и проводится посредством последовательного уточнения тем. На начальной (домашней) странице системы подобного рода вы увидите список самых крупных тем (категорий), выделенных персоналом каталога, реализованных в виде гипертекстовых ссылок. Например, Компьютеры, Интернет, Образование, Искусство и т.д. Выбрав ссылку на категорию первого уровня, вы попадете на страницу со списком подкатегорий, и т.д. Таким образом, не углубляясь в сложности составления запросов, вы достаточно легко найдете источники по выбранной вами тематике. Следует заметить, что ресурсы, описанные в каталогах, обычно представляют собой специализированные сайты высокого качества.

Многие каталоги поддерживают возможность быстрого поиска определенной категории или страницы по ключевым словам с помощью локальной поисковой машины.

Отметим, что база данных ссылок (индекс) каталога обычно имеет ограниченный объем. Некоторые каталоги используют программы-роботы для автоматического обновления индекса.

Результат поиска в каталоге представляется в виде списка; по каждому ресурсу дается краткое описание (аннотация) с гипертекстовой ссылкой на первоисточник.

Адреса известных каталогов

Среди самых популярных зарубежных каталогов следует в первую очередь упомянуть каталог Yahoo . В число каталогов с размером индекса свыше 2 миллионов ссылок входят каталоги Open Directory и LookSmart .

  • Yahoo!
  • Open Directory
  • LookSmart

Российские популярные каталоги:

  • Каталог @mail.ru (List.ru)
  • Созвездие Интернет (Каталог Апорт)

Внешний вид каталога Yahoo!

Рассмотрим внешний вид домашней страницы самого популярного англоязычного каталога Yahoo (http :// www . yahoo . com ) (рис. 3). Как обычно, на начальной странице систем-каталогов вы обязательно увидите список крупных тем (категорий). В каталоге Yahoo ! есть возможность проведения быстрого поиска по ключевым словам с использованием бланка для ввода запроса. Наиболее простым способом поиска является последовательные щелчки мышью по нужной вам категории. Например, наша задача - найти Web -сайты, посвященные on - line курсам по компьютерным наукам, то есть курсам, проводящим обучение через Internet . В этом случае можно выбрать следующую схему уточнения по темам: с домашней страницы выбираем ссылку Science (Наука), далее Computer Science (Компьютерные науки), затем Courses (Курсы) и Courses Online (Курсы Онлайн). В результате переходов получаем список аннотаций с названиями соответствующих страниц (рис. 4). Далее с помощью щелчка по заинтересовавшей ссылке можно перейти к первоисточнику и изучить его.



Поисковые машины

Отличительной чертой поисковых машин является тот факт, что база данных с информацией об Web -страницах формируется и поддерживается в актуальном состоянии программой-роботом и, как следствие, имеет гораздо больший объем по сравнению с системами каталогового типа. Например, поисковая машина Altavista содержит в индексе порядка 550 миллионов ссылок (по состоянию на 6.04.2001).

Поиск в такой системе обычно проводится по запросу, формулируемому пользователем и состоящему в простейшем случае из набора ключевых слов. В последнее время существует тенденция сортировки содержимого индекса по категориям, что позволяет сузить область поиска и использовать возможность поиска с уточнением темы.

Простой поиск. Обобщенные возможности формирования запроса.

Как правило, поисковые машины поддерживают два режима: режим простого поиска и режим расширенного поиска. Рассмотрим обобщенные возможности формирования запроса в режиме простого поиска. Можно просто вводить через пробел одно или несколько слов; поиск слов со всевозможными окончаниями моделируется символом * в конце слова. Многие системы позволяют искать словосочетания или фразу, для этого искомый фрагмент необходимо заключить в кавычки. Возможно обязательное включение или исключение определенных слов, реализуемое знаками + и - соответственно, набираемыми вплотную к ключевому слову.

Основная проблема поиска по примитивно составленному запросу (в виде перечисления ключевых слов) заключается в том, что поисковая машина найдет все страницы, на которых указанные слова встречаются в любой части документа. В результате количество найденных страниц будет слишком велико. Для улучшения качества поиска в режиме простого поиска допустимо использование логических операторов и операторов, позволяющих ограничить область поиска, а также выбор определенной категории документов из представленного списка.

Операторы, устанавливающие отношения между ключевыми словами

Большинство поисковых систем используют следующие операторы, устанавливающие отношения между ключевыми словами:

  • AND (И) &- обязательное присутствие всех ключевых слов;
  • OR (ИЛИ) | - присутствие хотя бы одного из ключевых слов;
  • NOT (НЕ) ! - отсутствие ключевого слова;
  • NEAR (ОКОЛО) ~ - определенный интервал между ключевыми словами.

В качестве примера приведем запрос, который можно сформулировать в поисковой машине Altavista , для нахождения документов, в которых присутствует слово интернетсо всевозможными окончаниями и словосочетание поиск работы, причем расстояние между ними не должно превышать 10 слов:

интернет* NEAR "поиск работы"

Специальные операторы

Многие поисковые системы включают в свой язык составления запросов специальные операторы, позволяющие проводить поиск в определенных зонах документа (например, в его заголовке) или искать документ по известной части его адреса. Полезной возможностью является поиск документов в сети, ссылающихся на страницу с указанным вами адресом (URL ). Таким способом можно найти в сети страницы, на которых есть ссылки на ваш Web -сайт. Некоторые системы позволяют ограничить область поиска внутри указанного домена.

В качестве дополнительных специальных операторов можно выделить:

  • операторы поиска документов с определенным графическим файлом;
  • операторы ограничения по дате;
  • операторы уточнения по количеству слов между указанными ключевыми словами;
  • операторы учета словоформы;
  • операторы сортировки результатов (по релевантности, свежести, старости).

Примечание. К сожалению, на сегодняшний день не существует стандарта на количество и синтаксис поддерживаемых операторов для различных поисковых систем, однако предпринимаются попытки разработать общий стандарт. На данном этапе развития средств поиска пользователь, обращаясь к определенной поисковой системе, непременно должен в первую очередь ознакомиться с ее правилами по составлению запросов. Обычно на домашней странице присутствует ссылка Помощь (Help), по которой вы сможете перейти к справочной информации.

Сравните, какой вид имеет оператор поиска в заголовке в поисковых системах Altavista , Яndex , Апорт:

  • Altavista : title:(выражение)
  • Яndex : $title (выражение)
  • Апорт : title=(выражение)

Расширенный (детальный, advanced) поиск

Чтобы написать запрос с уточнением параметров, необходимо знать язык составления запросов для конкретной поисковой машины. Это не очень просто для пользователя, поэтому многие автоматические индексы предлагают воспользоваться возможностями так называемого режима расширенного поиска. Как правило, на начальной странице поисковой системы есть ссылка Расширенный поисе (Advanced Search), реализующая переход к соответствующему режиму составления запросов.

Режим расширенного или детального запроса в разных системах реализован индивидуально, но чаще всего это бланк, в котором упомянутые выше операторы реализуются установкой соответствующих флажков или выбором параметров из списка. Таким образом, у вас появляется возможность составить качественный запрос, не прибегая к сложному языку и многочисленным операторам.

Представление результатов поиска

Рассмотрим способы представления результатов поиска в поисковых машинах. Обычно количество найденных документов превышает несколько десятков, а в отдельных случаях может достигать сотен тысяч! Поэтому в качестве формы выдачи составляется список ссылок на документы по 5-10-15 единиц на странице с возможностью перехода к следующей группе внизу страницы. Обязательно указывается заголовок и URL (адрес) найденного документа, иногда система указывает в процентах степень релевантности документа.

В описании документа чаще всего содержится несколько первых предложений или выдержки из текста документа с выделением ключевых слов. Как правило, указана дата обновления (проверки) документа, его размер в килобайтах, некоторые системы определяют язык документа и его кодировку (для русскоязычных документов).

Обработка результатов поиска

Что можно делать с полученными результатами? Если название и описание документа соответствует вашим требованиям, можно немедленно перейти к его первоисточнику по ссылке. Это удобнее делать в новом окне, чтобы иметь возможность далее анализировать результаты выдачи. Многие поисковые системы позволяют проводить поиск в найденных документах, причем вы можете уточнить ваш запрос введением дополнительных терминов. Если интеллектуальность системы высока, вам могут предложить услугу поиска похожих документов. Для этого вы выбираете особенно понравившийся документ и указываете его системе в качестве образца. Однако, автоматизация определения «похожести» - весьма нетривиальная задача, и зачастую эта функция может не оправдать ваши надежды. Некоторые поисковики позволяют провести пересортировку результатов. Стандартно результаты поиска сортируются по релевантности, однако затем вы можете выбрать другой способ сортировки (например, по свежести, чтобы вверху списка были показаны самые новые документы, найденные по вашему запросу). Можно сохранить результаты поиска в виде файла на локальном диске для последующего изучения в автономном режиме.

Адреса популярных поисковых машин

Приведем адреса некоторых наиболее популярных поисковых машин за рубежом и в России.

Зарубежные поисковые машины:

Российские поисковые машины:

Примаер поиска в поисковой машине Рамблер

Рассмотрим поиск по запросу российские присковые системы в поисковой машине портала Рамблер (http://www.rambler.ru). На домашней странице поисковой системы (рис. 5) находится бланк ввода запроса для простого режима поиска. Обратите внимание на ссылку Расширенный поиск, реализующую переход к режиму расширенного поиска и ссылку Помощь для вызова справки о правилах составления запросов.

Одним из компонентов портала является система добровольного рейтинга сайтов/страниц по посещаемости Top100. Эта система дает возможность владельцам серверов определить свою популярность на основе сравнительной оценки с другими серверами. На страницах, владельцы которых желают участвовать в рейтинговой системе, размещается специальный счетчик, фиксирующий сведения о посетителях данной страницы. На основании этих данных составляются базовые рейтинги сайтов по категориям, и посетитель Рамблера может с ними ознакомиться.

Составим простейший тестовый запрос, состоящий из трех слов российские поисковые системы. В результате Рамблер нашел 75562 документа на 11041 сайте (рис. 6). Для каждой найденной страницы мы видим заголовок, начало текста, размещенного на странице, дату последнего обновления, размер файла, кодировку и URL документа. Для уточнения результатов поиска есть возможность установить переключатель в найденном в бланке запроса, ввести в поле ввода уточняющие термины и провести поиск среди найденных документов. Кроме того, можно обратиться к поисковой системе с просьбой найти похожие страницы, выбрав ссылку Найти похожие, размещенную под описанием избранного вами документа.



Режим расширенного поиска в Рамблере

По ссылке Расширенный поиск можно перейти к соответствующему режиму поиска. Данный режим предполагает возможность составления достаточно сложного запроса без использования операторов. Вы видите бланк ввода запроса и ряд переключателей и полей, позволяющих уточнить параметры поиска. Например, нам нужно найти документы со словами российские поисковые системы в названии страницы, с ограничением расстояния между ключевыми словами и сортировкой результатов по дате (рис. 7).



С установленными ограничениями Рамблер нашел всего 77 документов, что значительно облегчает дальнейший анализ полученных результатов (рис. 8).

Метапоисковые системы (поисковые службы)

Заметим, что различные поисковые системы описывают разное количество источников информации в Internet. Поэтому нельзя ограничиваться поиском только в одной из поисковых систем. Познакомимся с инструментами поиска, которые не формируют собственный индекс, но умеют использовать возможности других поисковых систем. Это метапоисковые системы (поисковые службы, Metacrawlers ), способные послать запрос пользователя одновременно нескольким поисковым серверам, отобрать ограниченное число самых релевантных источников информации, которые, как правило, размещены вверху результирующего списка, затем объединить полученные результаты и представить их пользователю в виде документа со ссылками. Возможности расширенного поиска в таких системах означают выбор конкретных поисковых систем для проведения поиска.

Адреса известных метапоисковых систем:

  • MetaCrawler
  • Search.com
  • Dogpile

Программы ускоренного поиска. Определение.

Наконец, рассмотрим последний в приведенной классификации инструмент поиска - программы ускоренного поиска или поисковые агенты (Search Agent или Searchbots ).

Программа ускоренного поиска - это приложение, устанавливаемое на компьютере пользователя и способное:

  • посылать запросы к нескольким поисковым серверам;
  • сортировать результаты поиска по релевантности;
  • удалять дубликаты;
  • проверять наличие документов в сети.

Удобство использования программ данного типа очевидно, ведь для вас нет необходимости устанавливать связь с многочисленными поисковыми системами и отправлять запросы к каждой индивидуально. Достаточно запустить на своем персональном компьютере программу поисковый агент, составить запрос (можно использовать некоторые уточнения, например, поиск в заголовках искомых страниц) и отправить его сразу к нескольким популярным поисковым системам, предварительно выбранным из встроенного списка. Некоторые коммерческие версии программ ускоренного поиска допускают создание собственного списка поисковиков. Также предварительно можно установить максимальное число ссылок, получаемых с каждой системы.

Приведем названия некоторых популярных программ ускоренного поиска и адреса их разработчиков в Internet :

  • Web Ferret
  • Subject Search Spider (SSSpider)

Таким образом, используя метапоисковые системы и поисковые агенты, можно проводить обзор самых популярных и релевантных источников информации, проиндексированных в различных поисковых системах.

Параметры эффективности поиска информации

После подробного изучения основных возможностей инструментов обратимся к проблеме эффективности поиска. Основными параметрами эффективности поиска являются:

  • полного поиска как отношение числа найденных документов к общему числу релевантных документов;
  • точность поиска - отношение числа релевантных документов к общему числу полученных документов;
  • актуальность ссылок на документы - существование найденных документов в сети в настоящий момент;
  • скорость поиска.

Факторы, влияющие на эффективность поиска

Итак, мы выяснили, что в Internet существуют различные инструменты поиска, обладающие разными функциональными возможностями. Качество поиска, таким образом, зависит в первую очередь от параметров конкретной поисковой системы, например, от размеров индекса, от способа поиска (уточнение тем или поиск по запросу) и т.д. Далее, работая с конкретной поисковой системой, нужно иметь представление о методах составления запросов, знать необходимые операторы.

Таким образом, можно выделить следующие факторы, влияющие на эффективность поиска:

  • свойства и возможности поисковой системы;
  • качество формулировки запроса пользователем.

Сравнительные возможности поисковых систем

Каким образом можно оценить качество поискового инструмента? Поисковые системы обычно сравнивают по следующим параметрам:

  • Количество проиндексированных страниц (объем индекса).
  • Период обновления индекса. Этот показатель влияет на такой параметр как актуальность найденных ссылок. Чем чаще обновляется индекс, тем реже в результатах поиска будут встречаться устаревшие ссылки.
  • Задержка перед пропиской. Данный параметр указывает на временной интервал перед занесением описания Web -страницы в индекс после просьбы ее автора.
  • Количество поддерживаемых операторов.
  • Сортировка по категориям.
  • Стандартный оператор, объединяющий по умолчанию несколько ключевых слов. Если стандартным оператором является оператор И, поисковая машина автоматически будет искать документы, на которых обязательно будут присутствовать все введенные ключевые слова. В противном случае (оператор ИЛИ) будут найдены документы со всеми ключевыми словами и с каждым по отдельности.
  • Поиск точной фразы.
  • Поиск по шаблону (поиск слов с различными окончаниями).
  • Учет словоформ. В случае автоматического режима учета словоформ система будет искать в документах слово со всеми его изменениями.
  • Чувствительность к заглавной букве. Если система не различает заглавные и строчные буквы, результаты поиска будут менее качественными.
  • Форма представления результатов.
  • Дополнительные возможности: поиск статей в группах новостей, людей, организаций, мультимедийных файлов, и т.д.

Технологии поиска информации в сети Интернет

Теперь рассмотрим, как лучше подготовиться пользователю к составлению запроса. Прежде всего, необходимо провести всесторонний лексический анализ информации, которую вы собираетесь искать. Затем желательно составить набор ключевых слов (при необходимости, на нескольких языках) в виде отдельных терминов и словосочетаний, специфичных для вашей предметной области.

Ваши действия:

  • выбор поискового инструмента;
  • точная формулировка запросов с использованием операторов, поддерживаемых данным поисковым инструментом;
  • отправка тестовых запросов;
  • анализ результатов поиска (по количеству и релевантности ссылок);
  • при необходимости, корректировка запроса;
  • повторный поиск;

Приемы эффективного поиска

Исходя из вышеизложенного, можно выделить следующие приемы эффективного поиска:

  • Поиск информации общего характера в поисковых системах-каталогах. В каталогах вы, как правило, найдете специализированные серверы в искомой области.
  • Поиск узкоспециальной информации в поисковых машинах. Для проведения более обширного поиска явно недостаточно использовать только системы-каталоги с ограниченным числом описанных ресурсов. Кроме того, узкоспециальная информация в каталогах может просто отсутствовать. Поэтому необходимо проводить поиск подобной информации в поисковых машинах, обладающих индексами большого объема.
  • Использование операторов или бланка расширенного запроса для сужения области поиска. Для проведения качественного поиска необходимо ознакомиться с языком запросов конкретной поисковой машины. Эффективным и простым способом решения проблемы составления качественного запроса является использование режима расширенного поиска.
  • Использование функции поиска среди найденных ресурсов. Большинство поисковых систем поддерживают возможность поиска внутри полученных результатов. Как правило, для этого нужно включить специальный флажок Искать в найденном и ввести дополнительные слова для повторного поиска среди найденных по запросу страниц.
  • Использование функции поиска похожих документов для нахождения релевантных страниц по выбранному вами образцу.
  • Использование метапоисковых систем и программ ускоренного поиска информации. Для получения общего обзора документов целесообразно использовать возможности метапоисковых систем или программ ускоренного поиска. Напоминаем, данные инструменты поиска отправляют ваш запрос сразу нескольким поисковым системам и от каждой системы получают несколько самых релевантных ссылок.
  • Просмотр раздела Ссылки на специализированных сайтах. Авторы многих специализированных Web -узлов накапливают свои коллекции ссылок по тематике сайта. Зачастую вы зайдете в этих коллекциях много полезных источников, сэкономив время, затрачиваемое на самостоятельный поиск с использованием рассмотренных выше инструментов.
  • Поиск ответов на вопросы в группах новостей. При желании можно обратиться с конкретным вопросом о помощи в специализированную группу новостей. Найти нужную группу можно, используя специальные инструменты поиска, которые мы рассмотрим далее.
  • Подписка на специализированные списки рассылки. После оформления подписки на специализированный список рассылки, вы будете получать по электронной почте новую информацию по выбранной тематике, а также задавать вопросы вашим коллегам по подписке.

Поиск статей в группах новостей

Обсудим проблему поиска статей в группах новостей. Инструментами поиска в данном случае могут являться некоторые поисковые машины WWW , которые индексируют не только пространство WWW , но и статьи в телеконференциях, и имеют специальный режим поиска именно в этом ресурсе. Поиск среди сообщений групп новостей, опубликованных за последние полгода, поддерживает, например, поисковый сервер Google . Поисковые системы WWW весьма оперативно индексируют группы новостей и содержат информацию о статьях, реально существующих в сети. Для поиска в архивах новостей существуют специализированные системы, самой известной из которых являлась система Deja . В феврале 2001 года компания Google Inc . объявила о приобретении системы Deja.com"s Usenet Discussion Service. Так что теперь пользователи поисковой системы Google по адресу http ://groups .google .com могут проводить поиск также в подключенном архиве системы Deja , который содержит свыше 500 миллионов сообщений, индексируемых с 1995 года.

Поиск файлов

Теперь рассмотрим инструменты, позволяющие проводить поиск файлов. Многие поисковые системы WWW оказывают услугу поиска мультимедийных файлов (Altavista , Aport , …). Для этого нет необходимости знать специальные операторы, а достаточно перейти с домашней страницы по ссылкам Картинки (Images), MP3/Audio или Video к специальному режиму поиска. Поиск проводится по возможному имени файла или по тексту в комментарии к ссылке на мультимедийный файл. Вы можете спрогнозировать имя файла, например, файл с изображением орла может называться eagle .gif . Или догадаться, что фото Билла Гейтса будет иметь соответствующую подпись.

Что касается поиска программного обеспечения, во всемирной паутине существуют поисковые Web -серверы с коллекциями условно-бесплатного ПО; некоторые из них специализируются по поиску программного обеспечения для Internet, другие предлагают найти приложения для конкретной операционной системы. Эти системы в конечном итоге приведут вас к конкретному FTP -серверу, с которого и можно скачать искомый программный продукт. Следует упомянуть серверы Archie , также оказывающие услугу поиска файлов на FTP -серверах, однако пользоваться Web -серверами гораздо удобнее.

Адреса популярных серверов для поиска программного обеспечения и мультимедийных файлов:

  • Коллекция TuCows ;
  • Коллекция условно-бесплатного ПО CNET Shareware.com ;
  • Система поиска ПО для различных платформ CNET Download.com ;
  • Система поиска ПО, компьютерных игр и мультимедийных файлов Jumbo ;
  • Система поиска мультимедийных файлов FAST Multimedia Search ;
  • Российская файловая поисковая система FILES.RU .

Поиск адресной информации об организациях и люядх

Рассмотрим поисковые инструменты для поиска адресной информации. Различают два способа поиска: Белый (White ) и Желтый (Yellow ) поиск.

White-поиск - поиск адресной информации по заранее известному имени адресата (имя человека или название организации).

Yellow-поиск - поиск имени или названия и адресной информации по дополнительным признакам (по роду деятельности, по географическому признаку).

Обычно системы Yellow Pages фактически сразу включают в себя и White Pages - у найденного адресата сразу видны его телефон и почтовый адрес. Кроме того, некоторые Yellow Pages позволяют искать просто в алфавитном списке своих абонентов (white-поиск). С другой стороны, White pages также содержат элементы yellow-поиска - кроме задания собственного имени, они обычно позволяют указать название города, штата и другие сужающие поиск данные (что необходимо в случае многих однофамильцев). Возможно, именно поэтому многие on-line телефонные справочники, выполняющие фактически white-поиск, называют себя Yellow pages.

Ниже приведены адреса некоторых Web -систем для поиска адресной информации о людях и организациях.

Поиск людей:

  • Поиск людей на Yahoo
  • Система
  • Система Bigfoot

Поиск организаций:

  • раздел Желтые страницы (Yellow pages) на поисковых системах;
  • http://www.yellowpages.com - специализированный сервер для поиска в США и других странах.

Применение поисковых систем в учебном процессе

Основные направления применения поисковых систем в учебном процессе:

  • поиск образовательных порталов;
  • поиск адресов представительств образовательных учреждений в WWW ;
  • поиск учебных пособий, энциклопедий, справочников;
  • поиск учебных on -line курсов;
  • поиск учебного программного обеспечения.

Контрольные вопросы :

  1. Постановка задачи поиска. Информационно-поисковые системы (ИПС): определение и главные задачи. Понятие релевантности.
  2. Обобщенная структура и основные компоненты ИПС для WWW. Понятие индекса. Особенности процедуры индексирования.
  3. Классификация средств поиска. Приемы работы с тематическими каталогами.
  4. Поисковые машины (автоматические индексы). Простой и сложный режимы поиска.
  5. Обобщенные возможности формирования запроса с использованием операторов.
  6. Режим сложного (расширенного) поиска. Представление и обработка результатов поиска.
  7. Метапоисковые системы (поисковые службы).
  8. Определение и основные возможности программ ускоренного поиска (поисковых агентов).
  9. Параметры эффективности поиска: полнота, точность, актуальность, скорость. Факторы, влияющие на эффективность поиска. Сравнительные возможности поисковых систем.
  10. Технология поиска информации в Internet. Приемы эффективного поиска.
  11. Поиск статей в группах новостей. Поиск файлов. Поиск адресной информации организаций и людей.
  12. Приведите примеры применения поисковых систем в ДО.

Формат: веб-документ

12.07.2011 3948 0 0

Поиск - процесс, в ходе которого в той или иной последовательности производится соотнесение отыскиваемого с каждым объектом, хранящимся в массиве.

С точки зрения использования компьютерной техники "информационный поиск " - совокупность логических и технических операций, имеющих конечной целью нахождение фактов, данных, документов, релевантных запросу потребителя.

Релевантный документ - это документ, содержащий искомую информацию.

Поисковые инструменты

  1. Поисковые машины (поисковики);
  2. Тематические каталоги (рубрикаторы);
  3. Специализированные каталоги (онлайновые энциклопедии и справочники);
  4. Метапоисковые системы.

Тематические каталоги

Тематические каталоги представляют собой систематизированную коллекцию (подборку) ссылок на другие ресурсы Интернета. Ссылки организованы в виде тематического рубрикатора, представляющего собой иерархическую структуру, перемещаясь по которой, можно найти нужную информацию.

Специализированные каталоги

Специализированные каталоги или справочники создаются по отдельным отраслям и темам, по новостям, по городам, по адресам электронной почты и т. п.

Средства метапоиска

При использовании средств метапоиска запрос осуществляется одновременно несколькими поисковыми системами. Результат поиска объединяется в общий, упорядоченный по степени релевантности список.

Поисковые машины

Поисковые машины (самое развитое средство поиска в Интернете) - это автоматические системы, опрашивающие серверы, подключенные к глобальной сети, и сохраняющие в своей базе информацию об имеющихся на серверах данных.

Поисковые машины состоят из трех частей: робота, индекса и программы обработки запроса.

Робот (Spider, Robot или Bot) - это программа, которая посещает веб-страницы и считывает (полностью или частично) их содержимое.

Индекс - это хранилище данных, в котором сосредоточены копии всех посещенных роботами страниц.

Программа обработки запроса - это программа, которая в соответствии с запросом пользователя «просматривает» индекс на предмет наличия нужной информации и возвращает ссылки на найденные документы.

Работа поисковых машин происходит в четыре этапа:

1.Сканирование веб-пространства

Поисковая система круглосуточно с помощью роботов просматривает доступное Web пространство и копирует к себе все встреченные страницы.

2. Индексация ресурсов

Обнаруженные поисковыми роботами страницы обрабатываются программой обработки запроса и из них составляется специальная база данных, именуемая указателем. Цель индексации - получить индексный файл, с помощью которого запрос клиента обрабатывается почти мгновенно.

3.Поиск по запросу

Поисковая машина принимает запрос от пользователя в виде ключевых слов и обращается не в Сеть, а в свою базу данных. Количество найденных страниц может быть очень велико, поэтому перед выдачей результатов клиенту происходит ранжирование результатов поиска.

4.Формирование результирующей страницы.

Система формирует динамическую web-страницу оформленных результатов поиска.

Сегодня известно достаточно большое количесво поисковых систем

http://сайт/uploads/posts/2013-11/1385453618_12.jpg

Крупнейшая и первая по популярности поисковая система, которая обрабатывает 42 млрд запросов в месяц, индексирует более 25 млрд веб-страниц, может находить информацию на 195 языкaх. Поддерживает поиск в документах форматов PDF, RTF, PostScript, Microsoft Word, Microsoft Excel, Microsoft PowerPoint и других.

Самый быстрый и надежный вид поиска информации в Интернете - поиск по адресам URL (Universal Resours Locator - универсальный указатель ресурса).

Для быстрого доступа к ресурсам достаточно запустить программу-браузер и набрать знакомый адрес URL в строке адреса.

Например, набрав в адресной строке адрес bolohovomt.ru можно попасть на сайт Болоховского машиностроительного техникума

Oин из самых распространенных видов поиска - это поиск по ключевым словам. Рассмотрим этот вид поиска на примере поисковой системы Google (см. видеоролик “Поиск информации”.mp4).

Для поиска по ключевым словам необходимо ввести в специальном окне слово или несколько слов, которые следует искать, и щелкнуть на кнопке Найти. Поисковая система найдет в своей базе и покажет документы, содержащие эти слова.

Скорость получения результата зависит от характеристики каналов связи, особенностей организации работы поисковика, и от «качества» построения запроса.

Если на работу поисковых систем пользователь непосредственно влиять не может, то качество составления запроса на поиск - целиком в его компетенции.

Приемы простого поиска

1.Поиск группы слов

Слова «открытое» или «образование» дадут при поиске поодиночке большое число разнообразных ссылок, относящихся к совершенно различным темам, причем вряд ли имеющим отношение к «открытому образованию». Поэтому рекомендуется добавлять одно или два ключевых слова, связанных с искомой темой. Например, «открытое образование» или «технологии открытого образования». Необходимо также сужать область вопроса. Если необходимо найти информацию о правовой системе Гарант, то запрос “правовая система Гарант” выдаст более подходящие документы, чем просто “правовая система”. Количество слов в группе не ограничивается.

2.Поиск словоформ

В большинстве случаев поисковая система по умолчанию ищет все словоформы языка. Однако, можно указать поисковой системе не перебирать все словоформы слов из запроса при поиске. Во многих системах для этого используется восклицательный знак. Например, запрос «!компьютер» найдет страницы с этим словом без учета словоформ

3.Роль прописных букв

В случае если пользователь ввел в качестве запроса ключевое слово с прописной буквы, поисковая машина не найдет страниц, где содержится это слово, начинающееся со строчной буквы. Поэтому заглавные буквы в запросе рекомендуется использовать только в именах собственных. Например, «город Москва», «Марк Тулий Цицерон».

4.Значение подстановочных символов

Когда нет уверенности в том, что поисковая система правильно обрабатывает словоформы (то есть когда речь идет, например, об именах собственных или словах иностранного происхождения) поисковые системы позволяют использовать подстановочные символы. Чаще всего это символ «*» вместо любого количества любых символов до конца слова. Например, если пользователь хочет найти страницы, содержащие слова «республика Татарстан», но устроит и Татарская республика, тогда надо подать запрос «республика Татарс*».

5.Учет зарезервированных слов

Зарезервированными словами (стоп-словами) считаются те слова, которые не учитываются при поиске. Обычно к ним относятся все короткие слова, в которые входят менее 4 букв (предлоги, союзы и т.п.). Например, при запросе «мы в Италии» будут найдены документы, в которые входит слово «Италии» или его словоформы.

6.Средства контекстного поиска

Если ключевые слова взять в кавычки, то поисковая система должна найти документы, в которых данная фраза присутствует буквально (поиск цитаты).

Приемы расширенного поиска

Для более быстрого и успешного поиска в поисковых машинах совместно с ключевыми словами используются различные логические операторы. Благодаря этому можно сконструировать запрос так, что будут найдены не сайты на интересующую тему, а конкретные страницы и даже отдельные документы. Правила составления сложных запросов на одной поисковой машине могут отличаться от таковых на другой, но в любом случае будут использоваться следующие основные операторы:

1.Оператор И (AND)

С помощью этого оператора объединяют два или более слов так, чтобы они все присутствовали в искомом документе. Часто вместо И используют & или +. Пример: по запросу юрист И программа будут найдены документы, содержащие и то и другое слово.

2.Оператор ИЛИ (OR)

Обеспечивает поиск по любому из слов группы. Пример: по запросу образование ИЛИ обучение будут найдены документы, содержащие слово образование или обучение.

3.Логические скобки

Применяются, когда надо управлять порядком следования логических операторов. Пример: по запросу Ломоносов ИЛИ (Михаил И Васильевич) будут найдены документы, содержащие слова Ломоносов или Михаил И Васильевич.

4.Оператор НЕ (NOT)

Используется, когда из результатов поиска надо исключить какое-либо ключевое слово, например, по запросу правоведы НЕ адвокаты будет найдена информация о правоведах, не являющихся адвокатами.



Понравилась статья? Поделиться с друзьями: