Методы и технологии поиска информации. Приемы эффективного поиска. Особенности и процедуры индексирования

Технология поиска информации в сети интерент.

С каждым годом объемы Интернета увеличиваются в разы, поэтому вероятность найти необходимую информацию резко возрастает. Интернет объединяет миллионы компьютеров, множество разных сетей, число пользователей увеличивается.

Чтобы найти нужную информацию, необходимо найти её адрес. Для этого существуют специализированные поисковые сервера (роботы индексов (поисковые системы), тематические Интернет - каталоги, системы мета - поиска, службы поиска людей и т.д.). В данном мастер - классе раскрываются основные технологии поиска информации в Интернет, предоставляются общие черты поисковых инструментов, рассматриваются структуры поисковых запросов для наиболее популярных русскоязычных и англоязычных поисковых систем.

Поисковые инструменты - это особое программное обеспечение, основная цель которого – обеспечить наиболее оптимальный и качественный поиск информации для пользователей Интернета. Поисковые инструменты размещаются на специальных веб-серверах.

Приемы работы, используемые при работе с теми или другими поисковыми инструментами, практически одинаковы. Перед тем как перейти к их обсуждению, рассмотрим следующие понятия: Интерфейс поискового инструмента представлен в виде страницы с гиперссылками, строкой подачи запроса (строкой поиска) и инструментами активизации запроса. Индекс поисковой системы – это информационная база, содержащая результат анализа веб-страниц, составленная по определенным правилам. Запрос – это ключевое слово или фраза, которую вводит пользователь в строку поиска. Для формирования различных запросов используются специальные символы ("", ~), математические символы (*, +, ?).

Схема поиска информации проста. Пользователь набирает ключевую фразу и активизирует поиск, тем самым получает подборку документов по сформулированному (заданному) запросу. Этот список документов ранжируется по определенным критериям так, чтобы вверху списка оказались те документы, которые наиболее соответствуют запросу пользователя. Каждый из поисковых инструментов использует различные критерии ранжирования документов, как при анализе результатов поиска, так и при формировании индекса (наполнении индексной базы данных web-страниц).

Таким образом, если указать в строке поиска для каждого поискового инструмента одинаковой конструкции запрос, можно получить различные результаты поиска. Для пользователя имеет большое значение, какие документы окажутся в первых двух-трех десятках документов по результатам поиска и на сколько эти документы соответствуют ожиданиям пользователя.

Решение

Лабораторная работа № 1

ТЕХНОЛОГИЯ ПОИСКА ИНФОРМАЦИИ

1. Цель работы
Практическое освоение технологии эффективного поиска информации.

2. Общие сведения
2.1. Средства поиска информации
В Интернет можно найти почти любую требуемую информацию. Информационные ресурсы Интернет характеризуются необъятным количеством материалов, накопленным за десятилетия существования компьютерных систем. Они содержат текстовые файлы, программы, картинки, музыку, фильмы; постоянно обновляются и лавинообразно нарастают. Ресурсы Интернет широко используются практически во всех сферах человеческой деятельности. Всевозрастающую роль играют они и в обучении.
Навыки технологии профессионального поиска информации крайне необходимы специалисту в области информационных технологий, которая невероятно обширна и динамична. Профессиональный поиск позволяет не только свести до минимума вероятность пропуска искомой информации, но и многократно сократить временные и финансовые затраты на ее поиск.
Для поиска информации в Интернет используются: поисковые машины, метапоисковые средства, индексированные каталоги, онлайновые энциклопедии и справочники. Современные поисковые порталы содержат не только набор вышеназванных поисковых средств, но обеспечивают и дополнительные услуги, такие как бесплатные адреса электронной почты, места для размещения домашних Web-страниц и т. д. Для эффективного поиска в Интернет необходимо знать принципы функционирования поисковых средств и уметь правильно формировать поисковый запрос.
Поисковые машины, осуществляя постоянное сканирование доступных узлов Интернет, скачивают найденные страницы в базу данных и формируют специальную базу данных, в которой хранится индексированная информация о скаченных страницах (см. например, принципы работы поисковой машины Рамблер). При поступлении запроса поисковая машина, использую индексированную информацию, выдает список документов, ранжированных по местоположению ключевых слов в поисковом запросе, их частоте в тексте и другим параметрам. Имея схожий принцип работы, поисковые машины, тем не менее, различаются по используемым алгоритмам и принципам поиска, которые к тому же постоянно совершенствуются; поэтому результаты поиска у разных машин отличаются.
В настоящее время существует большое количество поисковых средств. Наиболее популярными среди нескольких сотен различного вида поисковиков являются поисковые средства следующих порталов.
Google (http://www.google.com/) мировой лидер по объему проиндексированных документов и скорости обработки запросов. Google самая популярная поисковая система, обеспечивает поиск независимо от языка источника, проста в использовании, имеет хороший язык запросов и простой интерфейс.
Яndex (http://www.yandex.ru/) крупнейший российский портал, предлагающий пользователям многочисленные услуги, включая поисково- информационные (12 служб). Робот поисковой системы Яндекс постоянно сканирует Интернет, автоматически отслеживая изменения; результаты поиска упорядочиваются в соответствии с установленными критериями релевантности (степени соответствия искомого и найденного). Поисковая система обеспечивает возможность расширенного поиска, позволяющего детализировать многочисленные параметры поиска.
Rambler (http://www.rambler.ru/) российский поисковый портал. Как профессиональная информационно-поисковая система Rambler существует с 1996 года. Обеспечивает различные виды поиска, включая расширенный поиск по комбинации различных параметров с учетом морфологии русского языка.
Aport! (http://aport.ru/) российский поисковый портал Апорт имеет расширенные возможности по формулированию запросов; обеспечивает поиск графических изображений и мультимедийных файлов.
AltaVista (http://www.altavista.com/). Поисковая система AltaVista появилась в конце 1995 года и до триумфа Google была мировым лидером в области поиска (индекс системы уже тогда содержал более 20 млн. страниц). Предназначена для поиска информации в Интернет независимо от региона мира; обеспечивает поиск графики, аудио- и видеофайлов, а также возможность перевода на основные европейские языки; одним из первых начала поддерживать поиск на русском языке.
Yahoo! (http://www.yahoo.com/). Как поисковая система является наиболее авторитетным справочником ресурсов Интернета. Выдает по поисковой теме максимальное количество зарубежных сайтов; обеспечивает поиск на русском языке.
Для поиска информации применяются также метапоисковые системы. Метапосковая система обеспечивает поиск по нескольким поисковым системам сразу (до нескольких десятков). Однако использовать метапоиск имеет смысл в основном в случаях поиска конкретного документа или по очень узкой тематике.
2.2. Язык поисковых запросов
Поисковый запрос в общем случае может состоять из одного или нескольких слов, логических операторов и знаков препинания. Простые запросы не требуют знания языка поисковых запросов, так что если ввести в поисковую строку несколько слов без знаков препинания и логических операторов, то будут найдены документы, содержащие все эти слова, причем на произвольном расстоянии друг от друга. Знание же языка запросов конкретной поисковой машины и правильное его применение позволяет сделать поиск быстрым и эффективным.
Операторы языка запросов
Оператор AND (логическое И; сокращенное обозначение «&») образуют сложный запрос, по которому будут найдены только те документы, которые одновременно содержат оба аргумента оператора. Например, по запросу: «информационная AND технология» будут найдены только те документы, которые содержат и слово «информационная», и слово «технология». Аналогичный результат будет получен и при таком запросе: «информационная & технология».
Примечание. Оператор AND используется по умолчанию, так что запрос: «информационная технология» даст тот же результат, что и запрос: «информационная AND технология».
Оператор OR (ИЛИ; сокращенное обозначение « | ») образуют запрос, по которому будут найдены все документы, удовлетворяющие хотя бы одному из аргументов оператора. По запросу: «информационная OR технология» будут найдены документы, которые содержат хотя бы одно из слов «информационная» или «технология», либо оба эти слова.
Оператор NOT (И-НЕ, сокращенное обозначение «&!») образует запрос, по которому будут найдены документы, удовлетворяющие левой части запроса и не удовлетворяющие правой. По запросу: «информационная NOT технология» будут найдены документы, которые содержат слово «информационная» и не содержат слово «технология».
Примечание. Если сложный запрос включает несколько операторов, то он будет выполнен согласно традиционным приоритетам этих операторов. Изменить порядок выполнения можно посредством использования скобок.
Кавычки
Для поиска цитат или слов в заданной форме можно использовать двойные кавычки. Слова по той части запроса, которая заключена в двойные кавычки, ищутся в документах именно так, как они в этих кавычках представлены. Например, запросу «информационная технология “применяться”» удовлетворяет документ, который содержащий текст «…информационная технология будет применяться…», но не удовлетворяет документ, содержащий «…информационная технология применяется…». А на поисковый запрос «”информационная технология применяется”» будут выданы только документы, содержащие с точностью до буквы именно такую комбинацию слов идущих подряд, при этом количество выбранных документов резко сократится.
Примечание. Так интерпретируются двойные кавычки всеми поисковыми машинами названных выше поисковых порталов за исключением Апорта, у которого оператор двойные (или одинарные) кавычки позволяет находить словосочетание, указанное в них, или близкое к нему, так что Апорт в поисковом запросе с двойными кавычками слова «применяться» и «применяется» различать не будет.
Скобки
Скобки могут использоваться для построения вложенных запросов, изменения области действия операторов, а также для изменения принятых по умолчанию приоритетов логических операторов. При использовании скобок часть запроса, которая заключена в скобки, интерпретируется как запрос, так что на нее распространяются правила языка запросов.
Например, по запросу «данные AND информация OR сигнал» поисковая машина найдет документы, содержащие либо «данные» и «информация», либо «сигнал». А на запрос «данные AND (информация OR сигнал)» будет найдено «данные» и одно из слов «информация», или «сигнал».
Ограничение расстояния
При простом запросе будут найдены документы, в которых встречаются все слова запроса не превышающие ограничение расстояния по умолчанию (например, у Рамблера оно равно расстоянию в 40 слов). Так что на запрос «информация данные» документ будет выдан только в том случае, если слова «информация» и «данные» отстоят в этом документе не далее чем на 40 слов, включая и эти два слова.
Значение ограничения расстояния можно изменять, например, у Рамблера конструкцией (n, запрос), где n - положительное число, запрос - корректный поисковый запрос. Например, по запросу «(2, информация данные)» будут выданы только те документы, в которых слова «информация» и «данные» стоят рядом хотя бы один раз.
Другие поисковые машины обычно используют иные операторы ограничения расстояния. Поисковые машины могут позволять задавать этот параметр и в меню расширенного поиска (см. например, справку по расширенному поиску у Яндекса).
Приведенные выше элементы языка поисковых запросов используются, как правило, всеми поисковыми машинами. При этом поисковые машины могут использовать и другие конструкции, включая метасимволы и специальные операторы, так что за деталями следует обращаться к справочной системе конкретной поисковой машины.

3. Порядок выполнения работы

3.1. Ознакомьтесь с материалом, изложенным в пункте 2, этой работы.
3.2. Включите закрепленный за Вами компьютер и получите у преподавателя индивидуальное задание.
3.3. Ознакомьтесь, используя гиперссылки, с возможностями поисковых машин порталов, указанных в пункте 2.1.
3.4. Составьте в соответствии с полученным заданием варианты поискового запроса.
3.5. Осуществите в соответствии с составленными вариантами поискового запроса поиск необходимых документов.
3.6. Проанализируйте полученные результаты.
3.7. Оформите отчет и защитите лабораторную работу.
3.8. Выключите компьютер и приведите в порядок рабочее место.

5. Контрольные вопросы
1. Как проинтерпретирует поисковая машина Яндекса запрос “информационная технология” ?
2. Выдаст ли Апорт на поисковый запрос “информационная технология” документы, содержащие слова информационные технологии, но не содержащие слова информационная технология?
3. Каким образом можно изменить область действия логических операторов в поисковом запросе?
4. Перечислите основные логические операторы языка запросов.
5. Чем отличаются метапоисковые системы от поисковых машин?

Технология поиска информации в Интернет. Виды поисковых инструментов

1. Введение

2. Технологии поиска

2.1 Поисковые инструменты

2.2 Поисковые машины (search engines)

2.3 Каталоги (directories)

2.4 Подборки ссылок

2.5 Базы данных адресов (addresses database)

2.6 Поиск в архивах Gopher (Gopher archives)

2.7 Система поиска FTP файлов (FTP Search)

2.8 Система поиска в конференциях Usenet News

2.9 Системы мета-поиска

2.10 Системы поиска людей

3. Заключение

Приложение . Краткие сведения о поисковых системах

1. Введение

С каждым годом объемы Интернета увеличиваются в разы, поэтому вероятность найти необходимую информацию резко возрастает.

Интернет объединяет миллионы компьютеров, множество разных сетей, число пользователей увеличивается на 15-80% ежегодно. И, тем не менее, все чаще при обращении к Интернетосновной проблемой оказывается не отсутствие искомой информации, а возможность ее найти . Как правило, обычный человек в силу разных обстоятельств не может или не хочет тратить на поиск нужного ему ответа больше 15-20 минут. Поэтому особенно актуально правильно и грамотно научиться, казалось бы, простой вещи – где и как искать, чтобы получать ЖЕЛАЕМЫЕ ответы.

Чтобы найти нужную информацию, необходимо найти её адрес. Для этого существуют специализированные поисковые сервера (роботы индексов (поисковые системы), тематические Интернет-каталоги, системы мета-поиска, службы поиска людей и т.д.).

Далее раскрываются основные технологии поиска информации в Интернет, предоставляются общие черты поисковых инструментов, рассматриваются структуры поисковых запросов для наиболее популярных русскоязычных и англоязычных поисковых систем.

2. Технологии поиска

Web-технология World Wide Web (WWW) считается специальной технологией подготовки и размещения документов в сети Интернет. В состав WWW входят и web-страницы, и электронные библиотеки, каталоги, и даже виртуальные музеи! При таком обилии информации остро встает вопрос: «Как сориентироваться в столь огромном и масштабном информационном пространстве?» В решении данной проблемы на помощь приходятпоисковые инструменты .

2.1 Поисковые инструменты

Поисковые инструменты - это особое программное обеспечение, основная цель которого – обеспечить наиболее оптимальный и качественный поиск информации для пользователей Интернета. Поисковые инструменты размещаются на специальных веб-серверах, каждый из которых выполняет определеннуюфункцию :

1. Анализ веб-страниц и занесение результатов анализа на тот или иной уровень базы данных поискового сервера.

2. Поиск информации по запросу пользователя.

3. Обеспечение удобного интерфейса для поиска информации и просмотра результата поиска пользователем.

Приемы работы, используемые при работе с теми или другими поисковыми инструментами, практически одинаковы.

Сначала рассмотрим следующие понятия :

1. Интерфейс поискового инструмента представлен в виде страницы с гиперссылками, строкой подачи запроса (строкой поиска) и инструментами активизации запроса.

2. Индекс поисковой системы – это информационная база, содержащая результат анализа веб-страниц, составленная по определенным правилам.

3. Запрос – это ключевое слово или фраза, которую вводит пользователь в строку поиска. Для формирования различных запросов используются специальные ("", ~ ) и математические символы (*, +, ?).

Схема поиска информации проста . Пользователь набирает ключевую фразу и активизирует поиск, тем самым получает подборку документов по сформулированному запросу. Этот список документовранжируется по определенным критериям так, чтобы вверху списка оказались те документы, которые наиболее соответствуют запросу пользователя. Каждый из поисковых инструментов использует различные критерии ранжирования документов, как при анализе результатов поиска, так и при формировании индекса (наполнении индексной базы данных web-страниц).

Таким образом, если указать в строке поиска для каждого поискового инструмента одинаковой конструкции запрос, можно получить различные результаты поиска. Для пользователя имеет большое значение, какие документы окажутся в первых двух-трех десятках документов по результатам поиска и на сколько эти документы соответствуют ожиданиям пользователя.

Большинство поисковых инструментов предлагают два способа поиска – simple search (простой поиск) иadvanced search (расширенный поиск) с использованием специальной формы запроса и без нее. Рассмотрим оба вида поиска на примере англоязычной поисковой машины.

Например, AltaVista удобно использовать для произвольных запросов, «Something about online degrees in information technology », тогда как поисковый инструментYahoo позволяет получать мировые новости, информацию о курсе валют или прогнозе погоды.

Освоение критериев уточнения запроса и приемов расширенного поиска, позволяет увеличивать эффективность поиска и достаточно быстро найти необходимую информацию. Прежде всего, увеличить эффективность поиска Вы можете за счет использования в запросах логических операторов (операций) Or ,And ,Near ,Not , математических и специальных символов. С помощью операторов и/или символов пользователь связывает ключевые слова в нужной последовательности, чтобы получить наиболее адекватный запросу результат поиска. Формы запросов на англ. приведены в таблице 1.

Таблица 1

Простой запрос

Расширенный запрос

Расширенный

использованием математических

символов

internet merchant account and

Internet+ merchant+ account

merchant account

internet ~ merchant~ gov*

internet merchant account

internet merchant near gov*

internet ~ merchant~ governor

"merchant account"

internet merchant near education

Internet ~ merchant~ (governor

"internet merchant account"

Простой запрос дает некоторое количество ссылок на документы, т.к. в список попадают документы, содержащие одно из слов, введенных при запросе, или простое словосочетание (см. таблицу 1). Операторand позволяет указать на то, что в содержании документа должны быть включены все ключевые слова. Тем не менее, количество документов может быть все еще велико, и их просмотр займет достаточно времени. Поэтому в ряде случаев гораздо удобнее применить контекстный операторnear , указывающий, что слова должны располагаться в документе в достаточной близости. Использованиеnear значительно уменьшает количество найденных документов. Наличие символа "* " в строке запроса означает, что будет осуществляться поиск слова по его маске. Например, получим список документов, содержащих слова, начинающиеся на "gov ", если в строке запроса запишем "gov*". Это могут быть слова government, governor и т.д.

Наиболее развитый сервис поиска русскоязычной информации предоставляет поисковый сервер Яndex .

В Яndex можно просто написать по-русски фразу, описывающую то, что Вы хотите найти, и система проанализирует и обработает Ваш запрос, а затем постарается найти все, что относится к заданной теме.

Вы можете, используя специальные операторы, составить строку, поясняющую поисковой системе, каким Вашим требованиям должна отвечать интересующая Вас информация. Некоторые из операторов языка запросов Яndex можно посмотреть здесь: http://help.yandex.ru/search/?id=481939

Не менее популярная поисковая система Rambler ведет статистику посещаемости ссылок из собственной базы данных, поддерживаются те же логические операторы И, ИЛИ, НЕ, метасимвол * (аналогично расширяющему диапазон запроса символу * в AltaVista), коэффициентные символы + и -, для увеличения или уменьшения значимости вводимых в запрос слов.

Давайте рассмотрим наиболее популярные технологии поиска информации в Интернет.

2.2 Поисковые машины (search engines)

Машины веб-поиска - это сервера с огромной базой данных URL-адресов, которые автоматически обращаются к страницам WWW по всем этим адресам, изучают содержимое этих страниц, формируют и прописывают ключевые слова со страниц в свою базу данных (индексирует страницы).

Более того, роботы поисковых систем переходят по встречаемым на страницах ссылкам и переиндексируют их. Так как почти любая страница WWW имеет множество ссылок на другие страницы, то при подобной работе поисковая машина в конечном результате теоретически может обойти все сайты в Интернет.

Именно этот вид поисковых инструментов является наиболее известным и популярным среди всех пользователей сети Интернет. У каждого на слуху названия известных машин веб-поиска (поисковых систем) –Яndex ,

Rambler, Aport.

Чтобы воспользоваться данным видом поискового инструмента, необходимо зайти на него и набрать в строке поиска интересующее Вас ключевое слово.

Чтобы поиск был наиболее эффективен, заранее обратите внимание на следующие моменты :

определитесь с темой запроса . Что именно в конечном итоге Вы хотите найти?

обращайте внимание на язык, грамматику, использование различных небуквенных символов, морфологию. Важно также правильно сформулировать и вписать ключевые слова. Каждая поисковая система имеет свою форму составления запроса - принцип один, но могут различаться используемые символы или операторы. Требуемые формы запроса различаются также в зависимости от сложности программного обеспечения поисковых систем и предоставляемых ими услуг. Так или иначе, каждая поисковая система имеет раздел " Help " ("Помощь"), где все синтаксические правила, а также рекомендации и советы по поиску, доступно объясняются (скриншот страничек поисковиков).

используйте возможности разных поисковых систем. Если не нашли на Яndex, попробуйте на Google. Пользуйтесь услугами расширенного поиска.

чтобы исключить документы, содержащие определенные термины, используйте знак " - " перед каждым таким словом. Например, если Вам нужна информация о работах Шекспира, за исключением "Гамлета", то введите запрос в виде: "Шекспир-Гамлет". А для того, чтобы в результаты поиска обязательно включались определенные ссылки, используйте символ " + ": ссылки о продаже именно автомобилей - запрос "продажа+автомобиль".

каждая ссылка в списке результатов поиска содержит сниппет – несколько строчек из найденного документа, среди которых встречаются Ваши ключевые слова. Прежде чем переходить по ссылке, оцените соответствие сниппета теме запроса. Перейдя по ссылке на определенный сайт, внимательно окиньте взглядом главную страничку. Как правило, первой страницы достаточно, чтобы понять – по адресу Вы пришли или нет. Если да, то дальнейшие поиски нужной информации ведите на выбранном сайте (в разделах сайта), если нет – возвращайтесь к результатам поиска и пробуйте очередную ссылку.

помните, что поисковые системы не производят самостоятельную информацию (за исключением разъяснений о самих себе). Поисковая система

это лишь посредник между обладателем информации (сайтом) и Вами. Базы данных постоянно обновляются, в них вносятся новые адреса, но отставание от реально существующей в мире информации все равно остается. Это просто потому, что поисковые системы не работают со скоростью света.

К наиболее известным машинам веб-поиска относятсяGoogle ,Yahoo ,Alta Vista ,Excite ,Hot Bot ,Lycos . Среди русскоязычных можно выделитьЯndex ,Rambler ,Апорт .

Поисковые системы являются самыми масштабными и ценными, но далеко не единственными источниками информации в Сети.

Технологии поиска в интернете

С каждым годом объемы Интернета увеличиваются в разы, поэтому вероятность найти необходимую информацию резко возрастает. Интернет объединяет миллионы компьютеров, множество разных сетей, число пользователей увеличивается на 15-80% ежегодно. И, тем не менее, все чаще при обращении к Интернет основной проблемой оказывается не отсутствие искомой информации, а возможность ее найти. Как правило, обычный человек в силу разных обстоятельств не может или не хочет тратить на поиск нужного ему ответа больше 15-20 минут. Поэтому особенно актуально правильно и грамотно научиться, казалось бы, простой вещи - где и как искать, чтобы получать ЖЕЛАЕМЫЕ ответ. Чтобы найти нужную информацию, необходимо найти её адрес. Для этого существуют специализированные поисковые сервера (роботы индексов (поисковые системы), тематические Интернет-каталоги, системы мета-поиска, службы поиска людей и т.д.). В данном мастер-классе раскрываются основные технологии поиска информации в Интернет, предоставляются общие черты поисковых инструментов, рассматриваются структуры поисковых запросов для наиболее популярных русскоязычных и англоязычных поисковых систем.

Web-технология World Wide Web (WWW) считается специальной технологией подготовки и размещения документов в сети Интернет. В состав WWW входят и web-страницы, и электронные библиотеки, каталоги, и даже виртуальные музеи! При таком обилии информации остро встает вопрос: «Как сориентироваться в столь огромном и масштабном информационном пространстве?» В решении данной проблемы на помощь приходят поисковые инструменты.Поисковые инструменты - это особое программное обеспечение, основная цель которого - обеспечить наиболее оптимальный и качественный поиск информации для пользователей Интернета. Поисковые инструменты размещаются на специальных веб-серверах, каждый из которых выполняет определенную функцию:

Анализ веб-страниц и занесение результатов анализа на тот или иной уровень базы данных поискового сервера.

Поиск информации по запросу пользователя.

Обеспечение удобного интерфейса для поиска информации и просмотра результата поиска пользователем.

Приемы работы, используемые при работе с теми или другими поисковыми инструментами, практически одинаковы. Перед тем как перейти к их обсуждению, рассмотрим следующие понятия:

Интерфейс поискового инструмента представлен в виде страницы с гиперссылками, строкой подачи запроса (строкой поиска) и инструментами активизации запроса.

Индекс поисковой системы - это информационная база, содержащая результат анализа веб-страниц, составленная по определенным правилам.

Запрос - это ключевое слово или фраза, которую вводит пользователь в строку поиска. Для формирования различных запросов используются специальные символы ("", ~), математические символы (*, +, ?).

Схема поиска информации проста. Пользователь набирает ключевую фразу и активизирует поиск, тем самым получает подборку документов по сформулированному (заданному) запросу. Этот список документов ранжируется по определенным критериям так, чтобы вверху списка оказались те документы, которые наиболее соответствуют запросу пользователя. Каждый из поисковых инструментов использует различные критерии ранжирования документов, как при анализе результатов поиска, так и при формировании индекса (наполнении индексной базы данных web-страниц)Таким образом, если указать в строке поиска для каждого поискового инструмента одинаковой конструкции запрос, можно получить различные результаты поиска. Для пользователя имеет большое значение, какие документы окажутся в первых двух-трех десятках документов по результатам поиска и на сколько эти документы соответствуют ожиданиям пользователя. Большинство поисковых инструментов предлагают два способа поиска - simple search (простой поиск) и advanced search (расширенный поиск) с использованием специальной формы запроса и без нее. Рассмотрим оба вида поиска на примере англоязычной поисковой машины. Например, AltaVista удобно использовать для произвольных запросов, «Something about online degrees in information technology», тогда как поисковый инструмент Yahoo позволяет получать мировые новости, информацию о курсе валют или прогнозе погоды.

Освоение критериев уточнения запроса и приемов расширенного поиска, позволяет увеличивать эффективность поиска и достаточно быстро найти необходимую информацию. Прежде всего, увеличить эффективность поиска Вы можете за счет использования в запросах логических операторов (операций) Or, And, Near, Not, математически х и специальных символов. С помощью операторов и или символов пользователь связывает ключевые слова в нужной последовательности, чтобы получить наиболее адекватный запросу результат поиска. [ 9 ]

Интернет-ресурсов в Глобальной сети становится все больше, а найти там необходимую информацию с каждым днем все труднее. Поэтому у всех участников рынка современных поисковых систем уже сложилось впечатление, что сегодняшние технологии поиска устарели и что необходимо менять саму концепцию поиска. В настоящий момент бесспорным лидером поиска все еще является Google -- 47% всех пользователей Интернета выбирают именно этот сервис, далее идут Yahoo ! и MSN -- 21 и 13% обращений соответственно, то есть в целом более 80% жителей планеты предпочитают именно эти поисковики. Одна ко ни один из трех главных поисковых серверов не может похвастаться высокой степенью лояльности среди своих постоянных пользователей: почти 71% из тех, кто искал в Yahoo !, также посещают иногда и один из двух других сервисов -- Google или MSN Search , 70% из тех, кто искал в MSN , также пытали удачу в том или ином конкурентном поисковом механизме. Видя такую неудовлетворенность результатами поиска, создатели поисковых машин стараются совершенствовать свои поисковые механизмы и пытаются применять новые технологии поиска. Так, на портале Google был запущен так называемый самоконструктор (self - constructor), где пользователи этой поисковой системы могут настроить процесс поиска по своему усмотрению. К примеру, если пользователя интересует погода, он с может видеть информер погодных условий именно в своем городе. А способ отображения новостей, вывод биржевых сводок и многие другие полезные вещи можно настроить в соответствии со своими интересами. Естественно, все подобные настройки пользователь сможет использовать, только пока он авторизован на сайте поисковика. С появлением этой технологии сайт Google во многом опередил своих конкурентов -- старейшие порталы Интернета Yahoo ! и MSN .

Поиск - процесс, в ходе которого в той или иной последовательности производится соотнесение отыскиваемого с каждым объектом, хранящимся в массиве.

С точки зрения использования компьютерной техники "информационный поиск " - совокупность логических и технических операций, имеющих конечной целью нахождение фактов, данных, документов, релевантных запросу потребителя.

Релевантный документ - это документ, содержащий искомую информацию.

Поисковые инструменты

  1. Поисковые машины (поисковики);
  2. Тематические каталоги (рубрикаторы);
  3. Специализированные каталоги (онлайновые энциклопедии и справочники);
  4. Метапоисковые системы.

Тематические каталоги

Тематические каталоги представляют собой систематизированную коллекцию (подборку) ссылок на другие ресурсы Интернета. Ссылки организованы в виде тематического рубрикатора, представляющего собой иерархическую структуру, перемещаясь по которой, можно найти нужную информацию.

Специализированные каталоги

Специализированные каталоги или справочники создаются по отдельным отраслям и темам, по новостям, по городам, по адресам электронной почты и т. п.

Средства метапоиска

При использовании средств метапоиска запрос осуществляется одновременно несколькими поисковыми системами. Результат поиска объединяется в общий, упорядоченный по степени релевантности список.

Поисковые машины

Поисковые машины (самое развитое средство поиска в Интернете) - это автоматические системы, опрашивающие серверы, подключенные к глобальной сети, и сохраняющие в своей базе информацию об имеющихся на серверах данных.

Поисковые машины состоят из трех частей: робота, индекса и программы обработки запроса.

Робот (Spider, Robot или Bot) - это программа, которая посещает веб-страницы и считывает (полностью или частично) их содержимое.

Индекс - это хранилище данных, в котором сосредоточены копии всех посещенных роботами страниц.

Программа обработки запроса - это программа, которая в соответствии с запросом пользователя «просматривает» индекс на предмет наличия нужной информации и возвращает ссылки на найденные документы.

Работа поисковых машин происходит в четыре этапа:

1.Сканирование веб-пространства

Поисковая система круглосуточно с помощью роботов просматривает доступное Web пространство и копирует к себе все встреченные страницы.

2. Индексация ресурсов

Обнаруженные поисковыми роботами страницы обрабатываются программой обработки запроса и из них составляется специальная база данных, именуемая указателем. Цель индексации - получить индексный файл, с помощью которого запрос клиента обрабатывается почти мгновенно.

3.Поиск по запросу

Поисковая машина принимает запрос от пользователя в виде ключевых слов и обращается не в Сеть, а в свою базу данных. Количество найденных страниц может быть очень велико, поэтому перед выдачей результатов клиенту происходит ранжирование результатов поиска.

4.Формирование результирующей страницы.

Система формирует динамическую web-страницу оформленных результатов поиска.

Сегодня известно достаточно большое количесво поисковых систем

http://сайт/uploads/posts/2013-11/1385453618_12.jpg

Крупнейшая и первая по популярности поисковая система, которая обрабатывает 42 млрд запросов в месяц, индексирует более 25 млрд веб-страниц, может находить информацию на 195 языкaх. Поддерживает поиск в документах форматов PDF, RTF, PostScript, Microsoft Word, Microsoft Excel, Microsoft PowerPoint и других.

Самый быстрый и надежный вид поиска информации в Интернете - поиск по адресам URL (Universal Resours Locator - универсальный указатель ресурса).

Для быстрого доступа к ресурсам достаточно запустить программу-браузер и набрать знакомый адрес URL в строке адреса.

Например, набрав в адресной строке адрес bolohovomt.ru можно попасть на сайт Болоховского машиностроительного техникума

Oин из самых распространенных видов поиска - это поиск по ключевым словам. Рассмотрим этот вид поиска на примере поисковой системы Google (см. видеоролик “Поиск информации”.mp4).

Для поиска по ключевым словам необходимо ввести в специальном окне слово или несколько слов, которые следует искать, и щелкнуть на кнопке Найти. Поисковая система найдет в своей базе и покажет документы, содержащие эти слова.

Скорость получения результата зависит от характеристики каналов связи, особенностей организации работы поисковика, и от «качества» построения запроса.

Если на работу поисковых систем пользователь непосредственно влиять не может, то качество составления запроса на поиск - целиком в его компетенции.

Приемы простого поиска

1.Поиск группы слов

Слова «открытое» или «образование» дадут при поиске поодиночке большое число разнообразных ссылок, относящихся к совершенно различным темам, причем вряд ли имеющим отношение к «открытому образованию». Поэтому рекомендуется добавлять одно или два ключевых слова, связанных с искомой темой. Например, «открытое образование» или «технологии открытого образования». Необходимо также сужать область вопроса. Если необходимо найти информацию о правовой системе Гарант, то запрос “правовая система Гарант” выдаст более подходящие документы, чем просто “правовая система”. Количество слов в группе не ограничивается.

2.Поиск словоформ

В большинстве случаев поисковая система по умолчанию ищет все словоформы языка. Однако, можно указать поисковой системе не перебирать все словоформы слов из запроса при поиске. Во многих системах для этого используется восклицательный знак. Например, запрос «!компьютер» найдет страницы с этим словом без учета словоформ

3.Роль прописных букв

В случае если пользователь ввел в качестве запроса ключевое слово с прописной буквы, поисковая машина не найдет страниц, где содержится это слово, начинающееся со строчной буквы. Поэтому заглавные буквы в запросе рекомендуется использовать только в именах собственных. Например, «город Москва», «Марк Тулий Цицерон».

4.Значение подстановочных символов

Когда нет уверенности в том, что поисковая система правильно обрабатывает словоформы (то есть когда речь идет, например, об именах собственных или словах иностранного происхождения) поисковые системы позволяют использовать подстановочные символы. Чаще всего это символ «*» вместо любого количества любых символов до конца слова. Например, если пользователь хочет найти страницы, содержащие слова «республика Татарстан», но устроит и Татарская республика, тогда надо подать запрос «республика Татарс*».

5.Учет зарезервированных слов

Зарезервированными словами (стоп-словами) считаются те слова, которые не учитываются при поиске. Обычно к ним относятся все короткие слова, в которые входят менее 4 букв (предлоги, союзы и т.п.). Например, при запросе «мы в Италии» будут найдены документы, в которые входит слово «Италии» или его словоформы.

6.Средства контекстного поиска

Если ключевые слова взять в кавычки, то поисковая система должна найти документы, в которых данная фраза присутствует буквально (поиск цитаты).

Приемы расширенного поиска

Для более быстрого и успешного поиска в поисковых машинах совместно с ключевыми словами используются различные логические операторы. Благодаря этому можно сконструировать запрос так, что будут найдены не сайты на интересующую тему, а конкретные страницы и даже отдельные документы. Правила составления сложных запросов на одной поисковой машине могут отличаться от таковых на другой, но в любом случае будут использоваться следующие основные операторы:

1.Оператор И (AND)

С помощью этого оператора объединяют два или более слов так, чтобы они все присутствовали в искомом документе. Часто вместо И используют & или +. Пример: по запросу юрист И программа будут найдены документы, содержащие и то и другое слово.

2.Оператор ИЛИ (OR)

Обеспечивает поиск по любому из слов группы. Пример: по запросу образование ИЛИ обучение будут найдены документы, содержащие слово образование или обучение.

3.Логические скобки

Применяются, когда надо управлять порядком следования логических операторов. Пример: по запросу Ломоносов ИЛИ (Михаил И Васильевич) будут найдены документы, содержащие слова Ломоносов или Михаил И Васильевич.

4.Оператор НЕ (NOT)

Используется, когда из результатов поиска надо исключить какое-либо ключевое слово, например, по запросу правоведы НЕ адвокаты будет найдена информация о правоведах, не являющихся адвокатами.



Понравилась статья? Поделиться с друзьями: