Информационная поисковая система в справочных службах. Информационно-поисковые системы

> Работа с информационно-поисковыми системами (общие сведения, порядок работы, сохранение и редактирование найденной информации)

Информационно-поисковая система - совокупность информационно поискового правил перевода с естественного языка на информационно - поисковый и обратного перевода, а также критерия соответствия, предназначенная для осуществления информационного поиска. В число составных частей конкретной информационно - поисковой системы (ИПС), кроме информационно-поискового языка, правил перевода и критерия соответствия, входят также средства ее технической реализации, массив текстов (документов), в котором осуществляется информационный поиск, и люди, непосредственно участвующие в этом поиске.

Информационный поиск - процесс отыскания в некотором множестве текстов (документов) всех таких, которые посвящены указанной в запросе теме (предмету) или содержат нужные потребителю факты, сведения. ИП осуществляется посредством информационно-поисковой системы и выполняется вручную либо с использованием средств механизации или автоматизации. Непременным участником ИП является человек. В зависимости от характера информации, которая содержится в выдаваемых информационно - поисковой системой (ИПС) текстах, ИП может быть документальным, в том числе библиографическим, и фактографическим. ИП нужно отличать от логической переработки информации, без которой невозможна непосредственная выдача человеку ответов на задаваемые им вопросы. При ИП отыскиваются - и могут быть найдены - такие и только такие факты или сведения, которые были введены в ИПС. Перед вводом в ИПС текста (документа) определяется его основное смысловое содержание (тема или предмет), которое затем переводится и записывается на одном из информационно-поисковых языков. Эта запись называется поисковым образом текста. Так же поступают и когда в ИПС вводят определённым образом записанные факты, сведения. Поступивший запрос также переводится на информационно-поисковый язык, образуя поисковое предписание. Поскольку поисковые образы текстов и поисковые предписания записаны на одном и том же языке, выражения на котором допускают только одно истолкование, то, возможно сравнивать их формально, не вникая в смысл. Для этого задаются определённые правила (критерии соответствия), устанавливающие, при какой степени формального совпадения поискового образа с поисковым предписанием текст следует считать отвечающим на информационный запрос и подлежащим выдаче.

Техническая эффективность ИП характеризуется двумя относительными показателями - коэффициентом точности (отношением числа текстов, отвечающих на информационный запрос, к общему числу текстов в данной выдаче) и коэффициентом полноты (отношением числа текстов, отвечающих на информационный запрос, к общему числу таких текстов, содержащихся в данной ИПС). Необходимые значения этих показателей зависят от специфики информационных потребностей. Например, при поиске патентных описаний с целью проведения экспертизы патентной заявки на новизну необходима 100%-ная полнота выдачи; при поиске, ориентированном на обычного исследователя или инженера, очень хорошей считается точность выдачи около 80%, полнота - около 50%.

Рисунок 1 - Процесс поиска

ИП может быть двух типов - избирательное (или адресное) распространение информации и ретроспективный поиск. При избирательном распространении информации ИП производится по постоянным запросам некоторого числа потребителей (абонентов), осуществляется периодически (обычно один раз в неделю или в две недели) и выполняется лишь в массиве текстов, поступивших в ИПС за этот период времени.

Между ИПС и потребителями (абонентами) устанавливается эффективно действующая обратная связь (абонент сообщает, в какой степени этот текст соответствует запросу и нужна ли ему копия полного текста, о степени соответствия этого текста его информационной потребности), которая позволяет уточнять потребности абонентов, своевременно реагировать на изменения этих потребностей и оптимизировать работу системы.

При ретроспективном поиске ИПС отыскивает содержащие требуемую информацию тексты во всём накопленном массиве текстов по разовым запросам.

Архитектура современных информационно-поисковых систем WWW.

Рассмотрим типовую схему такой системы. В различных публикациях, посвященных конкретным системам, приводятся схемы, которые отличаются друг от друга только применением конкретных программных решений, но не принципом организации различных компонентов системы. Поэтому рассмотрим эту схему на представленном примере:

Рисунок 2 - Структура ИПС для Internet

На этой схеме обозначены:

client - это программа просмотра конкретного информационного ресурса. В настоящее время наиболее популярны мультипротокольные программы типа Netscape Navigator. Такая программа обеспечивает просмотр документов World Wide Web, Gopher, Wais, FTP-архивов, почтовых списков рассылки и групп новостей Usenet. В свою очередь все эти информационные ресурсы являются объектом поиска информационно-поисковой системы.

user interface - интерфейс пользователя - это не просто программа просмотра. В случае информационно-поисковой системы под этим словосочетанием понимают и способ общения пользователя с поисковым аппаратом системы, т.е. с системой формирования запросов и просмотров результатов поиска. Просмотр результатов поиска и информационных ресурсов сети - это совершенно разные вещи, на которых остановимся чуть позже.

search engine - поисковая машина служит для трансляции запроса пользователя, который подготавливается на информационно-поисковом языке (ИПЯ), в формальный запрос системы, поиска ссылок на информационные ресурсы Сети и выдачи результатов этого поиска пользователю.

index database - индекс - это основной массив данных информационно-поисковой системы. Он служит для поиска адреса информационного ресурса. Архитектура индекса устроена таким образом, чтобы поиск происходил максимально быстро и при этом можно было бы оценить ценность каждого из найденных информационных ресурсов сети.

queries - запросы пользователя сохраняются в его личной базе данных. На отладку каждого запроса уходит достаточно много времени, и поэтому чрезвычайно важно хранить запросы, на которые система дает хорошие ответы.

index robot - робот-индексировщик служит для сканирования Internet и поддержки базы данных индекса в актуальном состоянии. Эта программа является основным источником информации о состоянии информационных ресурсов сети.

www sites - это весь Internet. А если говорить более точно, то это те информационные ресурсы, просмотр которых обеспечивается программами просмотра.

Поисковые cистемы обычно состоят из трех компонентов:

1. агент (паук или кроулер), который перемещается по Сети и собирает информацию;

2. база данных, которая содержит всю информацию, собираемую пауками;

3. поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.

Министерство образования Российской Федерации.

Адыгейский Государственный университет

Курсовая.

На тему «Автоматизированные информационно – поисковые системы».

Выполнил

студент группы

Проверил

Введение ……………………………………………………………………3

1. Информационные системы…………………………………….4

Понятие информационных систем………………………………………4

Структура информационных систем……………………………………4

Классификация информационных систем……………………………..6

2. Информационно поисковые системы…………………………7

Исторические предпосылки развития поисковых систем……………7

Понятие поисковых систем…………………………………………….....9

Особенности поисковых систем…………………………………………10

· структура сети…………………………………………………....11

· структура работы поисковых систем……………………….....13

3. Характеристика поисковых систем……………………………17

4. проблемы и возможности поисковых систем…………………24

Заключение………………………………………………………………….25

Список литературы………………………………………………………...26

ВВЕДЕНИЕ.

Современный этап развития цивилизации характеризуется переходом наиболее развитой части человечества от индустриального общества к информационному. Одним из наиболее ярких явлений этого процесса является возникновение и развития глобальной информационной компьютерной сети.

В данной курсовой работе рассматриваются теоретические основы информационного поиска, классификация и разновидности информационно поисковых систем. Представлен материал по применяемым в настоящее время информационно – поисковым каталогом полнотекстовыми и гипертекстовым поисковым системам.

При появлении сети Интернет проблема поиска становилась более актуальной. Интернет – всемирная компьютерная сеть, представляющая собой единую информационную среду и позволяющая получить информацию в любое время. Но с другой стороны в Интернете храниться очень много полезной информации, но для поиска её требуется затрачивать много времени. Эта проблема послужила поводом к появлению поисковых машин. В данной курсовой работе будут рассмотрены поисковые машины в Интернете.

ИНФОРМАЦИОННЫЕ СИСТЕМЫ

Понятие информационных систем

Под Информационная системой понимается организованная совокупность программно – технических и других вспомогательных средств, технологических процессов и функционально – определенных групп работников, обеспечивающих сбор, представление и накопление информационных ресурсов в определённой предметной области, поиск и выдачу сведений необходимых для удовлетворения информационных потребностей пользователей. Информационных системы являются основным средством, инструментарием решения задач информационного обеспечения различных видов деятельности и наиболее бурно развивающейся отраслью индустрии информационных технологий.

Структура информационной системы

В составе информационной системы можно выделить три подсистемы:

1.Организационно – технологическая подсистема сбора информации обеспечивает информационную систему и включает совокупность источников информации, организационно – технологической цепочки отбора информации для накопления в системе. Без правильного организованной подсистемы сбора информации невозможна эффективная организация функционирования все информационной системы в целом.

2. Подсистема предоставления и обработки информации составляет ядро информационной системы и является отражением представления разработчиками и абонентами системы структуры и картины предметной области, сведения о которой должна отражать информационная система. Подсистема представления и обработки информации является одним из наиболее сложных компонентов при разработке информационной системы.

3. Нормативно – функциональная подсистема выдачи информации определяет пользователей, или иначе абонентов системы, реализует целевой аспект назначения и выполнения задач информационной системы.

Основой всех поисковых систем составляют базы данных – совокупность данных организованных по предельным правилам, предусматривающим общие принципы описания, хранения и манипулирования данными, независимо от прикладных программ.

Можно выделить следующие элементы функционирования информационных систем:

*Сбор информации – организованный в специальном порядке процесс сбора и отображения информации:

получение информации

оценка относимости информации

порядок отбора и фиксации информации.

*Комплектование – процесс сложения информации из множества частей в единое целое и доведения её до пользователя.

*Поиск и выдача информации – установление специального технологического порядка удовлетворения информационных потребностей абонентов информационной системы в управленческой деятельности и технологических процессах.

*Поддержание целостности и сохранения информации – пересмотр, ревизия и отсеивание утратившей актуальность информации являются неотъемлемой функцией информационных подразделений. Сохранность информации осуществляется с помощью нормативно – инструктивных документов.

Классификация информационных систем

По характеру предоставления логической организации хранимой информации разделяются на фактографические, документальные и геоинформационные.

Фактографические накапливают и хранят данные в виде множества экземпляров одного или нескольких типов структурных элементов. Каждый из таких экземпляров структурных элементов или некоторая их совокупность отражают сведения, по какому – либо факту, событию. Структура каждого типа информационного объекта состоит из конечного набора реквизитов, отражающих основные аспекты и характеристики сведений для объектов данной предметной области.

В документальных единичным элементом информации является нерасчлененный на более мелкие элементы документ и информация при вводе, как правило, не структурируются, или структурируются в ограниченном виде. Для вводимого документа могут устанавливаться некоторые формализованные позиции – дата изготовления, исполнитель, тематика. Некоторые виды документальных информационных систем обеспечивают установление логической взаимосвязи вводимых документов – соподчиненность по смысловому содержанию.

В геоинформационных данные организованы в виде отдельных информационных объектов привязанных к общей электронной топографической основе. Геоинформационные системы применяются для информационного обеспечения в тех предметных областях, структура информационных объектов и процессов в которых имеется географический компонент.

Другим критерием классификации поисковых систем являются функции или решаемые задачи.

Справочные являются наиболее распространенным типом функций информационных систем, и заключается в предоставлении абонентам системы возможностей получения установочных данных на определённые классы объектов.

Поисковые являются наиболее распространённым классом информационных систем. В общем, виде можно рассматривать как некое информационное пространство, задаваемое в терминах информационно – логического описания предметной области.

Расчетные заключается в обработке информации, находящейся в системе, по определённым расчётным алгоритмам для различных целей.

Технологические функции информационных систем заключаются в автоматизации всего технологического цикла или отдельных его компонентов, производственной или организационной структуры.

ИНФОРМАЦИОННЫЕ ПОИСКОВЫЕ СИСТЕМЫ

Исторические предпосылки развития поисковых систем.

Обратимся к истории возникновения сети Internet, которая была создана в связи с возникшей необходимостью совместного использования информационных ресурсов, распределенных между различными компьютерными системами. Большинство первых приложений, включая FTP и электронную почту, были разработаны исключительно для обмена данными между хост-компьютерами Internet.

Другие приложения, такие как Telnet, создавались для того, чтобы пользователь получил возможность доступа не только к информации, но и к рабочим ресурсам удаленной системы. По мере развития Internet (увеличения пользователей и хост-компьютеров) прежние методы обмена данными перестали отвечать возросшим потребностям пользователей. Возникла необходимость разработки новых способов поиска сетевых ресурсов и доступа к ним, которые позволяли бы использовать информацию независимо от ее формата и расположения.

Для удовлетворения таких потребностей сначала были созданы поисковая система Archie, решающая задачу локализации ресурсов на FTP-сервере, и система Gopher, упрощающая доступ к различным сетевым ресурсам. Затем были разработаны сетевые информационные системы WWW и WAIS, предлагающие абсолютно новые методы получения информации. Принципы работы этих систем позволяют легко ориентироваться в огромном количестве информационных ресурсов без необходимости предоставления механизмов работы самой сети Internet. Такой подход позволяет говорить уже не просто о ресурсах взаимосвязанных компьютерных систем, а об особых информационных пространствах сети.

Система Archie представляет собой комплекс программных средств, работающих со специальными базами данных. В этих базах данных содержится постоянно пополняющаяся информация о файлах, к которым можно получить доступ через сервис FTP. Пользуясь услугами системы Archie, можно осуществить поиск файла по шаблону его имени. При этом пользователь получит список файлов с точным указанием места их хранения в сети, а также с информацией о типе, времени создания и размере файлов. Доступ к информационно-поисковой системе Archie может осуществляться различными путями, начиная от запросов по электронной почте и с помощью сервиса Telnet и заканчивая использованием графических Archie-клиентов.

Система Gopher была разработана для упрощения процесса локализации FTP-ресурсов Internet и для более удобного представления сведений о содержании хранящихся на FTP-серверах файлов. Система Gopher дает возможность в удобной форме (в виде меню) представлять пользователям об имеющихся файлах и их содержании. Меню Gopher-серверов могут содержать ссылки на другие Gopher- и FTP-серверы. Таким образом, пользователь получает возможность “путешествовать” по Internet, не обращая внимания на местонахождение интересующих его ресурсов, и получать доступ к этим ресурсам.

Система Veronica используется для поиска информации в Gopher-пространстве по заголовкам пунктов меню. После ввода ключевого слова, система Veronica выясняет, встречается ли оно в меню на каком-либо Gopher-сервере, и в качестве результатов поиска выдает список заголовков пунктов меню, содержащих ключевое слово. Поскольку система Veronica не является автономной поисковой программой, а тесно связана с системой Gopher, она обладает тем же, что и система Gopher, недостатком: далеко не всегда по заголовку можно сказать, что собой представляет тот или иной информационный ресурс. Достоинства системы заключается в том, что нет необходимости узнавать, где расположена найденная информация, достаточно выбрать требуемую запись из списка.

Понятие информационных поисковых систем.

Автоматизированная поисковая система – система, состоящая из персонала и комплекса средств автоматизации его деятельности, реализующая информационную технологию выполнения установленных функций.

Опыт и практика создания систем в различных сферах деятельности позволяет дать более широкое и универсальное определение, которое полнее отражает все аспекты их сущности.

Под информационной системой в дальнейшем понимается – организованная совокупность программно – технических и других вспомогательных средств, технологических процессов и функционально – определённых групп работников, обеспечивающих сбор, представление и накопление информационных ресурсов в определённой предметной области, поиск и выдачу сведений, необходимых для удовлетворения информационных потребностей установленного контингента пользователей – абонентов системы.

Особенности поисковых систем.

В работе поисковый процесс представлен четырьмя стадиями: формулировка (происходит до начала поиска); действие (начинающийся поиск); обзор результатов (результат, который пользователь видит после поиска); и усовершенствование (после обзора результатов и перед возвращением к поиску с иной формулировкой той же потребности). Более удобная нелинейная схема поиска информации состоит из следующих этапов:

1. Фиксация информационной потребности на естественном языке;

2. Выбор поисковых сервисов сети и формализация записи информационной потребности на конкретных информационно-поисковых языках (ИПЯ);

3. Выполнение созданных запросов;

4. Предварительная обработка полученных списков ссылок на документы;

5. Обращение по выбранным адресам за искомыми документами;

6. Предварительный просмотр содержимого найденных документов;

7.Сохранение релевантных документов для последующего изучения;

8. Извлечение из релевантных документов ссылок для расширения запроса;

9. Изучение всего массива сохраненных документов;

10. Если информационная потребность не полностью удовлетворена, то возврат к первому этапу.

Процесс поиска имеет чрезвычайно глубокий дидактический аспект – так, установлено что применение диалоговых информационных систем приводит к формированию у рядовых пользователей такого стиля информационно-поисковой деятельности, который обычно свойственен наиболее выдающимся ученым.

В большинстве случаев информационная потребность возникает после изучения какой-либо новой информации, полученной пользователем. Часто возникает ситуация, когда пользователь уже обладает некоторым массивом документов по искомой тематике. Предлагается использовать эти документы для автоматизированного составления поискового запроса с помощью специализированной системы управления документами (СУД) (система находится в стадии разработки).

Система должна осуществлять индексацию всех документов пользователя. В процессе индексации все слова, содержащиеся в документах, разбиваются по следующим семантическим классам: стоп-слова; наиболее частотные слова бытового (разговорного) языка; общекультурная терминология; общенаучная терминология; известные системе термины предметной области; неизвестные слова. Разбиение осуществляется на основе соответствующих словарей, которые должны быть составной частью системы. К неизвестным словам будут отнесены в первую очередь многие специальные слова предметной области. Туда же попадут новообразованные термины и слова, содержащие ошибки.

На основе индекса осуществляется построение векторного представления документов, после чего СУД производит иерархическую кластеризацию множества документов, в результате чего получается разбиение этого множества на тематические группы. В ходе диалога с пользователем происходит выбор одного или нескольких наиболее релевантных кластеров документов и задание характеристик поискового процесса.

Поисковый запрос следует строить на основе вектора центроида выбранного кластера. Оптимальный размер запроса составляет от 8-12 до 25-30 терминов . Последняя подготовительная операция, осуществляемая СУД заключается в записи запроса на ИПЯ.

Структура сети.

Как известно, наиболее простой способ расширения информационного поиска в сети Интернет применен в метапоисковых системах и заключается в увеличении количества используемых первичных ИПС. Этот механизм должен быть реализован в любой разрабатываемой системе. Задача распределения ресурсов поисковой системы по различным ИПС глобальной сети должна решаться адаптивно, на основании учета доли ссылок признанных релевантными во время предыдущих сеансов поиска.

Второй блок автоматизированной поисковой системы отправляет созданный запрос и осуществляет сортировку и отбор полученных ссылок, после чего обращается по выбранным адресам и получает из сети некоторое множество документов, также содержащих гиперссылки.

В исследовании показано, что распространенное мнение о хаотичности информационного наполнения глобальной сети и об отсутствии какой-либо структуры связей является заблуждением. Выявлено наличие так называемых “сообществ” – хорошо связанных групп сайтов, содержащих материалы близкой тематики. Выделяются “центральные” страницы – содержащие большие списки ссылок и страницы, на которые ведут многие ссылки, – “авторитетные” страницы. Таким образом, целью 8-го этапа поиска является обнаружение таких групп и выявление среди их членов наиболее “авторитетных”. Как показано в , алгоритм решения этой задачи достаточно прост.

Обработка результатов поиска.

После получения в результате поиска в сети некоторого множества документов, среди них необходимо выделить наиболее релевантные. Наличие “сообществ” не облегчает эту задачу. Можно выделить следующие несколько классов наиболее частых ситуаций.

1. Отсутствие в исследуемом сегменте сети искомой информации. Подобная ситуация описана в . В этом случае следует перейти к другому сегменту, т. е. обычно исследовать ресурсы, созданные на других языках.

2. Найденные “сообщества” содержат информацию не по требуемой тематике, а главным образом по другим, близким к искомой.

3. Обнаружено слишком большое количество информационных ресурсов.

В последних двух случаях необходимо осуществить автоматический перебор всех найденных документов и определить степень близости их к исходному запросу. Более 20 метрических мер близости, пригодных для сравнения документов в векторном представлении, рассмотрены в работе . Оптимальное решение задачи ранжирования достигается путем применения системы, основанной на агентно-ориентированном подходе.

Во многих случаях поиска в новой области, когда общий уровень пользователя недостаточно высок, желательно осуществлять фильтрацию выдаваемой информации по стилю текста так, чтобы начальное ознакомление с материалом происходило с использованием популярных и научно-популярных текстов.

Для уменьшения объема рассматриваемых материалов следует также осуществить фильтрацию результатов поиска по типу источников. Так очевидно, что документы, расположенные на научных сайтах, на коммерческих, или на серверах СМИ будут существенно различаться по своему характеру.

Структура работы поисковых систем.

Работа поискового указателя происходит в три этапа, из кото­рых два первых являются подготовительными и незаметны для пользователя. Сначала поисковый указатель собирает инфор­мацию из World Wide Web . Для этого используют специальные программы, аналогичные браузеры. Они способны скопи­ровать заданную Web-страницу на сервер поискового указателя, просмотреть ее, найти все гипетэссылки, которые на ней имеютте ресурсы, которые найдены там, снова разыскать имеющиеся в них гиперссылки и т. д. Подобные программы называют червяками, пауками, гусеницами, краулерами, спайдерами и другими подобными именами." Каждый поисковый указатель эксплуатирует для этой цели свою уникальную программу, которую нередко сам и разрабатывает. Многие современные поисковые системы родились из экспериментальных проектов, связанных с разработкой и внедрением автоматических про­грамм, занимающихся мониторингом Сети. Теоретически, при удачном входе спайдер способен прочесать все Web-простран­ство за одно погружение, но на это надо очень много времени, а ему еще необходимо периодически возвращаться к ранее посе­щенным ресурсам, чтобы контролировать происходящие там изменения и выявлять «мертвые» ссылки, т. е. потерявшие актуальность.

После копирования разысканных Web-ресурсов на сервер поис­ковой системы начинается второй этап работы - индексация. В ходе индексации создаются специальные базы данных, с помощью которых можно установить, где и когда в Интернете встречалось, то или иное слово. Считайте, что индексированная база данных - это своего рода словарь. Она необходима для того, чтобы поисковая система могла очень быстро отвечать на запросы пользователей. Современные системы способны выда­вать ответы за доли секунды, но если не подготовить индексы заранее, то обработка одного запроса будет продолжаться часами.

На третьем этапе происходит обработка запроса клиента и выдача ему результатов поиска в виде списка гиперссылок. Допустим, клиент хочет узнать, где в Интернете имеются Web-страницы, на которых упоминается известный голландский механик, оптик и математик Христиан Гюйгенс. Он вводит слово Гюйгенс в поле набора ключевых слов и нажимает кнопку. Найти (Search). По своим базам указателей поисковая система в доли секунды разыскивает подходящие Web-ресурсы и фор­мирует страницу результатов поиска, на которой рекомендации представлены в виде гиперссылок. Далее клиент может пользоваться этими ссылками для перехода к интересующим его ресурсам.

Все это выглядит достаточно просто, но на самом деле здесь есть проблемы. Основная проблема современного Интернета связана с изобилием Web-страниц. Достаточно ввести в поле поиска такое простое слово, как, например, футбол, и российская поис­ковая система выдаст несколько тысяч ссылок, сгруппировав их по 10-20 штук на отображаемой странице.

Несколько тысяч - это еще не так много, потому что зарубеж­ная поисковая система в аналогичной ситуации выдала бы сотни тысяч ссылок. Попробуйте найти среди них нужную! Впрочем, для рядового потребителя совершенно все равно, выдадут ему тысячу результатов поиска или миллион. Как правило, кли­енты просматривают не более 50 ссылок, стоящих первыми, и что там делается дальше, мало кого беспокоит. Однако клиен­тов очень и очень беспокоит качество самых первых ссылок. Клиенты не любят, когда в первом десятке встречаются ссылки, утратившие актуальность, их раздражает, когда подряд идут ссылки на соседние файлы одного и того же сервера. Самый же плохой вариант - когда подряд идут несколько ссылок, веду­щих к одному и тому же ресурсу, но находящемуся на разных серверах.

Клиент вправе ожидать, что самыми первыми будут стоять наи­более полезные ссылки. Вот здесь и возникает проблема. Чело­век легко отличает полезный ресурс от бесполезного, но как объяснить это программе?! Поэтому лучшие поисковые сис­темы проявляют чудеса искусственного интеллекта в попытке отсортировать найденные ссылки по качественности их ресур­сов. И делать это они должны быстро - клиент не любит ждать.

Строго говоря, все поисковые системы черпают исходную информацию из одного и того же Web-пространства, поэтому исходные базы данных у них могут быть относительно похожи. И лишь на третьем этапе, при выдаче результатов поиска, каж­дая поисковая система начинает проявлять свои лучшие (или худшие) индивидуальные черты. Операция сортировки полу­ченных результатов называется ранжированием. Каждой най­денной Web-странице система присваивает какой-то рейтинг, который должен отражать качество материала. Но качество - понятие субъективное, а программе нужны объективные кри терии, которые можно выразить числами, пригодными для сравнения.

Высокие рейтинги получают Web-страницы, у которых клю­чевое слово, использованное в, запросе, входит в заголовок. Уровень рейтинга повышается, если это слово встречается на Web-странице несколько раз, но не слишком часто. Благопри­ятно влияет на рейтинг вхождение нужного слова в первые 5-6 абзацев текста - они считаются самыми важными при индек­сации. По этой причине опытные Web-мастера избегают давать в начале своих страниц таблицы. Для поисковой системы каж­дая ячейка таблицы выглядит, как абзац, и потому содержательный основной текст как бы далеко отодвигается назад (хотя на экране это и не заметно) и перестает играть решающую роль для поисковой системы.

Очень хорошо, если ключевые слова, использованные в запросе, входят в альтернативный текст, сопровождающий иллюстра­ции. Для поисковой системы это верный признак того, что дан­ная страница точно соответствует запросу. Еще одним призна­ком качества Web-страницы является тот факт, что на нее есть ссылки с каких-то других Web-страниц. Чем их больше, тем лучше. Значит, эта Web-страница популярна и обладает высо­ким показателем цитирования. Самые совершенные поиско­вые системы следят за уровнем цитирования зарегистрирован­ных ими Web-страниц и учитывают его при ранжировании.

Создатели Web-страниц всегда заинтересованы в том, чтобы их просматривало больше людей, поэтому они специально гото­вят страницы так, чтобы поисковые системы давали им высо­кий рейтинг. Хорошая, грамотная работа Web-мастера способ­на значительно поднять посещаемость Web-страницы, однако есть и такие «мастера», которые пытаются обмануть поиско­вые системы и придать своим Web-страницам значимость, кото­рой в них на самом деле нет. Они многократно повторяют на Web-странице какие-то слова или группы слов, а для того чтобы те не попадались на глаза читателю, либо делают их исключи­тельно мелким шрифтом, либо применяют цвет текста, сов­падающий с цветом фона. За такие «хитрости» поисковая сис­тема может и наказать Web-страницу, присвоив ей штрафной отрицательный рейтинг.

В последние годы сложилась и практика коммерческого рейтингования. Технически они оснащены самыми современными средствами, соответствующими уровню 2000 года, а общий размер Рунета (российского сектора Интер­нета) сегодня примерно таков, каким был западный сектор в 1994-1995 гг. Поэтому сегодня в России особых проблем с поис­ком информации нет и в ближайшее время они не предвидятся. А в западном секторе проблемы с поиском очень большие, и разные поисковые системы пытаются по-разному их преодо­леть. О том, как это происходит, мы и расскажем.

Из поисковых указателей в России сегодня действуют три «кита» (есть и более мелкие системы, но мы останавливаться на них не будем). Это «Рамблер» (www.rambler. ru), «Яндекс» (www.yandex. ru) и «Апорт2000» (www.aport. ru).

Исторически наиболее популярной поисковой системой явля­ется «Рамблер». Она начала работать раньше других и долгое время лидировала по размеру поискового указателя и качеству услуг поиска. Увы, сегодня эти достижения в прошлом. Несмо­тря на то, что размер поискового указателя «Рамблер» примерно равен 12 миллионам Web-страниц, он давно толком не обнов­лялся и выдает устаревшие результаты. Сегодня «Рамблер» -это популярный портал, лучшая в России классификационно-рейтинговая система (о том, что это такое, мы расскажем ниже) плюс рекламная площадка. Традиционно эта система держит первое место в России по посещаемости и имеет хорошие доходы от рекламы. Но в развитие средств поиска средства, как мы покажем ниже, не вкладываются.

Самый большой указатель лежит в основе системы «Яндекс» -примерно 27 миллионов Web-страниц, но дело не только в раз­мере. Это не просто указатель на ресурсы, а указатель на самые актуальные ресурсы. По уровню актуальности «Яндекс» сего­дня - безусловный лидер (рис. 7.3).

Система «Апорт» выигрывает на третьем этапе:в момент представления информации клиенту. Она не стремится к созда­нию самого большого указателя автоматическими средствами, а вместо этого широко использует информацию из каталога @Rus, проходящую ручную обработку. Поэтому система выдает не так много результатов, как ее ближайшие конкуренты, но зато эти результаты, как правило, точны и наглядно представ­лены.

Характеристика поисковых систем.

Начиная поиск чего-либо в Internet и имея минимум информации, а так же пытаясь огранить потери времени, для получения наиболее общей информации возможно обращение к следующей базе данных.

База данных: предмет ведет к Межсетевым ресурсам, построенным библиотекарями.

Поиск: Поиски могут быть ограничены названием ресурса, описанием его, или с указанными предметными заголовками.

Результаты: Результаты показаны в алфавитном порядке названиями ресурса.

Адрес: http://sunsite.berkeley.edu/InternetInd ex/

Yahoo! – самая известная поисковая машина. Её сайты разбиты по категориям и ключевым словам. Она содержит полезную информацию на своей домашней странице. Может подключаться к другим поисковым машинам

Базы данных: в ведении находится служба поиска Internet-ресурсов, новостей, карт, рекламных информаций, спортивная информация, бизнес, номера телефонов, персональные WWW-страницы, и email-адреса (отдельная база данных).

Поиск: Все Yahoo страницы предлагают не только простое поисковое окно, но и опции для этого поиска, а так же поиск Usenet или Email-адреса. Поиск может ограничиваться указанием определённого промежутка времени. Boolean операторы (и, или) и последовательный поиск также поддержаны. Отметим: если поиск в Yahoo! не привёл к положительному результату, то процесс поиска автоматически переходит на Alta Vista, которая продолжает поиск, и в случае положительных результатов автоматически возвращает найденную информацию в Yahoo!.

Если Yahoo! не может установить связь достаточно быстро с Alta Vista, то в этом случае Yahoo! будет обеспечивать страницу связи с набором инструментов поиска. После того как одна из этих связей выбирается, ключевые слова передаются к поисковой машине на ваше усмотрение.

Средством, облегчающим поиск, является наличие “tip search”(TS) - поиск с помощью “намека”: Yahoo! Является подчиненным справочником, что означает, что система не имеет так много страниц, как поисковые машины, однако задание наиболее общих ключевых слов позволит найти необходимую тему на странице высокого уровня (первая страница, которая возникает перед пользователем при посещении сайта) для организации или компании.

Результаты: Связи отображаются в соответствии с очерёдностью задаваемых слов последовательностью поиска наряду с их описательным текстом и подчиненной иерархией.

Адрес: http://www.yahoo.com/

Частота Модернизации: ежедневно

Alta Vista поддерживает поиск по ключевому набору слов и для определения языка конкретной страницы использует методы искусственного интеллекта. Пользователи могут настроить опции поиска и выбирать тип поиска – сложный или упрощенный, а также воспользоваться различными способами предоставления информации. В отличие от машин, которые индексируют только ключевые слова, она индексирует весь текст, что позволяет осуществлять полный поиск. Однако из - за этого пользователь может просто утонуть в информации.

Базы данных: Расположенные по всему миру WWW-страницы и Usenet News (новости).

Поиск: Предлагает простой(simple (S)) поиск или (much more advanced (MMS)),т.е. более передовой, способ. S - поиск стоит в основном использовать для общих вопросов, MMS - поиск использует специфический поисковый синтаксис. Для облегчения выполнения процедуры имеется подсказка(Simple Search Help). MMS - поиск, используя булинь(boolean), т.е. с помощью ключевых союзов, используя (and, or, not - (и, или, не)) и простую смежность (near - (около)) позволяет употреблять несколько слов, чередование слов, словосочетание в качестве ключевых для проведения поиска.

TS - поиск: Введением ключа типа: " Ваша Фраза " как первое направление поиска, который будет ограничивать число найденных WWW - документов с заголовками типа " Ваша Фраза ".

Результаты: Предлагает три выбора результатов (но два дают тот же самый результат):

1) "Стандартные"("Standard") - результаты, полученные машиной в виде списка параграфов, резюмируемые ей, с наличием URL - адреса, размером файла и последней датой модернизации. Результаты возвращаются как десять пунктов на экране,

2) "Компактный"("Compact") помещают каждый пункт в одной строке с последней датой модернизации картотеки,

3) "Детальный"("Detailed"), который является таким же самым, как и "Стандартный".

Адрес: http://altavista.digital.com

Частота модернизации: Постоянно WWW-роботом.

Для анализа информации Excite использует поисковую технологию IntelligentConceptExtraction, что позволяет делать запросы по образцу. Это самая популярная поисковая система в Америке. Для каждой найденной страницы она оценивает степень соответствия запросу.

Базы данных: WWW-страницы по всему миру, новости, карты, "yellow pages" ("желтые страницы"), свободно распространяемое программное обеспечение, основные цитаты, программы телевидения, погоду, E - mail адреса, рейсы авиалиний.

Поиск: Предлагает только S - поиск, который поддерживает некоторые опции MMS - поиска.

TS - поиск: используйте плюс (+) чтобы определить, что все документы имеют данное слово, или используют минус (-) что бы уточнить, что ни один из документов не имеет данного слова. Возможно так же поддержка вoolean-операторами.

Вы можете использовать "AND", "OR" and "AND NOT"(И, ИЛИ и. И НЕ) операторы и круглые скобки для группировки. Например: (digital or virtual or electronic) AND library.

(цифровой или виртуальный или электронный) И библиотека.

Результаты: Результаты показаны с названием документа, разряд уместности в процентах, URL - адрес, резюме программного обеспечением документа, и опция, чтобы восстановить "More Like This"(" Скорее Этот "), которая позволяет использовать документ как ваш вопрос.

Адрес: http://www.excite.com/

Частота Модернизации: Постоянно - WWW-роботом.

Для поиска в Интернете использует многопроцессорную параллельную обработку 10. млн. страниц ежедневно. Полезная сторона Hot Bot ограничение на тип страниц по средствам выбора кнопок.

База данных: Расположенные по всему миру WWW-страницы.

Поиск: Предлагает S - поиск и Эксперт(Expert (Е))- поиск, поддерживает boolean-операторы (И и ИЛИ), поиск фразы, и выбор " человек "или" URL ". Е-поиск также поддерживает задание даты, местоположение (страна и т.д.)

TS - поиск: использует заключение фразы в двойные кавычки (например, " слова фразы ").

Результаты: Результаты показаны с названием документа, разряд уместности в проценте, URL, размер документа.

Адрес: http://www.hotbot.com/

Частота модернизации: Постоянно WWW-роботом ("Slurp").

Infoseek самая популярная поисковая машина в компьютерной индустрии. В мае 1996 она была признана как самая достоверно предоставляющая информацию машина. Привлекательность машины в том, что после отсеивания информации можно проверить найденную информацию ещё раз.

Базы данных: расположенные по всему миру WWW-страницы, новости, запасает цитаты, карты, желтые страницы("yellow pages"), e mail адреса, и т.д.

Поиск: предлагает только простой S - поиск, но ключевые слова поиска могут быть ограничены специфическими полями (типа в пределах заголовков документа), поиск с использованием возможностей либо с исключением определённого слова (данному слову предшествует минус"-") или с включением требуемого слова (данному слову предшествует " + "). Для дополнительной информации относительно выбора поиска, используется. Infoseek-Помощь(Infoseek Help).

Результаты: Включает название документа, размер картотеки, URL, краткое резюме, извлеченное из документа, и разряд уместности в процентах.

Адрес: http://www.infoseek.com/

Частота Модернизации: Постоянно WWW-роботом.

Дополнительная информация: в случае большого количества информации см. http://info.infoseek.com/.

Lycos – одна из первых поисковых машин. Машина удобна для работы с поиском и для одновременного просмотра сайтов. При выводе информации показывает краткий обзор, и найденные адреса.

Базы данных: расположенные по всему миру WWW-страницы, звуки, картины, "top 5% sites"

Поиск: предлагает S - поиск и клиентурный(Custom (С)) поиск. С-поиск поддерживает boolean-операторы AND и OR (И и ИЛИ), также как некоторые другие назначения.

Результаты: результаты внесены в упорядоченный список; информация включает адрес документа (URL), название, размер файла, и выдержки из файла.

Адрес: http://www.lycos.com/

Частота модернизации: постоянно WWW-роботом.

ПРОБЛЕМЫ И ВОЗМОЖНОСТИ ПОИСКОВЫХ СИСТЕМ.

Работа многих поисковых машин считается вполне успешной. Однако все современные поисковые системы страдают некоторыми серьёзными недостатками:

1. поиск по ключевым словам даёт слишком много ссылок и многие из них бесполезны.

2. огромное количество поисковых машин с разными пользовательскими интерфейсами порождает проблему когнитивной перегрузки.

3. методы индексирования баз данных, как правило, не связаны с информационным содержанием.

5. машины ещё не столь совершены, чтобы понимать естественный язык

в последнее время потребности в интеллектуальной помощи быстро растут. Это привело к появлению интеллектуальных агентов.

Обычно интеллектуальные агенты являются основной частью поисковой машины для поиска используется искусственный интеллект. Пользователь учит агента, а затем он выходит в Интернет для поиска.

Интеллектуальные агенты выполняют инструкции от имени пользователя, имеют некоторую самостоятельность. После поиска они оповещают пользователя о результатах. Агенты учатся в результате своей деятельности.

Интеллектуальность – обучение на основе обратной связи по примерам ошибкам и по средствам взаимодействия с другими агентами.

Простота использования – можно тренировать агента используя естественный язык.

Индивидуальный подход – адаптация к предпочтениям пользователей.

Интегрированность – непрерывное обучение применение уже имеющих знаний к новым ситуациям.

Автономность – ощущение окружающей среды, и анализ выводов.

ЗАКЛЮЧЕНИЕ.

Рассмотренные мною поисковые машины далеки от совершенства. Считается, что идеальная поисковая машина должна отвечать следующим требованиям:

1. простота в использовании

2. чётко организованный и обновляемый индекс.

3. быстрый поиск в базе данных и быстрое реагирование.

4. надёжность и точность результатов поиска.

Масштабы информационных ресурсов и их количество постоянно расширяется. Становится ясно, что база данных не является совершенной. Интеллектуальные агенты – новое направление лежащее в основе нового поколения поисковых машин, которые могут фильтровать информацию и получать более точный результат. Internet продолжает развиваться с неослабевающей интенсивностью, по сути дела стирая ограничение на распространение и получение информации в мире. Однако в этом информационном океане бывает не очень легко найти необходимый документ следует также иметь в виду, что в сети наряду с давно действующими серверами возникают новые.

Информационные системы, в которых представлены хранение, и обработка информации осуществляются с помощью вычислительной техники, называют автоматизированными, различные виды деятельности и наиболее буро развивающиеся отраслью индустрии информационных технологий.

Список литературы.

1. Э.А. Якубайтис «Информатика-электроника-сети». М., «Финансы и статистика», 1989.

2. . А. В. Гаврилов "Локальные сети ЭВМ", Москва, Изд-во "Мир", 1990.

3. Н.А. Гайдамакин «Автоматизированные информационные системы, базы и банки данных», М.: «Гелиос», 2002.

Выдержка из работы

ВВЕДЕНИЕ

Современный этап развития цивилизации характеризуется переходом наиболее развитой части человечества от индустриального общества к информационному. Одним из наиболее ярких явлений этого процесса является возникновение и развития глобальной информационной компьютерной сети.

Проблема поиска и сбора информации — одна из важнейших проблем информационно поисковых систем. Конечно, нельзя сравнивать в этом отношении, скажем, средние века, когда поиск информации был проблемой потому, что этой информации было мало, и требовались усилия только для того, чтобы найти хоть что-то по более или менее значительному интересующему вопросу. Так, сначала появилась возможность пойти в библиотеку и, потратив там время на выбор нужной книги по каталогу, найти необходимую информацию. Но каталоги не решают полностью проблем поиска информации даже в рамках одной библиотеки, так как в каталожную запись входит относительно мало информации: заголовок, автор, место издания. Проблема поиска информации приобрела новый характер в 20-м столетии, с началом развития века информационных технологий. Теперь она заключается не в том, что информации мало и поэтому ее трудно найти, а в том, что ее теперь наоборот становится все больше и больше, и от этого найти ответ на интересующий вопрос может оказаться тоже довольно сложной задачей. Проблема поиска информации значительно усложняется при использовании виртуальных источников. Здесь используется технология онлайновых каталогов, в результате применения которой пользователь имеет возможность выполнять поиск в каталогах сразу нескольких библиотек, чем, на самом деле, еще больше усложняет себе задачу, но, с другой стороны, увеличивает шансы решить ее.

1. ИНФОРМАЦИОННО-ПОИСКОВЫЕ СИСТЕМЫ

Под информационной системой понимается организованная совокупность программно — технических и других вспомогательных средств, технологических процессов и функционально — определенных групп работников, обеспечивающих сбор, представление и накопление информационных ресурсов в определённой предметной области, поиск и выдачу сведений необходимых для удовлетворения информационных потребностей пользователей. Информационных системы являются основным средством, инструментарием решения задач информационного обеспечения различных видов деятельности и наиболее бурно развивающейся отраслью индустрии информационных технологий.

Информационно-поисковая система — это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска.

В настоящее время для поиска информации в постоянно увеличивающемся информационном пространстве могут использоваться две принципиально разные информационно-поисковые системы (ИПС): информационно-поисковые системы для глобальной сети и справочно-правовые системы (СПС). Обе системы развиваются и функционируют независимо друг от друга. Совместное использование этих систем позволяет быстро и качественно решить задачу поиска информации при решении широкого круга инженерных задач.

Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска — релевантность.

1.1 Информационно-поисковый язык и информационно-поисковый словарь

Когда говорят об информационно-поисковой системе, подразумевают, что она использует предметный указатель. Предметный указатель позволяет отыскивать документы, касающиеся некоего «предмета». Для составления предметного указателя анализируется содержание документа и определяется «предмет» или «предметы», о которых в документе идет речь. Затем названия этих предметов переводятся на информационно-поисковый язык (ИПЯ). Таким образом, мы получаем поисковый образ документа (ПОД). Проиндексировав (создав поисковые образы) все информационные ресурсы, мы получаем то, что принято называть индексом (index database) — основной массив данных ИПС.

Так как процесс поиска заключается в сопоставлении запроса пользователя с имеющимися данными, полученный запрос также должен быть переведен на ИПЯ. После сопоставления переведенного на ИПЯ запроса и поисковых образов документов пользователь получает список ссылок на документы, которые соответствуют, по мнению системы, его запросу.

Поиск происходит не по тексту документов, а по их поисковым образам, составленным на ИПЯ. Поэтому ИПЯ — основная часть информационно-поисковой системы, от которой в первую очередь зависит качество системы. В состав информационно-поискового языка входят:

1. Словарь индексированных терминов — множество терминов индексирования.

2. Кодовый словарь — множество кодовых терминов.

3. Словарь входов — множество входных терминов.

4. Вспомогательные средства языка индексирования — средства, используемые совместно с индексационными терминами для расширения или сужения определенных понятий.

5. Правила использования языка индексирования.

Типовая схема ИПС, использующей предметное индексирование, представлена на рис. 1.1.

Рисунок 1.1 — Типовая схема ИПС

Для повышения эффективности поиска словарь, используемый системой, должен быть контролируемым, то есть он должен быть организован таким образом, чтобы полнота и точность поиска была оптимальной. Очевидно, что организация словаря зависит от многих факторов — предметной области, в которой будет использоваться ИПС, характера интересов пользователей, степени их подготовки и т. д.

В общем виде процедура поиска является процедурой итеративной, то есть за этапом выдачи результатов поиска следует коррекция запроса, поиск по этому запросу и т. д. Схематично такая процедура показана на рис. 1.2.

Рисунок 1.2 — Процедура поиска

Коррекция запроса происходит исходя из количества полученных документов и их релевантности, и может выполняться как пользователем, так и самой информационно-поисковой системой.

1. 2 Подсистемы информационной системы

В составе информационной системы можно выделить три подсистемы:

1. Организационно — технологическая подсистема сбора информации обеспечивает информационную систему и включает совокупность источников информации, организационно — технологической цепочки отбора информации для накопления в системе. Без правильного организованной подсистемы сбора информации невозможна эффективная организация функционирования все информационной системы в целом.

2. Подсистема предоставления и обработки информации составляет ядро информационной системы и является отражением представления разработчиками и абонентами системы структуры и картины предметной области, сведения о которой должна отражать информационная система. Подсистема представления и обработки информации является одним из наиболее сложных компонентов при разработке информационной системы.

3. Нормативно — функциональная подсистема выдачи информации определяет пользователей, или иначе абонентов системы, реализует целевой аспект назначения и выполнения задач информационной системы.

2. ФУНКЦИИ ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ

Основой всех поисковых систем составляют базы данных — совокупность данных организованных по предельным правилам, предусматривающим общие принципы описания, хранения и манипулирования данными, независимо от прикладных программ.

Можно выделить следующие элементы функционирования информационных систем:

Сбор информации — организованный в специальном порядке процесс сбора и отображения информации:

Получение информации;

Оценка относимости информации;

Порядок отбора и фиксации информации.

Комплектование — процесс сложения информации из множества частей в единое целое и доведения её до пользователя.

Поиск и выдача информации — установление специального технологического порядка удовлетворения информационных потребностей абонентов информационной системы в управленческой деятельности и технологических процессах.

Поддержание целостности и сохранения информации — пересмотр, ревизия и отсеивание утратившей актуальность информации являются неотъемлемой функцией информационных подразделений. Сохранность информации осуществляется с помощью нормативно — инструктивных документов.

По характеру предоставления логической организации хранимой информации информационные системы разделяются на фактографические, документальные и геоинформационные.

Фактографические информационные системы накапливают и хранят данные в виде множества экземпляров одного или нескольких типов структурных элементов. Каждый из таких экземпляров структурных элементов или некоторая их совокупность отражают сведения, по какому — либо факту, событию. Структура каждого типа информационного объекта состоит из конечного набора реквизитов, отражающих основные аспекты и характеристики сведений для объектов данной предметной области.

В документальных информационных системах единичным элементом информации является нерасчлененный на более мелкие элементы документ и информация при вводе, как правило, не структурируется, или структурируются в ограниченном виде. Для вводимого документа могут устанавливаться некоторые формализованные позиции — дата изготовления, исполнитель, тематика. Некоторые виды документальных информационных систем обеспечивают установление логической взаимосвязи вводимых документов — соподчиненность по смысловому содержанию.

В геоинформационных системах данные организованы в виде отдельных информационных объектов, привязанных к общей электронной топографической основе. Геоинформационные системы применяются для информационного обеспечения в тех предметных областях, структура информационных объектов и процессов в которых имеется географический компонент.

Другим критерием классификации поисковых систем являются функции или решаемые задачи. По данному признаку различаются справочные, поисковые и расчётные системы.

Справочные являются наиболее распространенным типом функций информационных систем, и заключается в предоставлении абонентам системы возможностей получения установочных данных на определённые классы объектов.

Поисковые являются наиболее распространённым классом информационных систем. В общем, виде можно рассматривать как некое информационное пространство, задаваемое в терминах информационно — логического описания предметной области.

Расчетные заключается в обработке информации, находящейся в системе, по определённым расчётным алгоритмам для различных целей.

Технологические функции информационных систем заключаются в автоматизации всего технологического цикла или отдельных его компонентов, производственной или организационной структуры.

Таким образом, к основным функциям ИПС можно отнести:

— хранения больших объемов информации;

быстрого поиска требуемой информации;

— добавления, удаления и изменения хранимой информации;

— вывода информации в удобном для человека виде.

Различают: — автоматизированные (coputerised);

— библиографические (reference);

— диалоговые (online);

— документальные и фактографические информационно-поисковые системы.

Информационно-поисковые системы в последнее время начали ускоренно развиваться, появляются новые системы, они широко рекламируются и продаются. Это обусловлено значительно возросшей потребностью общества в эффективной работе с правовой и нормативно-технической информацией и использованием при этом компьютерных информационно-поисковых систем. Широкое распространение поисковых систем явилось подлинным прорывом в области информатизации в России и дало возможность техническим специалистам предприятий получить свободный доступ к правовым и нормативно-техническим документам.

Качество принятых специалистом решений зависит от количества обработанной информации. В современных условиях обойтись без мощного и удобного инструмента, помогающего в поиске и обработке информации, невозможно. Эффективное использование поисковых систем зависит от того, насколько технический специалист знает специфику, возможности и область применения этих новых информационных систем.

Создание современных систем хранения информации осуществляется двумя основными способами: с использованием иерархической и гипертекстовой моделей. В иерархической модели используется многоуровневая рубрикация при классификации информации. Для поиска документа используется его краткое описание, составляемое при вводе информации в систему. Современная гипертекстовая модель позволяет в электронных документах использовать ссылки на другие документы.

Опыт эксплуатации различных систем обработки и поиска информации, основанных на таких моделях указывает на то, что они не лишены недостатков. Обе системы требуют значительных материальных затрат на разработку и формирование, а значит, ограничены в объемах хранимой информации. Формирование рубрикаторов и ссылок производится специалистами, а их представление об информации и представление пользователя могут различаться.

3. ОБЗОР СОВРЕМЕННЫХ ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ

Принятие обоснованных решений в сфере, как экономики, так и политики невозможно без обладания достаточным объемом правовой информации. Особенно остро эта необходимость ощущается в период реформирования экономического и политического устройства. Задачу удовлетворения потребности в своевременном предоставлении необходимого объема правовой информации решают различные средства массовой информации (СМИ).

В этой области конкурируют как традиционные СМИ, так и справочно-правовые системы (СПС). По-настоящему эффективная СПС может быть создана только с применением современных информационных технологий. Созданная таким образом СПС называется компьютерной.

Компьютерная справочно-правовая система — это программный комплекс, включающий в себя массив правовой информации и инструменты для работы с ним. Эти инструменты могут позволять производить поиск документов, формировать подборки документов, выводить документы или их фрагменты на печать. Преимущества компьютерных СПС очевидны. Это и доступность информации, и удобство работы с нею. Проблема же, присущая таким системам, — недостаточная оперативность — может быть решена с помощью глобальной сети Интернет.

На рынке справочно-правовых систем в России работает большое количество фирм как разрабатывающих собственные программные комплексы, так и обслуживающих существующие. Наиболее известны следующие продукты таких фирм (поданным АО «Консультант Плюс»):

«Консультант Плюс» (АО «Консультант Плюс»);

«ГАРАНТ» (НПП «Гарант-Сервис»);

«Кодекс» (Центр компьютерных разработок).

Системы, созданные государственными предприятиями для обеспечения потребностей в правовой информации государственных ведомств:

«Эталон» (НЦПИ при Министерстве юстиции РФ);

«Система» (НТЦ «Система» при ФАПСИ).

Кроме того, на российском рынке представлены такие системы, как:

«ЮСИС» (фирма «Инталекс»);

«Референт» (ЗАО «Референт-Сервис»);

«Юридический мир» (издательство «Дело и право»);

«Ваше право» и «Юрисконсульт» (фирма «Информационные системы и технологии»);

«Законодательство России» (Ассоциация развития банковских технологий) и некоторые другие.

Различные продукты могут существенно различаться не только по задачам, решаемым с их помощью, но и по качеству.

Качество СПС зависит как от качества предоставляемой информации, так и от качества инструментов, используемых для работы с ней. Применение самых последних компьютерных технологий не поможет, если в СПС не содержится полной правовой информации или если информация обновляется с недостаточной периодичностью. И наоборот, СПС, содержащая даже самую полную и оперативно обновляющуюся информацию, не будет достаточно эффективна, если не предоставлены качественные инструменты для обработки этой информации. Таким образом, основными параметрами, позволяющими определить качество содержания информационной базы, являются:

полнота информации;

достоверность информации;

оперативность обновления информации.

Параметры, характеризующие качество программной оболочки:

поисковые возможности системы;

средства актуализации информации;

дополнительные сервисные функции.

Рассмотрим основные справочные системы.

3.1 Справочно-правовая система «Консультант Плюс»

Справочно-правовая система «Консультант Плюс» создана АО «Консультант Плюс» и распространяется с 1992 г. Система хорошо известна и по состоянию на начало 2005 г. занимает одну из лидирующих позиций на территории России. Сеть компании «Консультант Плюс» объединяет более 300 региональных информационных центров, производящих поставку СПС, сервисное обслуживание и передачу информации пользователям. Справочно-правовая система «Консультант Плюс» содержит самые разные типы правовой информации: от нормативных актов, материалов судебной практики, комментариев, законопроектов, финансовых консультаций, схем отражения операций в бухучете до бланков отчетности и узкоспециальных документов, документы содержатся в едином информационном массиве «Консультант Плюс». Поскольку документы каждого типа имеют свои специфические особенности, они включаются в соответствующие разделы информационного массива: законодательство, судебная практика, финансовые консультации, комментарии законодательства, формы документов, законопроекты, международные правовые акты, правовые акты по здравоохранению.

Для поиска документов в СПС «Консультант Плюс» можно использовать несколько инструментов, главный из них — карточка поиска.

Карточка поиска представляет собой таблицу с некоторым количеством поисковых полей. Для каждого поискового поля в системе предусмотрен словарь, автоматически заполняемый и корректируемый по мере поступления документов в информационную базу (ИБ). При вводе в систему каждого документа его реквизиты заносятся в соответствующий словарь.

В СПС «Консультант Плюс» имеется возможность перенести найденный документ или его часть в текстовый редактор Word, чтобы вставить цитаты в собственный материал.

В программе «Консультант Плюс» имеется Правовой навигатор. Он представляет собой алфавитно-предметный указатель, состоящий из ключевых понятий. Близкие ключевые понятия объединены в Группы. Такая двухуровневая структура облегчает выбор ключевых понятий, когда вы указываете их для поиска документов.

Все базы СПС «Консультант Плюс» связаны между собой через гипертекстовые ссылки, позволяющие нажатием клавиши моментально перейти, например, из текста консультации в текст нормативного документа, на который ссылается автор ответа. Самое главное, что дает гипертекст пользователям — это возможность без дополнительных усилий проследить логику рассуждений автора, быстро просматривая по ходу чтения консультации нормативные акты, используемые им для аргументации своей позиции по тому или иному вопросу.

3.2 Справочная правовая система «Гарант»

Справочная правовая система «Гарант» распространяется с 1990 г. и вполне заслуженно пользуется широкой популярностью у большого числа пользователей на рынке СПС. Ее разработала и распространяет компьютерная фирма-разработчик справочных правовых систем — Научно-производственное предприятие (НПП) «Гарант-Сервис».

Фирма активно сотрудничает с Правовым управлением Государственной думы и рядом других государственных учреждений и организаций. Она обладает высокотехнологичным и наукоемким производством с большим штатом сотрудников в Москве и широкой сетью представительств в России и за рубежом.

Система «Гарант» представляет собой справочную систему, которая обеспечивает поиск и работу с различными документами правового характера. В систему входят нормативные документы, комментарии и разъяснения, судебная и арбитражная практика, а также толковые словари.

Система имеет механизм периодического обновления информационных баз, поэтому вы все время будете в курсе последних изменений в законодательстве.

В системе «Гарант» имеется целая группа малых и больших информационно-правовых блоков, из которых пользователь может выбрать необходимые ему по роду деятельности и составить индивидуальный комплект, в котором будет осуществляться сквозной поиск документов.

Комплект «Гарант-Максимум» включает в себя все блоки федерального и один блок регионального законодательств. В данный комплект входят документы по всем разделам законодательства: уголовное, административное и международное право, а также судебная и арбитражная практика и многое другое.

Некоторые специальные информационные блоки не имеют на сегодняшний день аналогов в других СПС. К ним относятся «Законодательство в схемах», «Проекты законов», «Комментарии к законодательству», «Законодательство России на английском языке».

Довольно часто возникает ситуация, когда при обращении к той или иной СПС пользователю известна только рассматриваемая проблема, а информации о формальных реквизитах документа нет. В таких случаях без мощной системы поиска по ситуации найти нужную норму права практически невозможно. В СПС «Гарант» эту задачу решает двухуровневый словарь ключевых слов («Энциклопедия ситуаций»).

3. 3 Информационно-правовые системы серии «Кодекс»

Разработчиком информационно-правовой системы (ИПС) «Кодекс» является государственное предприятие «Центр компьютерных разработок» (ГП «ЦКР», Санкт-Петербург), созданное в начале 1991 г.

Продажи первой версии системы, содержащей нормативные акты Санкт-Петербурга и России, начались в мае 1992 г.

ИПС «Кодекс» относится к программным продуктам, выполненным на хорошем профессиональном уровне, обладающим положительными характеристиками по всем основным параметрам (полнота, оперативность, юридическая обработка и др.).

Информационные продукты «Кодекс» включают в себя: профессиональные юридические системы, системы судебной и арбитражной практики, специализированные справочные системы, электронные правовые справочники.

Независимо от количества подключенных информационных баз работа осуществляется в едином информационном пространстве, связанном гиперссылками.

Единая линия программных продуктов включает в себя ряд разработок, в том числе программный комплекс «Кодекс-Мастер», представляющий собой набор инструментальных средств для создания и управления полнотекстовыми информационно-поисковыми системами различного направления.

Принцип открытости информационной системы «Кодекс» позволил с помощью комплекса «Кодекс-Мастер» создать новые проекты, при этом существенно расширив спектр информационных продуктов «Кодекса», например: «Ассистент аудитора», «Жилищно-коммунальное хозяйство России», «Промышленная безопасность», что крайне актуально в нашу эпоху техногенных катастроф.

Важным направлением деятельности консорциума «Кодекс» является предоставление доступа к правовой информации через Интернет, обеспечивая как коммерческий, так и свободный доступ к правовым ресурсам системы «Кодекс».

3. 4 Системы серии «Референт»

информационный поисковый система гарант

ЗАО «Референт-Сервис» в конце 1995 г. зарегистрировало интегрированную информационную систему (ИИС) «Референт», распространение которой началось с 1996 г. К этому времени СПС «Консультант Плюс», «Гарант» и «Кодекс» уже были известными лидерами рынка, и «Референт-Сервис» имел возможность учесть все лучшее, что было достигнуто этими фирмами.

Системы семейства «Референт» состоят из оболочки и информационных модулей. В настоящее время наибольшей популярностью пользуется оболочка «Референт-2000». Она позволяет одновременно работать с локальными базами данных и с Интернет-серверами правовой информации, а также создавать внутри оболочки собственную базу данных с мощным редактором и инструментами администрирования.

Справочные правовые системы семейства «Референт» имеют удобный дружественный интерфейс и реализуют все основные функции традиционных правовых баз по поиску документов, а также по работе со списком и текстом документов.

Интерфейс «Референта» максимально приближен к Windows, благодаря чему пользователю не потребуется тратить много времени на освоение программы. «Референт» поддерживает функцию Drag and Drop, позволяющую при формировании запроса для поиска документов перемещать информацию по экрану при помощи мыши. Сам поиск можно производить одновременно в объединенных модулях, а ряд документов содержит встроенные цветные графические объекты, например герб России или Москвы.

Встроенный редактор документов позволяет не только редактировать тексты, но и создавать карту документа, вносить комментарии, а также вставлять графические изображения, в том числе и анимированные (движущиеся), и расставлять гипертекстовые ссылки.

Еще одной особенностью оболочки «Референт» является возможность создания и ведения собственной базы документов, содержащей до 200 документов, включая графику и видео. Эта функция особенно интересна для фирм с небольшим документооборотом и численностью. Крупным фирмам предлагается система хранения документов объемом до 65 000 документов.

ЗАКЛЮЧЕНИЕ

Наиболее простой способ получить информацию в постоянно расширяющемся информационном пространстве Internet является использование различных поисковых машин. Основной функцией такой машины является автоматический просмотр узлов Сети и сбор необходимой информации. Собранная информация подвергается индексированию, т. е. выстраивается в определенном порядке и классифицируется по определенному критерию. В дальнейшем эта информация используется для обслуживания запросов клиентов.

Специализированные каталоги или справочники создаются по отдельным отраслям и темам, новостям, городам, адресам электронной почты и т. п.

При обслуживании пользователя реализуются два основных подхода: поиск информации либо путем перемещения по дереву иерархического каталога, либо формирование поискового запроса в рамках поддерживаемого системой поискового языка.

Для пользователя современного Internet основной проблемой является организация эффективного поиска информации. Трудности, связанные с решением этой проблемы, очевидно, с течением времени будут возрастать, так как каждые четыре месяца объем информации в сети удваивается.

СПИСОК ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ

1. Алексеев Е. Г. , Богатырев С. Д. Информатика. Мультимедийный электронный учебник.

2. Ашманов И. С. Продвижение сайта в поисковых системах / И. С. Ашманов. — М.: «Вильямс», 2007. — 304 с.

3. Ивасенко А. Г. Информационные технологии в экономике и управлении: учебное пособие / А.Г.И васенко, А. Ю. Гридасов, В. А. Павленко.- 2-е изд., стер.- М.: КНОРУС, 2007.- 160с.

4. Информатика. Базовый курс: учебник / под ред. С. В. Симоновича. — СПб.: «Питер», 2007.- 110 с.

5. Кадеев Д. Н. Информационные технологии и электронные коммуникации / Д. Н. Кадеев.- М.: «Электро», 2005.- 250 с.

6. Колисниченко Д. Н. Поисковые системы и продвижение сайтов в Интернете / Д. Н. Колисниченко. — М.: «Диалектика», 2007. — 272 с.

7. Ландэ Д. В. Поиск знаний в Internet / Д. В. Ландэ. — М.: «Диалектика», 2005. — 272 с.

8. Маннинг К. Введение в информационный поиск / К. Маннинг. — М.: «Вильямс», 2011.- 200 с.

9. Михеева Е. В. Информационные технологии в профессиональной деятельности: учебное пособие.- М.: ТК ВЕЛБИ, Изд-во Проспект, 2007.- 448с.

10. Организация работы с документами: Учебник / Под ред. проф. В. А. Кудряева.- 2-е изд., перераб. и доп.- М.: ИНФРА-М, 2001.- 592с.

11. Сахарова Е. В. Информатика. Методические указания / Е. В. Сахарова.- Ставрополь: СТИС, 2006.- 200 с.

12. Чурсин Н. А. Популярная информатика / Н. А. Чурсин.- М.: «Вильямс», 2007.- 300 с.



Понравилась статья? Поделиться с друзьями: