Стандартными расширениями файлов текстовых документов являются. Изучаем форматы текстовых файлов

Набор правил, по которым сохраняются данные в файле, называется форматом файла. Различные типы файлов, такие как текстовые файлы, растровая графика и т.п., используют различные форматы. В общем случае для одного типа файлов может быть определено несколько разных форматов, хотя часто под типом файла и форматом понимают одно и то же. Формат файла определяется по расширению имени файла, которое добавляется к имени файла при его сохранении в определенном формате, например, DOC, GIF и т. д.

Как правило, форматы файлов создаются для использования в строго определенной прикладной программе. Например, графические объекты, создаваемые в известном пакете векторной графики CorelDRAW, сохраняются как файлы с расширением CDR, а изображения, формируемые другим графическим пакетом, CorelXara, записываются на диск как файлы с расширением XAR. Некоторые форматы не связываются с конкретными приложениями, то есть являются универсальными. Одним из наиболее известных универсальных форматов является формат TXT (формат текстовых файлов DOS).

Часто используют сжатие компьютерных файлов для экономии места на носителе. Существует много способов сжатия файлов. Эти способы зависят от исходного формата файлов. Как правило, чем выше степень сжатия, тем медленнее выполняются операции чтения и записи.

Что касается алгоритмов сжатия, то имеются как алгоритмы сжатия без потери данных, так и алгоритмы, при использовании которых потеря данных возможна.



Сжатие без потерь гарантирует, что все данные, которые были в файле до сжатия, будут присутствовать и после распаковки файла. Механизмы сжатия без потерь используются при сохранении текста или числовых данных, например электронных таблиц или файлов документов. Примерами алгоритмов сжатия без потерь могут служить общеизвестные алгоритмы ZIP, ARJ, и другие.

Дадим краткое описание основных используемых форматов:

§ American Standard Code for Information Interchange ASCII (TXT). Формат текстовых файлов, разработанный Американским институтом стандартов (American National Standards Institute). Поддерживается всеми операционными системами и всеми программами. Представляет собой текстовый файл в DOS-кодировке, нет функции вставить рисунок, нет форматирования, работает во всех машинах, возможно создать только файлы малого объема.

§ ANSI (TXT). Формат текстовых файлов в кодировке ANSI (для кодовой страницы Microsoft Windows)

§ MsWord для DOS, Windows (.DOС). Формат документов, разработанный корпорацией Microsoft, поддерживается программами для MS-DOS и большинством текстовых процессоров. Он сохраняет исходное форматирование документов, а также стили начертания символов. Кроме текстовой информации, файлы этого формата могут содержать графические картинки с различными параметрами. Поддерживает 256 цветов. Не поддерживает сжатие. Используется в основном для обмена форматированными текстовыми данными между различными платформами и приложениями.

§ Hypertext Markup Language HTML (HTM, HTML). Язык разметки гипертекстовых документов. Все страницы, расположенные в Internet, созданы с использованием этого специального языка. HTML-документы представляют собой ASCII-файлы, доступные для просмотра и редактирования в любом текстовом редакторе. Отличием от обычного текстового файла является то, что в HTML-документах присутствуют специальные команды-теги, которые определяют правило форматирования документа. Если вам удалось освоить язык HTML, то вы можете создать страницы для Internet. Добавляя теги (метки) к обычному тексту, вы заставляете программу просмотра отображать этот текст определенным образом и размещать на странице изображения. Если вы изучили Java и JavaScript, то знаете, как расширить возможности HTML, помещая внутри тегов команды, написанные на языке сценариев.

§ Portable Document Format PDF (.PDF). Этот формат хранения документов, разработанный фирмой Adobe, претендует на роль открытого типографского стандарта для Web. Он рассматривается как альтернатива HTML. Недостатком HTML является то, что документы, переведенные в HTML, обычно не сохраняют первоначальный формат, причем HTML предлагает при просмотре очень ограниченное число гарнитур. Напротив, пользователи программы Acrobat и PDF-инструментария для создания, распространения и просмотра документов в первоначальном формате, знают, что читатели увидят публикацию именно такой, какой она была сделана. Формат PDF незаменим, если требуется получить точную копию необходимого документа. Как пример успешного применения PDF для документов на русском языке приведем сервер "Московских новостей" в Internet. Представленные на нем в электронном виде материалы полностью повторяют бумажный оригинал, отпечатанный типографским способом.

§ Standard Generalized Markup Language (SGML). Развитие HTML переводится как стандартный язык обобщенной разметки. Представляет собой инструментальный набор механизмов создания структурированных документов, размеченных с помощью дескрипторов (tags). По сравнению с HTML он обеспечивает более гибкие и разносторонние возможности форматирования в Web. Однако SGML отличается и повышенной скоростью, поэтому как более простое средство применяется PDF. Могущество SGML заключается в его межплатформенном структурном подходе к описанию содержания документов. SGML является фактически метаязыком, т.е. предназначен для описания языков разметки, применяемых при создании документов.

Программное обеспечение обработки текстовых и графических данных.

Одной из наиболее распространенных функций современного персонального компьютера является подготовка разнообразных текстовых документов.

Различают две основные группы программ подготовки текстовых документов: текстовые редакторы и текстовые процессоры.

Текстовыми редакторами , в основном, называют программы, создающие текстовые файлы без элементов форматирования (т. е. не позволяющие выделять части текста различными шрифтами и гарнитурами). Редакторы такого рода незаменимы при создании текстов компьютерных программ.

Текстовые процессоры умеют форматировать текст, вставлять в документ графику и другие объекты, не относящиеся к классическому понятию "текст". Следует отметить условность такого разделения - разнообразие программ для обработки текста позволяет найти редактор с любым набором функций.

Некоторые текстовые процессоры являются так называемыми WYSIWYG-редакторами. Название получено по первым буквам фразы What You See Is What You Get - то, что ты видишь, есть то, что ты получишь. Когда говорят, что это WYSIWYG-редактор, то гарантируют полное соответствие внешнего вида документа на экране компьютера и его печатной копии. К редакторам такого типа относятся Word и StarWriter.

Некоторые современные редакторы поддерживают концепцию "почти" WYSIWYG. Вид документа на экране при этом немного отличается от того, как будет выглядеть напечатанный документ, но делается это специально с целью более эффективного использования рабочего окна документа. Примерами "почти" WYSIWYG-редакторов являются Netscape Composer и KLyX.

Форматы текстовых файлов

Текстовые файлы - наиболее распространенный тип данных в компьютерном мире. Существуют несколько проблем, связанных с текстовыми файлами. Первая - чрезвычайно большое количество символов, требующихся для поддержки различных языков. Американские программисты для работы со 128 символами используют набор символов US ASCII (американский стандартный код для обмена информацией). Для поддержки других языков зачастую не хватает и 256 символов, поэтому сейчас осуществляется постепенный переход к кодировке Unicode, в которой для хранения одного символа отводится уже два байта (т. е. имеется возможность закодировать 65 536 различных символов).

Вторая проблема заключается в том, что люди хотят, чтобы распечатываемые документы содержали графики, диаграммы, примечания, заголовки и чтобы при этом использовались различные шрифты. Документы, распространяемые в Интернет (онлайновые документы), могут содержать мультипликацию, ссылки на различные сетевые ресурсы и звуковое сопровождение.

Многие текстовые файлы передаются в виде простого текста (plain text). Простой текст сложно сделать привлекательным и легко читаемым, так как в нем нет шрифтов различных начертаний, графики, заголовков, подзаголовков и т. д. Эти дополнительные особенности носят название разметки текста (markup).

Говоря о разметке текста, выделяют понятия физической и логической разметки. При использовании физической разметки текста указывается точный вид каждого фрагмента. Например, "центрированный текст, 14-м кеглем, жирный, гарнитура Times". При логической разметке указывается логическое значение данного фрагмента, например, "это заголовок главы". Эти два способа разметки предназначаются, как правило, для использования в разных ситуациях. Для того чтобы распечатать текст на принтере, необходимо использовать физическую разметку. Должны быть приняты решения о размере полей и абзацных отступах. Ранние версии текстовых процессоров использовали только физический тип разметки. При этом для каждого фрагмента указывался шрифт, размер и стиль.

При обмене информацией с другими людьми физическое оформление текста накладывает ряд ограничений, особенно для онлайновых документов. Размер экрана, разрешение, шрифты различны для различных систем. По этим причинам все чаще используется логическое оформление текста. В некоторых случаях логическое оформление практически необходимо: при создании электронных документов типа страниц WWW или при создании и публикации объемных трудов, таких как книги.

Для сохранения разметки документов при передаче текстовой информации от машины к машине применяют разные способы. Текстовые процессоры и издательские системы используют специально разработанные форматы файлов, содержащие не только текст, но и информацию о том, как он должен быть оформлен. Основная проблема здесь в несовместимости таких форматов, хотя наиболее сложные программы обычно могут читать файлы в форматах программ-конкурентов. Примерами такого подхода являются текстовые процессоры Word и StarWriter.

При другом подходе непосредственно в текст документа вставляются специальные команды разметки. Даже если у вас нет программного обеспечения, поддерживающего такой формат, вы все же сумеете в нем разобраться. Существует немало способов подобного представления разметки текста, в том числе:

HyperText Markup Language (HTML), использующийся в World Wide Web;

TeX и LaTeX, пользующиеся популярностью у многих академических изданий, а также у математиков, физиков, химиков и даже музыкантов.

Примерами программ, которые позволяют разметить текст подобным образом, служат Netscape Composer и LyX (KLyX).

Файлы, созданные разными редакторами, зачастую имеют уникальные расширения, позволяющие, не заглядывая внутрь документа, догадаться о способах разметки текста. Так файлы, созданные редакторами подготовки plain-текста, часто имеют расширение.txt, а подготовленные в редакторе Lyx - .lyx. Текстовый процессор Word по умолчанию создает файлы в формате MS Word (расширение.doc), но поддерживает и другие форматы, например RTF (расширение.rtf). Документы, содержащие команды разметки языка HTML, имеют расширение.html или.htm.

Очевидно, что невозможно перечислить все текстовые редакторы. Многие из них "заточены" под ту или иную специфическую деятельность. В списке, рассмотренном ниже, представлена лишь небольшая часть текстовых редакторов.

Редакторы неформатированных текстов

NotePad - встроен в операционную систему Windows, понятен и прост и использовании;

McEdit - имеет сходство с редактором Edit из MS DOS, компонента файлового менеджера mc (Midnight Commander) ОС Linux;

KEdit - простейший текстовый редактор, входит в состав KDE Linux;

KWrite - текстовый редактор, имеющий ряд дополнительных настроек по сравнению с другими простейшими текстовыми редакторами;

Emacs - совмещает в себе функции файлового менеджера и текстового редактора; одной из отличительных черт является возможность создание макрокоманд (макросов); имеется во всех клонах Unix, в том числе и Linux; Emacs можно использовать и в MS Windows.

Редакторы, создающие текст с элементами разметки

Word - служит для создания разнообразных печатных документов, является компонентом офисных приложений в MS Windows;

StarWriter - входит в состав программы StarOffice, внешним видом и функциональностью он похож на Word, одинаково хорошо работает как в MS Windows, так и в ОС Linux;

LyX (KLyX в KDE) - современный текстовый редактор, предназначенный для людей, которые хотят получить документ, выглядящий профессионально, но затратить на его создание минимум времени; редактор вставляет в текст команды разметки TeX и LaTeX;

Netscape Composer - вставляет в текст команды разметки языка HTML, существуют версии как для ОС Linux, так и для MS Windows.

При обработке информации, связанной с изображением на мониторе, принято выделять три основных направления: распознавание образов, обработку изображений и машинную графику.

Основная задача распознавания обр азов состоит в преобразовании уже имеющегося изображения на формально понятный язык символов. Распознавание образов или система технического зрения (COMPUTER VISION) - это совокупность методов, позволяющих получить описание изображения, поданного на вход, либо отнести заданное изображение к некоторому классу (так поступают, например, при сортировке почты). Одной из задач COMPUTER VISION является так называемая скелетизация объектов, при которой восстанавливается некая основа объекта, его «скелет».

Обработка изображений (IMAGE PROCESSING) рассматривает задачи в которых и входные и выходные данные являются изображениями. Например, передача изображения с устранением шумов и сжатием данных, переход от одного вида изображения к другому (от цветного к черно-белому) и т.д. Таким образом, под обработкой изображений понимают деятельность над изображениями (преобразование изображений). Задачей обработки изображений может быть как улучшение в зависимости от определенного критерия (реставрация, восстановление), так и специальное преобразование, кардинально изменяющее изображения.

При обработке изображений существует следующие группы задач:

Ограничимся работой только с цифровым изображением. Цифровые преобразования по цели преобразования можно разделить на два типа:

Реставрация изображения - компенсирование имеющегося искажения (например, плохие условия фотосъемки);

Улучшение изображения - это искажение изображения с целью улучшения визуального восприятия или для преобразования в форму, удобную для дальнейшей обработки.

Компьютерная (машинная) графика (COMPUTER GRAPHICS) воспроизводит изображение в случае, когда исходной является информация неизобразительной природы. Например, визуализация экспериментальных данных в виде графиков, гистограмм или диаграмм, вывод информации на экран компьютерных игр, синтез сцен на тренажерах.

Компьютерная графика в настоящее время сформировалась как наука об аппаратном и программном обеспечении для разнообразных изображений от простых чертежей до реалистичных образов естественных объектов. Компьютерная графика используется почти во всех научных и инженерных дисциплинах для наглядности и восприятия, передачи информации. Применяется в медицине, рекламном бизнесе, индустрии развлечений и т. д. Без компьютерной графики не обходится ни одна современная программа. Работа над графикой занимает до 90% рабочего времени программистских коллективов, выпускающих программы массового применения.

Конечным продуктом компьютерной графики является изображение. Это изображение может использоваться в различных сферах, например, оно может быть техническим чертежом, иллюстрацией с изображением детали в руководстве по эксплуатации, простой диаграммой, архитектурным видом предполагаемой конструкции или проектным заданием, рекламной иллюстрацией или кадром из мультфильма.

Компьютерная графика - это наука, предметом изучения которой является создание, хранение и обработка моделей и их изображений с помощью ЭВМ, т.е. это раздел информатики, который занимается проблемами получения различных изображений (рисунков, чертежей, мультипликации) на компьютере.

В компьютерной графике рассматриваются следующие задачи:

Представление изображения в компьютерной графике;

Подготовка изображения к визуализации;

Создание изображения;

Осуществление действий с изображением.

Под компьютерной графикой обычно понимают автоматизацию процессов подготовки, преобразования, хранения и воспроизведения графической информации с помощью компьютера. Под графической информацией понимаются модели объектов и их изображения.

В случае, если пользователь может управлять характеристиками объектов, то говорят об интерактивной компьютерной графике, т.е. способность компьютерной системы создавать графику и вести диалог с человеком. В настоящее время почти любую программу можно считать системой интерактивной компьютерной графики.

Интерактивная компьютерная графика - это так же использование компьютеров для подготовки и воспроизведения изображений, но при этом пользователь имеет возможность оперативно вносить изменения в изображение непосредственно в процессе его воспроизведения, т.е. предполагается возможность работы с графикой в режиме диалога в реальном масштабе времени.

Интерактивная графика представляет собой важный раздел компьютерной графики, когда пользователь имеет возможность динамически управлять содержимым изображения, его формой, размером и цветом на поверхности дисплея с помощью интерактивных устройств управления.

Исторически первыми интерактивными системами считаются системы автоматизированного проектирования (САПР), которые появились в 60-х годах. Они представляют собой значительный этап в эволюции компьютеров и программного обеспечения. В системе интерактивной компьютерной графики пользователь воспринимает на дисплее изображение, представляющее некоторый сложный объект, и может вносить изменения в описание (модель) объекта. Такими изменениями могут быть как ввод и редактирование отдельных элементов, так и задание числовых значений для любых параметров, а также иные операции по вводу информации на основе восприятия изображений.

Растровая графика, общие сведения

Компьютерное растровое изображение представляется в виде прямоугольной матрицы, каждая ячейка которой представлена цветной точкой.

Основой растрового представления графики является пиксель (точка) с указанием ее цвета. При описании, например, красного эллипса на белом фоне необходимо указать цвет каждой точки эллипса и фона. Изображение представляется в виде большого количества точек - чем их больше, тем визуально качественнее изображение и больше размер файла. Т.е. одна и даже картинка может быть представлена с лучшим или худшим качеством в соответствии с количеством точек на единицу длины - разрешением (обычно, точек на дюйм - dpi или пикселей на дюйм - ppi).

Растровые изображения напоминают лист клетчатой бумаги, на котором любая клетка закрашена либо черным, либо белым цветом, образуя в совокупности рисунок. Пиксел - основной элемент растровых изображений. Именно из таких элементов состоит растровое изображение, т.е. растровая графика описывает изображения с использованием цветных точек (пиксели), расположенных на сетке.

При редактировании растровой графики Вы редактируете пиксели, а не линии. Растровая графика зависит от разрешения, поскольку информация, описывающая изображение, прикреплена к сетке определенного размера. При редактировании растровой графики, качество ее представления может измениться. В частности, изменение размеров растровой графики может привести к «разлохмачиванию» краев изображения, поскольку пиксели будут перераспределяться на сетке. Вывод растровой графики на устройства с более низким разрешением, чем разрешение самого изображения, понизит его качество.

Кроме того, качество характеризуется еще и количеством цветов и оттенков, которые может принимать каждая точка изображения. Чем большим количеством оттенков характеризуется изображения, тем большее количество разрядов требуется для их описания. Красный может быть цветом номер 001, а может и - 00000001. Таким образом, чем качественнее изображение, тем больше размер файла.

Растровое представление обычно используют для изображений фотографического типа с большим количеством деталей или оттенков. К сожалению, масштабирование таких картинок в любую сторону обычно ухудшает качество. При уменьшении количества точек теряются мелкие детали и деформируются надписи (правда, это может быть не так заметно при уменьшении визуальных размеров самой картинки - т.е. сохранении разрешения). Добавление пикселей приводит к ухудшению резкости и яркости изображения, т.к. новым точкам приходится давать оттенки, средние между двумя и более граничащими цветами.

С помощью растровой графики можно отразить и передать всю гамму оттенков и тонких эффектов, присущих реальному изображению. Растровое изображение ближе к фотографии, оно позволяет более точно воспроизводить основные характеристики фотографии: освещенность, прозрачность и глубину резкости.

Чаще всего растровые изображения получают с помощью сканирования фотографий и других изображений, с помощью цифровой фотокамеры или путем "захвата" кадра видеосъемки. Растровые изображения можно получить и непосредственно в программах растровой или векторной графики путем преобразовании векторных изображений.

Распространены форматы.tif, .gif, .jpg, .png, .bmp, .pcx и др.

Векторная графика, общие сведения

Векторная графика описывает изображения с использованием прямых и изогнутых линий, называемых векторами, а также параметров, описывающих цвета и расположение. Например, изображение древесного листа (см. рис. 1.) описывается точками, через которые проходит линия, создавая тем самым контур листа. Цвет листа задается цветом контура и области внутри этого контура.

В отличие от растровой графики в векторной графике изображение строится с помощью математических описаний объектов, окружностей и линий. Хотя на первый взгляд это может показаться сложнее, чем использование растровых массивов, но для некоторых видов изображений использование математических описаний является более простым способом.

Ключевым моментом векторной графики является то, что она использует комбинацию компьютерных команд и математических формул для объекта. Это позволяет компьютерным устройствам вычислять и помещать в нужном месте реальные точки при рисовании этих объектов. Такая особенность векторной графики дает ей ряд преимуществ перед растровой графикой, но в тоже время является причиной ее недостатков.

Векторную графику часто называют объектно-ориентированной графикой или чертежной графикой . Простые объекты, такие как окружности, линии, сферы, кубы и тому подобное называется примитивами, и используются при создании более сложных объектов. В векторной графике объекты создаются путем комбинации различных объектов.

Для создания векторных рисунков необходимо использовать один из многочисленных иллюстрационных пакетов. Достоинство векторной графики в том, что описание является простым и занимает мало памяти компьютера. Однако недостатком является то, что детальный векторный объект может оказаться слишком сложным, он может напечататься не в том виде, в каком ожидает пользователь или не напечатается вообще, если принтер неправильно интерпретирует или не понимает векторные команды.

При редактировании элементов векторной графики изменяются параметры прямых и изогнутых линий, описывающих форму этих элементов. Можно переносить элементы, менять их размер, форму и цвет, но это не отразится на качестве их визуального представления. Векторная графика не зависит от разрешения, т.е. может быть показана в разнообразных выходных устройствах с различным разрешением без потери качества.

Векторное представление заключается в описании элементов изображения математическими кривыми с указанием их цветов и заполняемости.

Еще одно преимущество - качественное масштабирование в любую сторону. Увеличение или уменьшение объектов производится увеличением или уменьшением соответствующих коэффициентов в математических формулах. К сожалению, векторный формат становится невыгодным при передаче изображений с большим количеством оттенков или мелких деталей (например, фотографий). Ведь каждый мельчайший блик в этом случае будет представляться не совокупностью одноцветных точек, а сложнейшей математической формулой или совокупностью графических примитивов, каждый из которых, является формулой. Это приводит к утяжелению файла. Кроме того, перевод изображения из растрового в векторный формат (например, программой Adobe Strime Line или Corel OCR-TRACE) приводит к наследованию последним невозможности корректного масштабирования в большую сторону. От увеличения линейных размеров количество деталей или оттенков на единицу площади больше не становится. Это ограничение накладывается разрешением вводных устройств (сканеров, цифровых фотокамер и др.).

Элементы (объекты) векторной графики. Объекты и их атрибуты

Основным логическим элементом векторной графики является геометрический объект. В качестве объекта принимаются простые геометрические фигуры (так называемые примитивы - прямоугольник, окружность, эллипс, линия), составные фигуры или фигуры, построенные из примитивов, цветовые заливки, в том числе градиенты.

Важным объектом векторной графики является сплайн. Сплайн - это кривая, посредством которой описывается та или иная геометрическая фигура. На сплайнах построены современные шрифты TryeType и PostScript.

Объекты векторной графики легко трансформируются и модифицируются, что не оказывает практически никакого влияния на качество изображения. Масштабирование, поворот, искривление могут быть сведены к паре-тройке элементарных преобразований над векторами.

Если в растровой графике базовым элементом изображения является точка, то в векторной графике - линия. Линия описывается математически как единый объект, и потому объем данных для отображения объекта средствами векторной графики существенно меньше, чем в растровой графике.

Линия - элементарный объект векторной графики. Как и любой объект, линия обладает свойствами: формой (прямая, кривая), толщиной, цветом, начертанием (сплошная, пунктирная). Замкнутые линии приобретают свойство заполнения. Охватываемое ими пространство может быть заполнено другими объектами (текстуры, карты) или выбранным цветом. Простейшая незамкнутая линия ограничена двумя точками, именуемыми узлами. Узлы также имеют свойства, параметры которых влияют на форму конца линии и характер сопряжения с другими объектами. Все прочие объекты векторной графики составляются из линий. Например, куб можно составить из шести связанных прямоугольников, каждый из которых, в свою очередь, образован четырьмя связанными линиями.

Каждый пользователь ПК постоянно сталкивается с различными форматами текстовых файлов, но вряд ли задумывается о том, насколько богата история этих форматов и программ, подаривших человеку возможность читать книги, работать с текстом и создавать всю необходимую документацию прямо на компьютере.

История текстовых файлов не намного моложе самих персональных компьютеров - уже их шедевры были написаны в первых аналогах современного «блокнота». Так какие же бывают форматы текстовых файлов и программы для работы с ними? Для начала нужно понять, для чего нужны текстовые файлы, какие между ними различия и что у них общего. Объединяет абсолютно все текстовые форматы их основная задача - сохранение текстовой информации. Различаются они возможностями обработки и а также доступом к хранящейся в файлах информации в плане совместимости с другими программами.

Самым простым текстовым форматом традиционно является формат TXT. Он же самый скромный по возможностям и самый старый текстовый формат. Благодаря своей простоте (возможности TXT ограничиваются набором текста и разбивкой его на абзацы), именно этот формат зачастую используется огромным количеством приложений и программ на самых разных платформах.

С распространением персональных компьютеров и увеличением их продаж компания Microsoft создает еще один популярный формат, получивший название Rich Text Format (или просто RTF). Он представляет собой текст, который размечен с помощью определенных «управляющих слов», позволяющих не только производить, но и сохранять сложные элементы форматирования и вставлять в текст формулы, таблицы, рисунки, колонтитулы и сноски.

Однако RTF довольно сильно уступает в возможностях формату DOC, также созданному компанией Microsoft специально для пакета программ под названием Microsoft Office. Созданный более пятнадцати лет назад DOC включает в себя огромное количество возможностей для форматирования и обработки текста, создания, редактирования и размещения изображений, диаграмм, таблиц и других элементов. Следует заметить, что наиболее корректно эти функции будут работать только в программе MS Word. Это связано в первую очередь с тем, что Microsoft не текущих спецификаций формата DOC и не дает своим конкурентам и независимым разработчикам использовать возможности этого формата в полной мере. Именно этот факт и является одной из основных причин того, что кроме формата DOC в наше время широко используются и другие форматы текстовых файлов.

Главным отличием формата DOC от текстовых и TXT служит его бинарность, из-за которой он становится нечитабельным в таких простейших как Wordpad, Lexicon, Atlantis. Более того, в некоторых случаях можно наблюдать и несовместимость DOC-файлов, созданных в различных версиях программы MS Word.

Форматы текстовых файлов открывать и редактировать можно в огромном количестве программ. Кроме ранее упомянутого MS Word, самыми распространенными из них являются StarOffice, выпускаемый компанией Sun Microsystems, WordPerfect от Corel и бесплатный пакет OpenOffice.org.

С распространением электронных устройств-читалок популярность набирают и другие форматы текстовых файлов, к примеру, FB2 и LRF.

Для того чтобы получить возможность использования различных текстовых форматов на разных платформах, создано большое количество программ, называемых конверторами. Конверторы текстовых файлов позволяют сохранять исходный текст из одного формата в другой и использовать его в дальнейшем на различных устройствах и платформах.

Конверторы применяются не только для сохранения текста из одного в другой формат, но и для создания файлов, которые, в отличие от их исходников, можно использовать на устройствах, которые не способны «прочитать» оригинальные файлы. К примеру, некоторые электронные книги, которые не поддерживают популярные форматы текстовых файлов, способны запросто распознавать форматы LRF или FB2, полученные из исходных файлов с помощью программ-конверторов.

Когда-то текстовые данные помещались только в один вид контейнера - ТХТ. Других не было. Ныне же их количество, возможно, приближается к полусотне. Какими-то мы пользуемся постоянно, с другими сталкиваемся крайне редко. Про существование третьих мы даже и не подозреваем. Рассмотрим самые распространенные хранилища текстовых данных с точки зрения удобства в использовании.
<<>>

ТХТ(«простой текстовый»)

Родоначальник «жанра». Активно используется по сей день. Так как текст хранится в виде последовательности символов, то размер файла в байтах равен числу символов плюс непечатаемые символы (знак пробела, табуляции, знак конца абзаца и другие - их еще называют знаками форматирования). За счет этого достигается малый размер файла. Однако возможности по форматированию подобных документов сильно ограничены. По сути - это просто текст. Текстовые данные могут храниться не только в контейнерах с расширением ТХТ. По сути, эти расширения не являются обязательными. Переименуйте ТХТ в DOC, ничего не изменится. Внутренняя структура останется той же. Точно так же, сменив расширение DOC на ТХТ, вы получите все тот же «вордовский» файл. Для чего тогда нужны эти три буквы после точки? Для правильной интерпретации программами, которые открывают их по умолчанию.

RTF («Rich Text Format» -«формат обогащенного текста»)

Свободный межплатформенный формат хранения размеченных текстовых документов, созданный Microsoft в 1987 году. Ныне он широко распространен, поэтому большинство современных текстовых редакторов его поддерживают. Создав RTF на платформе Windows, он прекрасно будет читаться и редактироваться на других платформах (Apple, Linux и другие). Стандарт де-факто в полиграфии. Однако не все программы одинаково правильно его создают. Замечено, что в документе, созданном в OpenOffice, иногда слетало форматирование, а часть текста превращалась в нечитаемые символы.

RTF позволяет производить и сохранять достаточно сложное форматирование, вставлять сноски, колонтитулы, рисунки, таблицы и формулы, хотя в этом он все же уступает формату DOC. Уступает он DOC и в объеме файлов: сложные документы более компактно хранятся в DOC-файлах (простые - наоборот). Однако RTF выигрывает спор с DOC в отношении безопасности, так как не использует макросы. Поэтому зараженные макровирусами файлы Word можно «вылечить» сохранением в RTF-формат. Кроме того, формат RTF устойчив к повреждению файла. Если в DOC-файле изменить хотя бы один байт, то он уже не откроется в Word. А повреждение файла в формате RTF может привести только к потере поврежденного куска текста.

DOC (от англ. «document»)

Поначалу это расширение использовалось для обозначения простых текстовых файлов без форматирования, однако в начале 90-х Microsoft фактически его «приватизировала». Поэтому сейчас DOC ассоциируется только с продуктами этой компании. Этот формат обеспечивает большие возможности по форматированию текста (включены сценарии, макросы). За счет этого ухудшилась совместимость с текстовыми редакторами сторонних разработчиков. В файле этого формата содержится огромное количество информации о шрифтах, начертании символов, абзацных отступах и интервалах, даже если все это вам совсем не нужно. Именно из-за этой дополнительной информации файл, содержащий только текст, превышает размер RTF-файла. Однако при включении в документ различных графических элементов и изображений DOC выигрывает в размере и обеспечивает большую совместимость. В отличие от ТХТ и RTF DOC является бинарным форматом, что делает его нечитабельным в простых текстовых редакторах. К примеру, «блокнот» может просматривать некоторые RTF-файлы. Популярен наравне с RTF.

DOCX

С появлением Office 2007 компания Microsoft перешла на новые форматы, базирующиеся на Office Open XML (визуально отличаются тем, что к расширениям добавлена буква «х» на конце). Формат представляет собой zip-архив, содержащий текст в виде XML, графику и другие данные. Для уменьшения размера файла используется ZiP-компрессия. Документы обратно совместимы с Office 2000/XP/2003, только если установлен Microsoft Office Compatibility Pack (найти и скачать его можно с официального сайта Microsoft, размер файла 27,8 Мб). Если нужно срочно сконвертировать DOCX в другой формат, воспользуйтесь услугами сайта http://docx-converter.com/ . Если вы пользуетесь последней версией Office и планируете передавать файлы кому-либо, сохраняйте документы в RTF или DOC.

ODT/ODF («Open Document Format»)

ODF - общее наименование открытого формата документов для офисных приложений (текст, таблицы, рисунки, базы данных, презентации). Текстовые данные хранятся в файлах с расширением ODT. Стандарт был разработан индустриальным сообществом OASIS и основан на XML-формате. 1 мая 2006 года принят как международный стандарт ISO/IEC 26300. ODF доступен для всех и может быть использован без ограничений. Эдакая бесплатная альтернатива закрытым форматам Microsoft. Для того чтобы производить чтение и запись формата ODF в продуктах Microsoft, был выпущен плагин Sun ODF Plugin for Microsoft Office. Поддержка ODF в Microsoft Office 2007 должна быть введена с выпуском с Service Pack 2. К сожалению, по-прежнему уступает по распространенности RTF и DOC.

HTML

(от англ. Hypertext Markup Language -«язык разметки гипертекста»)

Стандартный язык разметки документов в интернете (расширение.htm/html). Веб-страницы создаются при помощи языка HTML (или XHTML). HTML был разработан британским ученым Тимом Бернерсом-Ли в 1991 году как язык для обмена научной и технической документацией, пригодный для использования людьми, не являющимися специалистами в области верстки. Текст с разметкой HTML должен был без стилистических и структурных искажений воспроизводиться на различных устройствах. Однако позже активное внедрение мультимедийного и графического оформления на-рушило эти планы. Для просмотра HTML-документов не нужны специальные редакторы, достаточно стандартных средств, встроенных в ОС. По открытости, индексируемости, конвертируемости и читаемости превосходит любые другие форматы. К сожалению, графика сохраняется в отдельной папке. Internet Explorer позволяет сохранять текст и графику в один документ формата МНТ, но другие браузеры могут не открыть подобный файл.

СНМ (Compiled HTML)

СНМ, по сути, это набор скомпилированных HTML-документов, что-то вроде архива из веб-страниц, за счет чего его размер меньше. Для просмотра используется утилита, встроенная в Windows 98/NT и выше. Существуют и сторонние просмотрщики. Для создания СНМ-файлов можно использовать бесплатное средство HTML Help Workshop. Сейчас активно используется в качестве справки различных приложений.

PDF

(Portable Document Format -переносимый формат документов)

Кроссплатформенный формат электронных документов, созданный фирмой Adobe Systems с использованием ряда возможностей языка PostScript. В первую очередь предназначен для представления в электронном виде полиграфической продукции. Для просмотра можно использовать официальную бесплатную программу Adobe Reader, атакже программы других разработчиков. Удобен тем, что решена проблема со слетевшим форматированием, неправильным отображением внедренных графических элементов, отсутствием тех или иных шрифтов. Файл на любой платформе будет отображен в таком же виде, в каком он был создан. Традиционным способом создания PDF-документов является следующий: документ как таковой готовится в своей программе, а затем экспортируется в PDF. Некоторые программы имеют возможность для прямого экспорта (без использования виртуального принтера). Например, OpenOffice.org. В MS Word такой опции пока нет. Стандарт де-факто для большинства документации.

DjVu («дежа вю»)

Технология сжатия изображений с потерями, разработанная специально для хранения сканированных документов - книг, журналов, рукописей и пр., где наличие формул, схем, рисунков и рукописных символов делает чрезвычайно трудоемким их полноценное распознавание. Также является эффективным решением, если необходимо передать все нюансы оформления, например, исторических документов. Очень распространен, многие библиотеки используют его для хранения отсканированных научных книг. DjVu иногда называют «тексто-графическим» форматом. Суть технологии DjVu заключается в автоматическом разбиении изображения на несколько участков (например, текст, логотип фирмы и растровая фотография), для каждого из которых выбирается оптимальный алгоритм сжатия. Кроме того, DjVu-файл может содержать встроенное интерактивное оглавление и активные области - ссылки, что позволяет реализовывать удобную навигацию. Дает выигрыш в размере файла по сравнению с GIF-форматом в среднем в полтора-два десятка раз.

XML- форматы

(«extensible Markup Language»)

Существует довольно много текстовых форматов, созданных для одного конкретного устройства или программы. Например, электронные книги. К ним можно отнести Rocket e-book (.rb), Microsoft Reader (.lit), PalmDoc, MobiPocket (.pro) и т.д. Как правило, все они созданы с помощью языка XML. Самым удачным и самым распространенным из них является формат FictionBook (FB2). На данный момент это самый прогрессивный и перспективный формат для электронных книг. Единственный его недостаток -длительные временные затраты при подготовке начального текста. Что окупается удобством чтения. В FictionBook упор сделан на структурирование документа: с помощью тегов можно выделять различные области текста (главы, заголовки, цитаты, врезки). Как все будет выглядеть на экране, зависит от программы-ридера. Если требуется оформить документ определенным образом, имеется возможность присоединения таблицы стилей.


Зачем вам текст?

Сегодня существует три самых распространенных текстовых формата – TXT, RTF и DOC. В чем их различие и что их объединяет? Общее у них одно: все они сохраняют текстовую информацию. Различие заключается в том, какие возможности форматирования и обработки текста они предоставляют, а также – насколько доступна хранящаяся в них информация в отношении совместимости программ.

Самый простой текстовый формат

Самый старый и скромный по возможностям формат. Все, что можно делать с текстом в этом формате – это производить собствено ввод текста и сохранять разбиение на абзацы. Эта простота в определенных ситуациях приобретает значимость универсальности и прозрачности: TXT легко доступен для чтения в разных приложениях и на разных платформах. Кроме того, многие программы, даже не имеющие своей непосредственной задачей работу с текстом, умеют сохранять текст в формате TXT.

TXT-процессоры

С DOS-овских времен многие помнят текстовый процессор Lexicon, который умел обрабатывать TXT-формат на довольно высоком уровне. Сегодня основным инструментом для работы с TXT является стандартный Блокнот Windows. Тот, кому его функций кажется недостаточно, всегда может найти себе редактор по вкусу и потребностям во всемирной паутине, в том числе бесплатно. Например, используя freeware-программу Vega Константина Шереметьева, вы вряд ли увидите сообщение о том, что открываемый текстовый файл слишком велик; по заверениям автора, Vega версии 2.04 открывает файлы объемом до 2 Gb (!), а сама программа занимает при этом всего 9,5 kb (сравните, Блокнот в Windows XP «весит» около 65 kb); при этом Vega даже удобнее Блокнота и не требует установки. А вот другой образец возможностей обработки «простого текста». Текст, который вы читаете, был набран в процессоре UltraEdit от IDM Computer Solutions. Его сильная сторона – специальное отображение и обработка синтаксиса языков программирования, но и с самым незамысловатым текстом он может творить чудеса. Ценителям же удобных русифицированных программ, эргономичных и, главное, «знающих толк» в специфике кириллических кодировок, стоит познакомиться с программой Патриот.

Форматирование и универсальность

Rich Text Format – так расшифровывается аббревиатура, стоящая в названии формата, созданного корпорацией Microsoft. RTF представляет собой текст, размеченный с помощью специальных «управляющих слов», что позволяет производить и сохранять достаточно сложное форматирование, вставлять сноски, колонтитулы, рисунки, таблицы и формулы, хотя в обработке этих дополнительных объектов RTF уступает формату DOC. Уступает он DOC и в объеме файлов: использование для форматирования текста «управляющих слов» вместо стилевой таблицы не приводит к компактности. Однако, RTF выигрывает спор с DOC в отношении безопасности, т.к. его внутренняя организация не предусматривает хранения макрокода и, следовательно, неуязвима к макровирусам.

RTF-процессоры

RTF используется в качестве основного или поддерживаемого формата в многих, если не в большинстве программ обработки текста. Хорошим инструментом может послужить, например, Hieroglyph Михаила Морозова. В этой программе реализована не только проверка правописания русского языка, но и функция автоматической смены языковой раскладки клавиатуры. Текстовый процессор Atlantis от Rising Sun Solutions, существующий как в коммерческой, так и в бесплатной версиях, наверняка устроит многих пользователей продуманностью интерфейса, наличием большого количества быстрых клавиш, сменной инструментальной панелью и др. функциями. С RTF умеет работать и уже упоминавшийся редактор Patriot.

Самый «большой» текстовый формат

В формат DOC включены самые широкие возможности обработки и форматирования текста, включая создание сносок и комментариев, а также возможности создания, размещения и редактирования таблиц, диаграмм, изображений и других элементов. Правда, в полном объеме и наиболее корректно все эти возможности реализованы только в MS Word, чему способствует позиция Microsoft, не раскрывающей текущих спецификаций популярного формата. Несмотря на то, что DOC «понимают» и другие программы, их производителям не всегда удается обеспечить его корректное распознавание. В отличие от TXT и RTF, DOC является бинарным форматом, что делает его нечитабельным в простых тектовых редакторах и, более того, не обеспечивает полной совместимости его собственных версий.

DOC-процессоры

Основным и, ввиду упомянутых причин, «незаменимым» текстовым процессором для работы с DOC является MS Word, который наиболее полно реализует все возможности этого формата. Немало продуктивности и функциональности Ворду добавляют сторонние разработки – всевозможные дополнения, макросы и программы существуют в больших количествах на просторах сети. Конкуренцию Ворду обеспечивают, например, WordPerfect компании Corel, StarOffice от Sun Microsystems и бесплатный OpenOffice.org. Работая и в Word, и в других программах, следует помнить о проблеме совместимости форматов и сохранять документ в DOC только если вы уверены, что несовместимости не возникнет.

Применимость форматов

Безосновательно утверждать, что один из рассмотренных форматов хуже других, не учитывая особенностей задач, для решения которых следует их использовать. Поскольку мы не будем ставить перед собой задачу верстки в текстовом процессоре, то выбор практически однозначен. Для подготовки объемов текста от средних до очень больших и обеспечения «полного понимания» набранного любой программой верстки наиболее удобным представляется использование самого простого, компактного и универсального средства набора и хранения текста – формата TXT. Что же касается использования в верстке других текстовых форматов, то очень многое зависит от реализации их поддержки в конкретной программе макетирования.
OpenOffice.org – международный проект с открытыми исходными кодами, направленный на создание универсального офисного пакета, работающего на разных операционных платформах, имеющего открытый API и формат файлов, основанный на XML. По сути, OpenOffice.org это набор программ, разработанный в рамках данного проекта. В него входят: текстовый процессор, электронные таблицы, графический редактор, система презентаций и система доступа к данным. По своим возможностям он сопоставим с аналогичными коммерческими программами и вполне может рассматриваться, как альтернатива им. В настоящее время OpenOffice.org выпускается под двойным лицензированием: GPL и SISSL. Несмотря на отличия в этих лицензиях, для конечного пользователя OpenOffice.org является свободным.

OpenOffice.org ведет свое происхождение от офисного пакета StarOffice, разработанного немецкой фирмой StarDivision в середине 90-х годов. Осенью 1999 года корпорация Sun купила StarDivision. В июне 2000 года, уже под торговой маркой Sun вышел StarOffice 5.2 под MS Windows, Linux и Solaris. 13 октября 2000 года были открыты исходные тексты StarOffice (за исключение кода некоторых модулей, разработанных третьими фирмами), и этот день официально считается днем рождения OpenOffice.org. Сегодня над кодом OpenOffice.org работают как добровольцы со всего света, так и программисты корпорации Sun.

В настоящее время из одного исходного кода, разрабатываемого сообществом OpenOffice.org выпускаются два продукта: StarOffice, в который добавляются компоненты под проприетарной лицензией и свободный OpenOffice.org. В OpenOffice.org большинство проприетарных компонентов, присутствующих в StarOffice, заменено их свободными аналогами.

(По информации cnews.ru.)



Понравилась статья? Поделиться с друзьями: