Форматы текстовых файлов и программы для работы с ними: история и наши дни


Зачем вам текст?

Сегодня существует три самых распространенных текстовых формата – TXT, RTF и DOC. В чем их различие и что их объединяет? Общее у них одно: все они сохраняют текстовую информацию. Различие заключается в том, какие возможности форматирования и обработки текста они предоставляют, а также – насколько доступна хранящаяся в них информация в отношении совместимости программ.

Самый простой текстовый формат

Самый старый и скромный по возможностям формат. Все, что можно делать с текстом в этом формате – это производить собствено ввод текста и сохранять разбиение на абзацы. Эта простота в определенных ситуациях приобретает значимость универсальности и прозрачности: TXT легко доступен для чтения в разных приложениях и на разных платформах. Кроме того, многие программы, даже не имеющие своей непосредственной задачей работу с текстом, умеют сохранять текст в формате TXT.

TXT-процессоры

С DOS-овских времен многие помнят текстовый процессор Lexicon, который умел обрабатывать TXT-формат на довольно высоком уровне. Сегодня основным инструментом для работы с TXT является стандартный Блокнот Windows. Тот, кому его функций кажется недостаточно, всегда может найти себе редактор по вкусу и потребностям во всемирной паутине, в том числе бесплатно. Например, используя freeware-программу Vega Константина Шереметьева, вы вряд ли увидите сообщение о том, что открываемый текстовый файл слишком велик; по заверениям автора, Vega версии 2.04 открывает файлы объемом до 2 Gb (!), а сама программа занимает при этом всего 9,5 kb (сравните, Блокнот в Windows XP «весит» около 65 kb); при этом Vega даже удобнее Блокнота и не требует установки. А вот другой образец возможностей обработки «простого текста». Текст, который вы читаете, был набран в процессоре UltraEdit от IDM Computer Solutions. Его сильная сторона – специальное отображение и обработка синтаксиса языков программирования, но и с самым незамысловатым текстом он может творить чудеса. Ценителям же удобных русифицированных программ, эргономичных и, главное, «знающих толк» в специфике кириллических кодировок, стоит познакомиться с программой Патриот.

Форматирование и универсальность

Rich Text Format – так расшифровывается аббревиатура, стоящая в названии формата, созданного корпорацией Microsoft. RTF представляет собой текст, размеченный с помощью специальных «управляющих слов», что позволяет производить и сохранять достаточно сложное форматирование, вставлять сноски, колонтитулы, рисунки, таблицы и формулы, хотя в обработке этих дополнительных объектов RTF уступает формату DOC. Уступает он DOC и в объеме файлов: использование для форматирования текста «управляющих слов» вместо стилевой таблицы не приводит к компактности. Однако, RTF выигрывает спор с DOC в отношении безопасности, т.к. его внутренняя организация не предусматривает хранения макрокода и, следовательно, неуязвима к макровирусам.

RTF-процессоры

RTF используется в качестве основного или поддерживаемого формата в многих, если не в большинстве программ обработки текста. Хорошим инструментом может послужить, например, Hieroglyph Михаила Морозова. В этой программе реализована не только проверка правописания русского языка, но и функция автоматической смены языковой раскладки клавиатуры. Текстовый процессор Atlantis от Rising Sun Solutions, существующий как в коммерческой, так и в бесплатной версиях, наверняка устроит многих пользователей продуманностью интерфейса, наличием большого количества быстрых клавиш, сменной инструментальной панелью и др. функциями. С RTF умеет работать и уже упоминавшийся редактор Patriot.

Самый «большой» текстовый формат

В формат DOC включены самые широкие возможности обработки и форматирования текста, включая создание сносок и комментариев, а также возможности создания, размещения и редактирования таблиц, диаграмм, изображений и других элементов. Правда, в полном объеме и наиболее корректно все эти возможности реализованы только в MS Word, чему способствует позиция Microsoft, не раскрывающей текущих спецификаций популярного формата. Несмотря на то, что DOC «понимают» и другие программы, их производителям не всегда удается обеспечить его корректное распознавание. В отличие от TXT и RTF, DOC является бинарным форматом, что делает его нечитабельным в простых тектовых редакторах и, более того, не обеспечивает полной совместимости его собственных версий.

DOC-процессоры

Основным и, ввиду упомянутых причин, «незаменимым» текстовым процессором для работы с DOC является MS Word, который наиболее полно реализует все возможности этого формата. Немало продуктивности и функциональности Ворду добавляют сторонние разработки – всевозможные дополнения, макросы и программы существуют в больших количествах на просторах сети. Конкуренцию Ворду обеспечивают, например, WordPerfect компании Corel, StarOffice от Sun Microsystems и бесплатный OpenOffice.org. Работая и в Word, и в других программах, следует помнить о проблеме совместимости форматов и сохранять документ в DOC только если вы уверены, что несовместимости не возникнет.

Применимость форматов

Безосновательно утверждать, что один из рассмотренных форматов хуже других, не учитывая особенностей задач, для решения которых следует их использовать. Поскольку мы не будем ставить перед собой задачу верстки в текстовом процессоре, то выбор практически однозначен. Для подготовки объемов текста от средних до очень больших и обеспечения «полного понимания» набранного любой программой верстки наиболее удобным представляется использование самого простого, компактного и универсального средства набора и хранения текста – формата TXT. Что же касается использования в верстке других текстовых форматов, то очень многое зависит от реализации их поддержки в конкретной программе макетирования.
OpenOffice.org – международный проект с открытыми исходными кодами, направленный на создание универсального офисного пакета, работающего на разных операционных платформах, имеющего открытый API и формат файлов, основанный на XML. По сути, OpenOffice.org это набор программ, разработанный в рамках данного проекта. В него входят: текстовый процессор, электронные таблицы, графический редактор, система презентаций и система доступа к данным. По своим возможностям он сопоставим с аналогичными коммерческими программами и вполне может рассматриваться, как альтернатива им. В настоящее время OpenOffice.org выпускается под двойным лицензированием: GPL и SISSL. Несмотря на отличия в этих лицензиях, для конечного пользователя OpenOffice.org является свободным.

OpenOffice.org ведет свое происхождение от офисного пакета StarOffice, разработанного немецкой фирмой StarDivision в середине 90-х годов. Осенью 1999 года корпорация Sun купила StarDivision. В июне 2000 года, уже под торговой маркой Sun вышел StarOffice 5.2 под MS Windows, Linux и Solaris. 13 октября 2000 года были открыты исходные тексты StarOffice (за исключение кода некоторых модулей, разработанных третьими фирмами), и этот день официально считается днем рождения OpenOffice.org. Сегодня над кодом OpenOffice.org работают как добровольцы со всего света, так и программисты корпорации Sun.

В настоящее время из одного исходного кода, разрабатываемого сообществом OpenOffice.org выпускаются два продукта: StarOffice, в который добавляются компоненты под проприетарной лицензией и свободный OpenOffice.org. В OpenOffice.org большинство проприетарных компонентов, присутствующих в StarOffice, заменено их свободными аналогами.

(По информации cnews.ru.)

Набор правил, по которым сохраняются данные в файле, называется форматом файла. Различные типы файлов, такие как текстовые файлы, растровая графика и т.п., используют различные форматы. В общем случае для одного типа файлов может быть определено несколько разных форматов, хотя часто под типом файла и форматом понимают одно и то же. Формат файла определяется по расширению имени файла, которое добавляется к имени файла при его сохранении в определенном формате, например, DOC, GIF и т. д.

Как правило, форматы файлов создаются для использования в строго определенной прикладной программе. Например, графические объекты, создаваемые в известном пакете векторной графики CorelDRAW, сохраняются как файлы с расширением CDR, а изображения, формируемые другим графическим пакетом, CorelXara, записываются на диск как файлы с расширением XAR. Некоторые форматы не связываются с конкретными приложениями, то есть являются универсальными. Одним из наиболее известных универсальных форматов является формат TXT (формат текстовых файлов DOS).

Часто используют сжатие компьютерных файлов для экономии места на носителе. Существует много способов сжатия файлов. Эти способы зависят от исходного формата файлов. Как правило, чем выше степень сжатия, тем медленнее выполняются операции чтения и записи.

Что касается алгоритмов сжатия, то имеются как алгоритмы сжатия без потери данных, так и алгоритмы, при использовании которых потеря данных возможна.



Сжатие без потерь гарантирует, что все данные, которые были в файле до сжатия, будут присутствовать и после распаковки файла. Механизмы сжатия без потерь используются при сохранении текста или числовых данных, например электронных таблиц или файлов документов. Примерами алгоритмов сжатия без потерь могут служить общеизвестные алгоритмы ZIP, ARJ, и другие.

Дадим краткое описание основных используемых форматов:

§ American Standard Code for Information Interchange ASCII (TXT). Формат текстовых файлов, разработанный Американским институтом стандартов (American National Standards Institute). Поддерживается всеми операционными системами и всеми программами. Представляет собой текстовый файл в DOS-кодировке, нет функции вставить рисунок, нет форматирования, работает во всех машинах, возможно создать только файлы малого объема.

§ ANSI (TXT). Формат текстовых файлов в кодировке ANSI (для кодовой страницы Microsoft Windows)

§ MsWord для DOS, Windows (.DOС). Формат документов, разработанный корпорацией Microsoft, поддерживается программами для MS-DOS и большинством текстовых процессоров. Он сохраняет исходное форматирование документов, а также стили начертания символов. Кроме текстовой информации, файлы этого формата могут содержать графические картинки с различными параметрами. Поддерживает 256 цветов. Не поддерживает сжатие. Используется в основном для обмена форматированными текстовыми данными между различными платформами и приложениями.

§ Hypertext Markup Language HTML (HTM, HTML). Язык разметки гипертекстовых документов. Все страницы, расположенные в Internet, созданы с использованием этого специального языка. HTML-документы представляют собой ASCII-файлы, доступные для просмотра и редактирования в любом текстовом редакторе. Отличием от обычного текстового файла является то, что в HTML-документах присутствуют специальные команды-теги, которые определяют правило форматирования документа. Если вам удалось освоить язык HTML, то вы можете создать страницы для Internet. Добавляя теги (метки) к обычному тексту, вы заставляете программу просмотра отображать этот текст определенным образом и размещать на странице изображения. Если вы изучили Java и JavaScript, то знаете, как расширить возможности HTML, помещая внутри тегов команды, написанные на языке сценариев.

§ Portable Document Format PDF (.PDF). Этот формат хранения документов, разработанный фирмой Adobe, претендует на роль открытого типографского стандарта для Web. Он рассматривается как альтернатива HTML. Недостатком HTML является то, что документы, переведенные в HTML, обычно не сохраняют первоначальный формат, причем HTML предлагает при просмотре очень ограниченное число гарнитур. Напротив, пользователи программы Acrobat и PDF-инструментария для создания, распространения и просмотра документов в первоначальном формате, знают, что читатели увидят публикацию именно такой, какой она была сделана. Формат PDF незаменим, если требуется получить точную копию необходимого документа. Как пример успешного применения PDF для документов на русском языке приведем сервер "Московских новостей" в Internet. Представленные на нем в электронном виде материалы полностью повторяют бумажный оригинал, отпечатанный типографским способом.

§ Standard Generalized Markup Language (SGML). Развитие HTML переводится как стандартный язык обобщенной разметки. Представляет собой инструментальный набор механизмов создания структурированных документов, размеченных с помощью дескрипторов (tags). По сравнению с HTML он обеспечивает более гибкие и разносторонние возможности форматирования в Web. Однако SGML отличается и повышенной скоростью, поэтому как более простое средство применяется PDF. Могущество SGML заключается в его межплатформенном структурном подходе к описанию содержания документов. SGML является фактически метаязыком, т.е. предназначен для описания языков разметки, применяемых при создании документов.

Самый часто используемый тип данных в компьютерном мире и интернете – текстовый. Видео и графика много красочнее и вообще лучше один раз увидеть, чем сто раз услышать. Ну и услышать тоже неплохо – на этот случай есть аудио-форматы данных. Однако правят компьютерный бал неказистые и скромные буквы и цифры. Без них никуда, даже названия другому файлу не дать. Текстовые данные важны и разнообразны – это и книги, и документы, и программный код. И для каждого назначения существуют собственные варианты форматов. Именно о них и пойдёт речь в этой статье. Правда следует сразу же сделать одну оговорку – в данном обзоре не будут затронуты форматы электронных книг, они заслуживают отдельного разговора. Здесь же говориться будет о форматах именно документов.

Текстовый формат – TXT (PlainText)

Итак – самое простое из возможных, формат TXT. Это текст в его, по сути, чистом и незамутнённом виде. Содержит только содержимое текста и абсолютный минимум служебных данных – символы начала и конца текста, перевода каретки и тому подобные.

Несмотря на практически спартанскую простоту, формат не лишён вариантов и различий. Во-первых, есть некоторые различия между Windows , Unix и MacOS версиями в которых используются разные символы конца строки. Также различия могут быть обусловлены использованием 8-битной (ASCII) либо 16-битной (UNICODE) кодовых страниц.

Однако, несмотря на это, формат TXT отличается крайней универсальностью, за что весьма любим программистами и системными администраторами.

Форматы документов MS Office и аналоги– DOC, DOCX, RTF, ODT

При всей универсальности и простоте TXT абсолютно непригоден для создания собственно документов – текстов предназначенных для печати с соблюдением определённых правил и норм оформления. Поскольку подобные документы кроме самого текста должны содержать ещё массу информации об оформлении и форматировании текста. А также о формате и размере листа бумаги, где они должны размещаться.

Для этих целей были созданы довольно многочисленные форматы различных офисных пакетов. Наиболее популярным и фактически близким к универсальному можно считать форматы MS Word – doc и docx. Первый представляет собой специальный закрытый формат, созданный компанией Microsoft для своего текстового редактора (точнее целую линейку форматов – за время своего существования он несколько раз подвергался усовершенствованию). Наряду с ним ещё на заре развития компании в сотрудничестве с корпорацией Adobe был создан формат RTF (Rich Text Format). В отличие от DOC структура этого формата доступна и он успешно поддерживается практически всеми существующими текстовыми редакторами. Хотя и несколько уступает DOC по набору доступных функций.

Закрытость разработок компании Microsoft привела к созданию открытого офисного пакета Open Office. Для которого был разработан собственный формат ODT (OpenDocument Text Format). Формат не очень хорошо поддерживается коммерческими редакторами, в том числе MS Word и может открываться ими с ошибками.

Наконец в 2007 году Microsoft решила отказаться от ставки на формат DOC и разработала семейство форматов Office Open XML в которое входит DOCX ставший основным форматов новых версий MS Word.

Формат PDF

Отказавшись от сотрудничества с Microsoft, компания Adobe двинулась своим путём. Ею был разработан формат PDF представлявший собой формат не столько для разработки документов, сколько для их просмотра и печати. В отличие от предыдущей группы, представляющих собой форматированный текст, вид которого тем не менее может изменяться в зависимости от того на какой конкретной машине он отображается или печатается, PDF представляет собой формат документа принципиально неизменного и сохраняющего внешний вид и вёрстку в любых условиях. Также он поддерживает довольно широкий спектр как полиграфических элементов, так и дополнительного сервиса (например защита документа паролем от редактирования либо печати и так далее). Всё это делает PDF скорее форматом для распространения сложных и профессионально выполненных документов и даже книг.

Каждый пользователь ПК постоянно сталкивается с различными форматами текстовых файлов, но вряд ли задумывается о том, насколько богата история этих форматов и программ, подаривших человеку возможность читать книги, работать с текстом и создавать всю необходимую документацию прямо на компьютере.

История текстовых файлов не намного моложе самих персональных компьютеров - уже их шедевры были написаны в первых аналогах современного «блокнота». Так какие же бывают форматы текстовых файлов и программы для работы с ними? Для начала нужно понять, для чего нужны текстовые файлы, какие между ними различия и что у них общего. Объединяет абсолютно все текстовые форматы их основная задача - сохранение текстовой информации. Различаются они возможностями обработки и а также доступом к хранящейся в файлах информации в плане совместимости с другими программами.

Самым простым текстовым форматом традиционно является формат TXT. Он же самый скромный по возможностям и самый старый текстовый формат. Благодаря своей простоте (возможности TXT ограничиваются набором текста и разбивкой его на абзацы), именно этот формат зачастую используется огромным количеством приложений и программ на самых разных платформах.

С распространением персональных компьютеров и увеличением их продаж компания Microsoft создает еще один популярный формат, получивший название Rich Text Format (или просто RTF). Он представляет собой текст, который размечен с помощью определенных «управляющих слов», позволяющих не только производить, но и сохранять сложные элементы форматирования и вставлять в текст формулы, таблицы, рисунки, колонтитулы и сноски.

Однако RTF довольно сильно уступает в возможностях формату DOC, также созданному компанией Microsoft специально для пакета программ под названием Microsoft Office. Созданный более пятнадцати лет назад DOC включает в себя огромное количество возможностей для форматирования и обработки текста, создания, редактирования и размещения изображений, диаграмм, таблиц и других элементов. Следует заметить, что наиболее корректно эти функции будут работать только в программе MS Word. Это связано в первую очередь с тем, что Microsoft не текущих спецификаций формата DOC и не дает своим конкурентам и независимым разработчикам использовать возможности этого формата в полной мере. Именно этот факт и является одной из основных причин того, что кроме формата DOC в наше время широко используются и другие форматы текстовых файлов.

Главным отличием формата DOC от текстовых и TXT служит его бинарность, из-за которой он становится нечитабельным в таких простейших как Wordpad, Lexicon, Atlantis. Более того, в некоторых случаях можно наблюдать и несовместимость DOC-файлов, созданных в различных версиях программы MS Word.

Форматы текстовых файлов открывать и редактировать можно в огромном количестве программ. Кроме ранее упомянутого MS Word, самыми распространенными из них являются StarOffice, выпускаемый компанией Sun Microsystems, WordPerfect от Corel и бесплатный пакет OpenOffice.org.

С распространением электронных устройств-читалок популярность набирают и другие форматы текстовых файлов, к примеру, FB2 и LRF.

Для того чтобы получить возможность использования различных текстовых форматов на разных платформах, создано большое количество программ, называемых конверторами. Конверторы текстовых файлов позволяют сохранять исходный текст из одного формата в другой и использовать его в дальнейшем на различных устройствах и платформах.

Конверторы применяются не только для сохранения текста из одного в другой формат, но и для создания файлов, которые, в отличие от их исходников, можно использовать на устройствах, которые не способны «прочитать» оригинальные файлы. К примеру, некоторые электронные книги, которые не поддерживают популярные форматы текстовых файлов, способны запросто распознавать форматы LRF или FB2, полученные из исходных файлов с помощью программ-конверторов.

Когда-то текстовые данные помещались только в один вид контейнера - ТХТ. Других не было. Ныне же их количество, возможно, приближается к полусотне. Какими-то мы пользуемся постоянно, с другими сталкиваемся крайне редко. Про существование третьих мы даже и не подозреваем. Рассмотрим самые распространенные хранилища текстовых данных с точки зрения удобства в использовании.
<<>>

ТХТ(«простой текстовый»)

Родоначальник «жанра». Активно используется по сей день. Так как текст хранится в виде последовательности символов, то размер файла в байтах равен числу символов плюс непечатаемые символы (знак пробела, табуляции, знак конца абзаца и другие - их еще называют знаками форматирования). За счет этого достигается малый размер файла. Однако возможности по форматированию подобных документов сильно ограничены. По сути - это просто текст. Текстовые данные могут храниться не только в контейнерах с расширением ТХТ. По сути, эти расширения не являются обязательными. Переименуйте ТХТ в DOC, ничего не изменится. Внутренняя структура останется той же. Точно так же, сменив расширение DOC на ТХТ, вы получите все тот же «вордовский» файл. Для чего тогда нужны эти три буквы после точки? Для правильной интерпретации программами, которые открывают их по умолчанию.

RTF («Rich Text Format» -«формат обогащенного текста»)

Свободный межплатформенный формат хранения размеченных текстовых документов, созданный Microsoft в 1987 году. Ныне он широко распространен, поэтому большинство современных текстовых редакторов его поддерживают. Создав RTF на платформе Windows, он прекрасно будет читаться и редактироваться на других платформах (Apple, Linux и другие). Стандарт де-факто в полиграфии. Однако не все программы одинаково правильно его создают. Замечено, что в документе, созданном в OpenOffice, иногда слетало форматирование, а часть текста превращалась в нечитаемые символы.

RTF позволяет производить и сохранять достаточно сложное форматирование, вставлять сноски, колонтитулы, рисунки, таблицы и формулы, хотя в этом он все же уступает формату DOC. Уступает он DOC и в объеме файлов: сложные документы более компактно хранятся в DOC-файлах (простые - наоборот). Однако RTF выигрывает спор с DOC в отношении безопасности, так как не использует макросы. Поэтому зараженные макровирусами файлы Word можно «вылечить» сохранением в RTF-формат. Кроме того, формат RTF устойчив к повреждению файла. Если в DOC-файле изменить хотя бы один байт, то он уже не откроется в Word. А повреждение файла в формате RTF может привести только к потере поврежденного куска текста.

DOC (от англ. «document»)

Поначалу это расширение использовалось для обозначения простых текстовых файлов без форматирования, однако в начале 90-х Microsoft фактически его «приватизировала». Поэтому сейчас DOC ассоциируется только с продуктами этой компании. Этот формат обеспечивает большие возможности по форматированию текста (включены сценарии, макросы). За счет этого ухудшилась совместимость с текстовыми редакторами сторонних разработчиков. В файле этого формата содержится огромное количество информации о шрифтах, начертании символов, абзацных отступах и интервалах, даже если все это вам совсем не нужно. Именно из-за этой дополнительной информации файл, содержащий только текст, превышает размер RTF-файла. Однако при включении в документ различных графических элементов и изображений DOC выигрывает в размере и обеспечивает большую совместимость. В отличие от ТХТ и RTF DOC является бинарным форматом, что делает его нечитабельным в простых текстовых редакторах. К примеру, «блокнот» может просматривать некоторые RTF-файлы. Популярен наравне с RTF.

DOCX

С появлением Office 2007 компания Microsoft перешла на новые форматы, базирующиеся на Office Open XML (визуально отличаются тем, что к расширениям добавлена буква «х» на конце). Формат представляет собой zip-архив, содержащий текст в виде XML, графику и другие данные. Для уменьшения размера файла используется ZiP-компрессия. Документы обратно совместимы с Office 2000/XP/2003, только если установлен Microsoft Office Compatibility Pack (найти и скачать его можно с официального сайта Microsoft, размер файла 27,8 Мб). Если нужно срочно сконвертировать DOCX в другой формат, воспользуйтесь услугами сайта http://docx-converter.com/ . Если вы пользуетесь последней версией Office и планируете передавать файлы кому-либо, сохраняйте документы в RTF или DOC.

ODT/ODF («Open Document Format»)

ODF - общее наименование открытого формата документов для офисных приложений (текст, таблицы, рисунки, базы данных, презентации). Текстовые данные хранятся в файлах с расширением ODT. Стандарт был разработан индустриальным сообществом OASIS и основан на XML-формате. 1 мая 2006 года принят как международный стандарт ISO/IEC 26300. ODF доступен для всех и может быть использован без ограничений. Эдакая бесплатная альтернатива закрытым форматам Microsoft. Для того чтобы производить чтение и запись формата ODF в продуктах Microsoft, был выпущен плагин Sun ODF Plugin for Microsoft Office. Поддержка ODF в Microsoft Office 2007 должна быть введена с выпуском с Service Pack 2. К сожалению, по-прежнему уступает по распространенности RTF и DOC.

HTML

(от англ. Hypertext Markup Language -«язык разметки гипертекста»)

Стандартный язык разметки документов в интернете (расширение.htm/html). Веб-страницы создаются при помощи языка HTML (или XHTML). HTML был разработан британским ученым Тимом Бернерсом-Ли в 1991 году как язык для обмена научной и технической документацией, пригодный для использования людьми, не являющимися специалистами в области верстки. Текст с разметкой HTML должен был без стилистических и структурных искажений воспроизводиться на различных устройствах. Однако позже активное внедрение мультимедийного и графического оформления на-рушило эти планы. Для просмотра HTML-документов не нужны специальные редакторы, достаточно стандартных средств, встроенных в ОС. По открытости, индексируемости, конвертируемости и читаемости превосходит любые другие форматы. К сожалению, графика сохраняется в отдельной папке. Internet Explorer позволяет сохранять текст и графику в один документ формата МНТ, но другие браузеры могут не открыть подобный файл.

СНМ (Compiled HTML)

СНМ, по сути, это набор скомпилированных HTML-документов, что-то вроде архива из веб-страниц, за счет чего его размер меньше. Для просмотра используется утилита, встроенная в Windows 98/NT и выше. Существуют и сторонние просмотрщики. Для создания СНМ-файлов можно использовать бесплатное средство HTML Help Workshop. Сейчас активно используется в качестве справки различных приложений.

PDF

(Portable Document Format -переносимый формат документов)

Кроссплатформенный формат электронных документов, созданный фирмой Adobe Systems с использованием ряда возможностей языка PostScript. В первую очередь предназначен для представления в электронном виде полиграфической продукции. Для просмотра можно использовать официальную бесплатную программу Adobe Reader, атакже программы других разработчиков. Удобен тем, что решена проблема со слетевшим форматированием, неправильным отображением внедренных графических элементов, отсутствием тех или иных шрифтов. Файл на любой платформе будет отображен в таком же виде, в каком он был создан. Традиционным способом создания PDF-документов является следующий: документ как таковой готовится в своей программе, а затем экспортируется в PDF. Некоторые программы имеют возможность для прямого экспорта (без использования виртуального принтера). Например, OpenOffice.org. В MS Word такой опции пока нет. Стандарт де-факто для большинства документации.

DjVu («дежа вю»)

Технология сжатия изображений с потерями, разработанная специально для хранения сканированных документов - книг, журналов, рукописей и пр., где наличие формул, схем, рисунков и рукописных символов делает чрезвычайно трудоемким их полноценное распознавание. Также является эффективным решением, если необходимо передать все нюансы оформления, например, исторических документов. Очень распространен, многие библиотеки используют его для хранения отсканированных научных книг. DjVu иногда называют «тексто-графическим» форматом. Суть технологии DjVu заключается в автоматическом разбиении изображения на несколько участков (например, текст, логотип фирмы и растровая фотография), для каждого из которых выбирается оптимальный алгоритм сжатия. Кроме того, DjVu-файл может содержать встроенное интерактивное оглавление и активные области - ссылки, что позволяет реализовывать удобную навигацию. Дает выигрыш в размере файла по сравнению с GIF-форматом в среднем в полтора-два десятка раз.

XML- форматы

(«extensible Markup Language»)

Существует довольно много текстовых форматов, созданных для одного конкретного устройства или программы. Например, электронные книги. К ним можно отнести Rocket e-book (.rb), Microsoft Reader (.lit), PalmDoc, MobiPocket (.pro) и т.д. Как правило, все они созданы с помощью языка XML. Самым удачным и самым распространенным из них является формат FictionBook (FB2). На данный момент это самый прогрессивный и перспективный формат для электронных книг. Единственный его недостаток -длительные временные затраты при подготовке начального текста. Что окупается удобством чтения. В FictionBook упор сделан на структурирование документа: с помощью тегов можно выделять различные области текста (главы, заголовки, цитаты, врезки). Как все будет выглядеть на экране, зависит от программы-ридера. Если требуется оформить документ определенным образом, имеется возможность присоединения таблицы стилей.



Понравилась статья? Поделиться с друзьями: