Формат djvu
29.07 15:42
DjVu (произносится «дежавю́», от франц. déjà vu — уже
виденное) — технология сжатия изображений, разработанная специально для
распространения сканированных документов — книг, прежде всего
математических, журналов и пр. — в интернете. DjVu иногда называют
«тексто-графическим» форматом.
Формат оптимизирован для передачи по сети таким образом, что страницу
можно просматривать ещё до завершения скачивания. DjVu-файл может
содержать текстовый (OCR) слой, что позволяет осуществлять
полнотекстовый поиск по файлу. Кроме того, DjVu-файл может содержать
встроенное интерактивное оглавление и активные области — ссылки, что
позволяет реализовывать удобную навигацию в DjVu книгах.
В DjVu применяется специальная технология, разделяющая исходное
изображение на два слоя — передний план, в который помещаются чёткие
детали (изображения букв) и задний план — где остаётся текстура
страницы, иллюстрации и другие второстепенные детали. Передний план
сохраняется с более высоким разрешением, задний — с более низким,
например 300 и 100 dpi соответственно. Цветовая составляющая и для
переднего и для заднего планов сохраняются в ещё более низком
разрешении, например 50 или 75 dpi, что ещё более экономит место.
Каждый из полученных слоёв сжимается наиболее подходящим алгоритмом
сжатия, например чёрно-белый передний план — JB2 алгоритмом, цветной
задний план — вейвлет-преобразованием.
В основе формата DjVu лежат несколько технологий, разработанных в AT&T Labs. Это:
алгоритм отделения текста от фона на отсканированном изображении;
вейвлетный алгоритм сжатия фона IW44;
алгоритм сжатия черно-белых изображений JB2;
универсальный алгоритм сжатия ZP;
алгоритм распаковки «по запросу»;
алгоритм «маскировки» изображений.
AT&T продали технологию LizardTech, которые пытаются использовать
её для своих коммерческих интересов, но, благодаря открытости формата,
для создания и просмотра документов DjVu существует свободно
распространяемое программное обеспечение, доступное для различных
платформ.
Формат DjVu крайне удобен для хранения и передачи отсканированных
естественно-научных книг, где обилие формул и схем делает чрезвычайно
трудоёмким их полноценное распознание.
