Прежде всего, хотелось бы рассказать о том, на каких основаниях приняты рекомендуемые типы. Архивное хранение подразумевает такой вид содержания данных, чтобы они как можно меньше были подвержены старению и при этом предоставляли возможность легкого доступа к содержимому. Ни того ни другого сегодня в полной мере не достичь, но приблизиться все-таки можно.
Во-первых, формат должен быть, что называется, "в ходу". Например форматы графических изображений PCX или Targa, устарели и через некоторое время не останется ни одного просмотрщика, способного открыть картинку. Другими словами, выбранный формат файла для аудио, видео, изображения и текста, должен "открываться" как можно большим числом программного обеспечения. Чем меньше программ открывают данный файл, тем более он подвержен "исчезновению" (устареванию). Также, чем больше операционных систем поддерживает выбранный формат, тем легче с ним производить разного рода преобразования в целях предотвращения "старения".
Во-вторых, простота структуры файла. Требование скорее желательное, но не всегда, к сожалению, выполнимое. Так, графический формат "TIFF Uncompressed", то есть "Несжатый TIFF" прост для извлечения информации программистом среднего уровня, в то время как "JPEG", требует достаточных знаний алгоритмов сжатия и кодирования графической информации. В качестве примера автором вспоминается ситуация, когда на одном из компакт-дисков 1998 года находился видеоролик в формате iv32 (Indeo Video v3) декодирующую программу которого трудно было отыскать чтобы воспроизвести фильм. То же касается канувшей в лету анимации flc, fli. Но к счастью, очень быстрой смены форматов еще не было, поэтому мы всегда сумеем подготовиться и выполнить необходимые преобразования. Хочется еще раз подчеркнуть, простая структура файла это не требование, а лишь рекомендуемое пожелание.
ЗВУК
Для звучащих файлов рекомендуется формат WAV (Microsoft PCM WAV). Это несжатый формат для звукозаписей. Используемые параметры оцифровки соответствуют стандарту компакт-диска CDDA (Compact Disc Digital Audio) и составляют 44100 герц, 16 бит, стерео. "Компьютерная" частота файла WAV (частота дискретизации сигнала) 44.1 кГц "раскладывается" до 22.05 кГц "паспортного" диапазона бытовых катушечных магнитофонов, что превышает порог слышимости человеческого уха, обычно находящегося в пределах 17-20 килогерц. Могу ошибочно предположить, что разработчики "захватили" этот диапазон в стандарт "на всякий случай", или "про запас". Все остальные, навязываемые сегодня параметры оцифровки, как то 96 кГц и 24 бита или 192/24, просто рекламный ход. "... цифровая звукозапись уже с появлением CD вплотную подошла к тому рубежу, за которым дальнейшее улучшение технических характеристик, в сущности мало что дает. Разницу можно заметить только при наличии воспроизводящего комплекса, состоящего из компонент очень высокого класса"1. Очевидно, что качество звукозаписей, выполненных бытовыми магнитофонами во второй половине XX века во много раз ниже, чем у CD Audio.
Разрядность 16 бит позволяет "уложить" звук, предоставив ему все 65536 всевозможных округленных значений. Если же читатель считает, что этого недостаточно, то можно рекомендовать параметры 48 кГц, 32 бита, стерео. Параметры, выше указанных, ведут к неоправданному перерасходу дискового пространства, ведь в действительности компьютер будет записывать звук, которого для человеческого уха на самом деле нет. В принципе, если учесть, что программа-реставратор самостоятельно и без участия пользователя будет выполнять преобразования 16->32->16 бит, то можно повысить разрядность.
Таким образом, я рекомендовал бы формат 44.1 кГц, 32 бит, или 48 кГц, 32 бит даже в том случае, если звуковая карта не поддерживает указанную разрядность, "выдавая" лишь 16 бит (или 24). Хранение звукозаписей в 32 битах, позволит в будущем исключить многократное преобразование "16->32->16", поскольку все расчеты теперь будут производиться только в 32 битах, т.е. без "искажения" оригинала.
В какой-то из дней тестирования при звукозаписи, графическое представление 32-х битного звука дало полное заполнение разрядности при использовании звуковой карты Sound Blaster Audigy 4 которая, согласно паспорту, ведет оцифровку с параметрами 24 бита максимум (заполняет три байта). Боюсь что-то придумать, но в четвертый байт попадает какая-то информация. Если же учесть, что битность (разрядность аудиофайла), это хранение громкости, то фантазия немножко становится реальностью, поскольку во время экспериментов, четвертый байт заполнялся в те моменты, когда я устанавливал громкость на максимальное значение. Значит использование 32 бит также "спасает" и от перегрузки, о чем мне приходилось читать на форумах в Интернет. Но это уже тема другой статьи. Раскрывая "тайну" о разрядности "16-32", хочется отметить, что она в меньшей степени отвечает за качество звука (в отличие от частоты), но в большей степени за его громкие и тихие "оттенки". Ведь не секрет, что некоторые дешевые аудиоустройства не способны качественно "вывести звук" разрядностью выше хотя бы 12 бит (при том, что есть аппараты, воспроизводящие и 20 бит). Суть в том, что кроме записи всех "градаций" громкости, рекомендуемые 32 бита в дальнейшем позволят производить реставрацию практически без потерь качества звука на всех стадиях обработки, за счет необъятного диапазона, отведенного для хранения постоянно округляемых промежуточных значений.
Хочу подчеркнуть, что речь идет об оцифровке в формате 44.1 кГц, 32 бит (несмотря на то, что запись можно преобразовать из 44.1 кГц, 16 бит в формат 44.1 кГц, 32 бит уже после оцифровки). К сожалению, использование 32 бит, вдвое увеличивает размер файла. Впрочем, такие файлы легко сжимаются упаковщиками.
Архивное "требование" - сохранять информацию в легкодоступных форматах, для WAV легко выполнимо в силу широкого распространения формата.
ВИДЕО
Вопросы видео сегодня требуют тщательного изучения. Во-первых, из-за различных форматов, которые генерируют цифровые аппараты, во-вторых, из-за получающихся объемов, в-третьих, из-за способа хранения видеокадров, в-четвертых, из-за качества съемки и так далее. При сдаче цифровых записей в архив, рекомендуется наличие исходных, не кодированных видеозаписей, т.е. оригиналов. В этом случае, при наличии разных форматов всевозможных видеокамер, архивное "требование" - сохранять информацию в легкодоступных форматах, не выполнить. Такие, исходные видеозаписи, чаще всего создают проблему переполнения дисковых хранилищ. Например, из экспедиции можно привезти 26 часов видеозаписей высокого качества (видеокамера Sony HDR-XR160), что составит 190 гигабайт дискового пространства, это более 40 дисков DVD+R.
Видеозаписи легко поддаются сжатию. Так, весь вышеуказанный объем упаковывается на один диск DVD+R, при этом в кадре изображения вполне можно разглядеть информанта и отснятый быт. К сожалению, такой, упакованный материал непригоден для создания этнографического кино в целях демонстрации научному сообществу и тем более для телевидения.
Но, одно дело, это гигабайты видеозаписей отснятых профессиональными видеооператорами, а другое - любительская съемка, из которой довольно проблематично смонтировать качественный фильм. Вероятнее всего, в рекомендациях по видеосъемке необходимо напомнить о переключении параметров сжатия, тем более, что сегодня регулировка качества сжатия видеозаписей практически не искажает изображение, существенно сберегая дисковое пространство.
Другая "неприятность", это способ хранения видеокадров в файле. Используемый сегодня и, без сомнения лучший кодек H264 упаковывает лишь разницу в соседних кадрах, в то время как DV и MJPEG хранят группу фотографий в формате JPG. При незначительном повреждении видеофайла в формате DV/MJPEG пострадает один-два, или несколько кадров, в то время как в H264 (или свободный аналог x264) пропадет столько кадров, сколько их должно быть между соседними ключевыми кадрами (25, 50, 75 или более). Впрочем, при использовании программы ICE ECC (ссылка на статью) такое повреждение при хранении будет сложно получить.
Если речь идет об оцифровке видеокассет (видеозахват), то здесь используется формат DV2 как при использовании видеокассет стандарта S-VHS/VHS, так и Mini DV. Этот формат полностью охватывает качество аналогового телевизионного вещания (в данном случае, видеосигнала полученного с бытовых видеомагнитофонов). Файлы DV также оставляют без сжатия.
Мои тесты показали, что хотя допустимое сжатие уменьшает исходный файл вдвое, потребуется время для упаковки и дальнейшей распаковки записей при последующем монтаже фильма. Все это, наряду с созданием страхового фонда и так отнимает у собирателя (или сотрудника архива) время. Архив из 20 видеокассет займет 180 дисков DVD+R емкостью 4,5 Гигабайт (9 дисков одна кассета VHS продолжительностью 180 минут). Это примерно две "тубы" (два шпинделя) по 100 дисков стоимостью 1000 рублей каждая. Плюс страховка, итого около 100 евро на расходные материалы. Если использовать диски каждый из которых в футляре, то выйдет немного дороже и это самый лучший вариант, поскольку не требуется доставать большинство дисков со шпинделя для отбора необходимых. Диски займут архивный шкаф с габаритами 60х30х25 см. (длина, ширина и высота ящика). Полагаю, что это вполне допустимо, тем более что за период с 1995 по 2005 не так много научных учреждений могли отснять множество видеокассет. Солидные организации, имеющие в несколько раз больше видеокассет, скорее всего оцифровали уже свои материалы, поскольку им найти средства проще всего. В любом случае хотелось бы порекомендовать сохранить захваченные с кассет видеозаписи в формате DV. Файлы в этом формате производит видеозахватывающая (видеомонтажная) программа Pinacle Studio, так что дополнительных операций по кодированию осуществлять не требуется.
Наконец, о форматах. Если Pinacle Studio создает тип файла *.AVI (Audio Video Interleave), то современные видеокамеры (например Sony) сформируют *.MTS, а первые цифровые камеры могли создавать *.MPG, а то и *.VOB (DVD Video). Программы видеомонтажа "предпочитают" контейнер *.AVI, хотя способны переконвертировать почти любой формат в *.AVI, причем рекомендуется несжатый файл. Чтобы не затрагивать тему видеомонтажа, скажу лишь, что хочется надеяться, что с перспективным форматом *.MKV (точнее, с контейнером MKV3) известные программы будут работать так же легко как и с контейнером *.AVI.
Подводя итог о видеозаписях, необходимо сослаться на европейские архивы. На сайте стандартов IASA в разделе технических рекомендаций, фигурирует формат MPEG-2 (DVD видео). Этот формат также был выбран не случайно. Дело в том, что некоторые форматы были "проверены" мной путем умышленного разрушения содержимого видеофайла. Выяснилось, что "лидирует" MPEG-2, MJPEG и DV Codec (строго говоря, DV относится к категории MPEG-2, но имеет другой алгоритм сжатия). При просмотре поврежденного видео, в местах сбоев картинка на мгновение пропадала и появлялась вновь, когда видеопоток был возвращен. Остальные форматы либо приводили видеопроигрыватель в "замешательство" (программа "зависала"), либо некоторое время (до ключевого кадра) в изображении наблюдался след "плывущих" артефактов (беспорядочно расположенных квадратиков), что однозначно говорило об утрате большей части видеофильма, чем в поврежденных образцах кодеков DV Codec и MPEG-2.
Испорченный видеофайл. Видеокодек MJPEG, контейнер AVI.
(стихи читает Савватеев Н. А.)
(если файл не воспроизводится, его можно скачать (ссылка)
Звук при видеозахвате выбирается со следующими параметрами: PCM WAV 48кГц, 16 бит, стерео, (или 44.1кГц, 16 бит стерео /Audio/-/Raw capture format/). Pinnacle Studio сама выбирает эти установки автоматически. Сжатие звука и видео "на лету" не производят, поскольку упаковка может привести к потере кадров (Frames dropped). Не лишним будет напомнить, что в течение видеозахвата никакой другой деятельностью на компьютере не занимаются, опять же во избежание пропуска кадров.
ИЗОБРАЖЕНИЯ
Как и в ситуации с видео, фотографии могут поступать в архив с двух "фронтов". Съемка цифровым фотоаппаратом и сканирование слайдов, или бумажных фотографий. При копировании фотографий с флеш-карты фотоаппарата, файлы изображений сдают на архивное хранение в неизменном виде (как и в случае с видео). В подавляющем большинстве, фотоаппараты ведут съемку в файл JPG, реже TIF. И все же встречаются фото в так называемом "сыром" формате (raw image), который представлен расширением файла *.CR (или *.CR2). Последний тип файла открывается не во всех программах, поэтому можно рекомендовать его конвертирование в PNG. При этом, исходный файл оставляют. Дело в том, что исходный файл *.CR содержит информацию, с помощью которой можно более точно произвести последующую корректировку изображения (исправить ошибочные настройки баланса белого и т.д.).
При сканировании фотопленок и фотографий, рекомендуется использовать файл JPG с параметрами сжатия 100% (высшее качество изображения), при этом не следует забывать об использовании высокого разрешения получаемого рисунка. Предположим, необходимо отсканировать лист бумаги формата А4, имеющий физические размеры 210 х 297 миллиметров. С помощью программы dpi-counter (см. "Понятие dpi ..."), ориентировочно найдем количество точек изображения при 300 dpi = 2800 х 2000. Умножим все числа в программе на 3 и повторим расчет, нажав соответствующую кнопку. Полученный результат при 900 dpi, составит 8400 х 6000 точек (фото 50 мегапикселей). Изображение, отсканированное с вышеуказанными параметрами в формате TIF займет 151 мегабайт на жестком диске, в то время как JPG "Progressive" при качестве 100% всего 9 мегабайт. Однако TIF сжатый в режиме LZW займет всего 23 мегабайта, что на один мегабайт больше фотофайла в формате JPEG2000. При этом, полученный TIFF не устойчив к повреждению в отличие от JPEG2000 и JPG "Progressive". Но это тема отдельного исследования и подходит для фонда использования и Интернет, а вопрос устойчивости к повреждениям архивных материалов уже давно решен (см. "Подготовка и хранение файлов ...").
В основном, когда рекомендуют при сканировании TIF, указывают на якобы сохраняющиеся при этом настройки, дескать JPG настроек не хранит. Верно, JPG настроек не содержит, кроме того, уменьшает интенсивность цвета. Но, так ли нужны настройки для фотографии, отсканированной на бытовом, но очень дорогом сканере (до 500 евро)? А если это профессиональный аппарат стоимостью более 2000 евро, который нам вообще не доступен? Более того, сканер сканеру рознь. Даже если очень точно настроить оба дорогостоящих сканера, нет гарантий, что фото получится одинаковым на обоих аппаратах. Очевидно, различия будут примерно такими же, как между файлами TIF и JPG с качеством сжатия 100% (то есть небольшая часть точек изображения чуть-чуть изменится). Что касается "угасания" цвета, то при стопроцентном сжатии это уменьшение можно заметить лишь при внимательном рассмотрении снимка и достаточной остроты зрения. Таким образом, погрешности есть везде и главное здесь, не перейти в область фанатизма, а стараться смотреть на вещи разумно. Может быть, такие точности необходимы, когда осуществляется работа с изображениями высочайшего качества на профессиональном сканере, но у нас такого оборудования в ближайшее десятилетие не будет (цены на высокоточную оптику и не думают снижаться).
Наибольшим пожеланием является использование свободного формата PNG. При сохранении в формате JPG и PNG рекомендуется устанавливать параметр "прогрессивный" (save as progressive jpg), в некоторых случаях полностью защищающий изображение от случайных повреждений файла4.
Программа IrfanView - диалог сохранения фотофайла. Установлен флажок "Прогрессивный формат" (скан архивного документа "http://vlp.mpiwg-berlin.mpg.de/index_html")
Прогрессивный режим сжатия в полной мере используется в формате JPEG2000 и если бы не статус редкого использования этого формата, для архивного хранения, вероятно, пока не найти ничего лучше чем *.JP2
Известно, что изображение, размером 1000 х 1000 точек в формате TIF Uncompressed занимает на диске 3 мегабайта, в то время как JPG 100% - 246 килобайт (в 12 раз меньше). Очевидно, что несколько десятков TIF-файлов очень быстро заполнят собой не только CD-R диск, но и DVD+R. Предложение использовать JPG в этом смысле выглядит более привлекательным.
Считается, что JPG не следует использовать в качестве архивного формата, поскольку, как уже говорилось выше, алгоритм сжатия некорректно "обходится" с цветом. Но если у читателя все же закрались сомнения, можно порекомендовать PNG или JPEG2000 (тем более, что существует его свободный аналог - OpenJPEG). Эксперименты с OpenJPEG показали, что исходный файл TIF, хорошо упаковывается в OpenJPEG и распаковывается в изначальный TIF без искажения оригинального рисунка5. Объем вышеуказанного рисунка составляет 981 килобайт, что даже лучше чем PNG (1.4 мегабайт).
Архивное "требование" - сохранять информацию в легкодоступных форматах, для PNG и JPG также легко выполнимо.
ТЕКСТ
Для архивного хранения применяют традиционный текстовый файл в любой удобной кодировке. Как правило, в операционной системе Windows, эта кодировка соответствует обозначению "cp1251" (Code Page - кодовая страница), а в операционной системе Linux - "koi-8". Сегодня набрал популярность текстовый файл в кодировке Unicode (Utf-8). Это тот же традиционный TXT, но для хранения каждого символа используется не один байт (8 бит = 256 значений/символов), а два байта - 16 бит, что позволяет закодировать 65536 различных символов.
К сожалению, текст в формате TXT не содержит таких управляющих команд, которые приводят его к готовому виду для печати в типографии. Отсутствует цвет, подчеркивание, курсив, размеры и так далее. Почему бы не использовать формат DOC (Microsoft Word)? Что ж, давайте поглядим на его содержимое.
Содержимое авторского файла "n-statia.doc" (открыто в текстовом редакторе)
Среди значков встречается адрес какого-то Интернет сайта, остальной текст пожалуй не расшифровать. Мы убеждены, что формат DOC никуда не пропадет, волноваться нечего, поэтому смело можем продолжать его использовать, но хочется напомнить, что цель архива - стремиться (если это возможно) к использованию таких форматов файлов, информация которых легкодоступна. Привлекательным в этом плане выступает HTML.
Язык гипертекстовой разметки HTML полностью состоит из текста, часть которого представлена специальными командами, заключенными в угловые скобки ("тэги"). Обозреватель Интернет (браузер), читает команды и на лету формирует текст в заданных параметрах. Теги на экран не выводятся.
Содержимое авторского файла "stdzfiles.html" (открыто в текстовом редакторе)
Предложенный пример текста наглядно демонстрирует отсутствие непонятных значков. "Работа" команд этого HTML представлена текстом, который вы сейчас наблюдаете на экране.
Программы LibreOffice Writer (или Microsoft Word) и LibreOffice Calc (или Microsoft Excell) позволяют сохранять работу в HTML. Таким образом, при желании работать только с форматом DOC, рекомендуется дополнительно сохранять копию документа в HTML.
Архивное "требование" - сохранять информацию в легкодоступных форматах, для TXT и HTML также легко выполнимо.
ИМЕНОВАНИЕ ФАЙЛОВ
Одно из требований относится к символам, используемым в именах мультимедийных файлов. Рекомендуется использовать латинские символы. Сегодня не найти полностью надежных носителей информации, а в случае хранения информации на жестких дисках, не исключены повреждения файловых систем. Повреждение может возникнуть в силу разных причин. В архивах могут применять внешние жесткие диски, подключаемые посредством контроллера USB. Если при отсоединении диска, информация о размещении файлов не успеет вовремя записаться, то "пропадут" отдельные, а то и значительная часть файлов. Сейчас достаточно средств восстановления информации, но многие из них, легче отыскивают и возвращают файлы, в именах которых присутствуют символы английского алфавита. Можно найти программу, которая восстанавливает русские символы и продолжать именование файлов по-русски, но так ли необходимы лишние действия, затрачиваемые на поиск и изучение подобного рода программ? Если сотрудника архива не пугают подобные ситуации, а работу таких программ как Ontrack EasyRecovery, RStudio, он знает наизусть, русский алфавит можно смело использовать, поскольку других существенных ограничений замечено не было, за исключением лишь незначительных затруднений "подключения" таких файлов к простейшим базам данных.
В имя файла нежелательно включать дополнительные символы. Ограничение не касается символов подчеркивания, дефиса, цифр (соответственно "_", "-", "0".."9"), которые и ранее распознавались многими операционными системами.
В качестве примера, можно привести имена файлов для звукозаписи, видеофайла и фотографии. Соответственно, это "00001-001.wav", "00001-001.avi", "00001-00001.jpg". Пример демонстрирует исключительную простоту имени и отсутствие английских букв вообще. Лишь расширение файла указывает на его принадлежность к вышеуказанным типам файлов мультимедиа. Ничто не мешает использовать дополняющие имя буквенные индексы, например, "00001-00001ob.jpg" (oborot - "оборот", транслитерировано), что подразумевает оборот страницы тетрадки информанта, которую фотографирует в условиях экспедиции собиратель и т.д.
Вынужден согласиться, что приведенные имена довольно необычны (впрочем, операционная система от них "в восторге"). Хочется сказать, что для аудиофайлов у меня было множество мыслей и на жестком диске еще остались файлы не затронутые процессом "глобального переименования". Так, "tape0328trk12.wav", означает трек (отдельную запись) номер 12, оцифрованной магнитной ленты с номером 328. Ноль, в числе 0328, позволяет красиво отобразить список имен файлов в окне файлового менеджера. Вообще, "предлагается в нумерации файлов использовать нули, чтобы в любых ситуациях последовательность файлов была строго в порядке возрастания номеров. (При обычной нумерации файлов - 1,2,3,4,5,6,7,8,9,10,11… компьютер в ряде программ может дать последовательность – 1,10,11,2,3,4,5,6,7,8,9…, что неудобно).6 Позже, стало заметно, что надпись "trk" сливается с числами, поэтому она была заменена дефисом - "tape0328-12.wav". Но и "tape" сливается с числом 0328, поэтому был добавлен символ подчеркивания "tape_0328-12.wav". В конце концов, понравилась вышеуказанная система именования давно уже применяемая в Европе и у нас (например, в Фонограммархиве ИРЛИ, Пушкинский Дом).
В разное время архивными организациями предпринимались попытки добавить в имя файла принадлежность оцифровки тому или иному носителю. Так "cc" могло обозначать компакт-кассету (compact-cassette), а "vd" - виниловый диск (грампластинку). Буквы "rt" - магнитную ленту (reel tape). Но так ли важно знать тип носителя, если в будущем останется лишь цифровая запись? Пускай я не прав и вам ничто не мешает оставлять такого рода обозначения, но мне не удалось найти весомой причины, допускающей "нагрузить" имя файла ненужной информацией. По характерному треску, всегда можно определить грамзапись. По "шипению" - магнитозапись. Даже компакт-кассета иногда "отыскивается" по недостатку низких частот.
Учитывая, что Фонограммархив ИЯЛИ содержит до 4000 единиц хранения, причем объемы нынешнего сбора экспедиционного материала по сравнению с XX веком заметно ниже, в имя файла был добавлен еще один ноль, до образования пятизначного числа, что позволит зарезервировать место для ста тысяч единиц хранения. В одном из журналов-описей была найдена магнитная лента с числом треков свыше 100, поэтому для отдельных записей ноль был также выделен (получен резерв для 1000 треков).
С видеозаписями ситуация схожая, поэтому структура имени оставлена без изменений.
Цифровое фото доступно практически любому исследователю, поэтому использование пятизначного числа предполагает объем архива до 100000 единиц хранения (ничто не мешает "довести" число до миллиона, добавив еще один ноль). Фотографий в экспедициях может быть отснято от 200 до 2 тысяч, а группа исследователей отснимет еще несколько десятков тысяч фотоснимков, поэтому здесь также используется пятизначное число, например, "00001-00001.jpg".
Текстов и описей пока не пришлось коснуться, поэтому традиционные "readme.txt" и аналог приведенных выше имен наподобие "00001-001.txt" вполне допустимы к использованию.
Номер единицы хранения присваивается либо всей экспедиции (т.е. 1 экспедиция = 1 номер), либо как обычно, то есть несколько номеров по числу привезенных видеокассет, компакт-кассет. Но сегодня практически все записи цифровые и собиратель сам решает, сколько единиц хранения он возьмет (зарезервирует).7.
РАЗМЕЩЕНИЕ ФАЙЛОВ НА НОСИТЕЛЯХ
После того, как файлы будут поименованы, необходимо выполнить два действия:
1. Обработать их программой ICEEEC, для получения файла с избыточными данными.
2. Разделить файлы так, чтобы документы поместились на один или несколько носителей, а их ecc-копии на другие носители.
В виду того, что носители имеют фиксированную емкость, компоновка определенно требует особого внимания.
ЗВУК
Со звукозаписями проще всего. Магнитная лента, в зависимости от скорости записи займет объем диска CD-R, либо DVD+R (соответственно 0,7 Гб. и 4,5 Гб.). В редких случаях (скорость записи 4,76 см.сек на катушке большого диаметра) может потребоваться два и более DVD+R. Например, звукозапись продолжительностью 30 минут в качестве 48 килогерц и 32 бита, стерео, это файл объемом до полутора гигабайт (1400 Мбайт). Если сторон звучания две, то "катушка" потребует 3 гигабайта. Вся запись помещается на диск DVD+R.
Согласно статье "Подготовка и хранение файлов фольклорно-этнографического материала на внешних носителях", аудиофайл обрабатывается приложением ICEECC с целью создания файла с избыточной информацией. Полученные файлы копируют в одноименные каталоги, формируя "диск". По достижении объема 4,5 гигабайт (DVD+R), каталоги можно уже записывать на DVD-диск. Никаких дополнительных файлов, кроме программы ICEECC и информационного текстового файла метаданных не прикладывают.
* Кроме основной информации по единице хранения, текстовый файл может описывать некоторые детали, например, "записи не поместились на один диск, продолжение смотри на диске 2", или "в каталоге NNN присутствуют отреставрированные файлы для прослушивания, в виду искаженной скорости записи оригинала" и так далее.
ВИДЕО
Как уже было сказано, видеофайлы стараются не упаковывать, по причине потери качества исходного материала. Сжимать видео не рекомендуется также потому, что в случае возникновения ошибок при сжатии, может появиться рассинхронизация видео со звуком, либо пропажа отдельных кадров изображения. Видеофайл также обрабатывается программой ICEECC.
Все это хорошо, но если при видеозахвате запись не прерывали каждые 18 минут, получая файл объемом 4 гигабайта, то скажем видеозапись целой кассеты MiniDV отнимет на жестком диске до 13 гигабайт дискового пространства. На обычный диск такой файл не запишешь. А BluRay-диски пока еще дороги для потребителя. Если захватывались видеокассеты формата VHS, то можно порекомендовать разрезание файла (см. "Выборка отдельных записей ..."), иначе, файл можно разрезать файловым менеджером Double Commander.
Под разрезанием файла на фрагменты понимают создание меньших по объему файлов, в сумме дающих оригинальный файл. Так после операции разрезания файла объемом 13 гигабайт на три части, будет создано 3 файла объемом 4,3 Гбайт (рекомендуется делить на 4 файла, чтобы не заполнять диск под завязку). Можно увеличить надежность. Разбить файл на "куски" по 2 гигабайта и записать на диск. Для каждого куска создается ecc-файл с избыточностью 100%. Эти файлы записываются на другой DVD+R. Не рекомендуется хранить ECC-фйлы на одном диске с видеозаписями, поскольку четыре продольных царапины не дадут устройству DVD-ROM прочесть диск. Кстати, алгоритм ICEECC позволяет вернуть исходный файл даже из "ecc"-файла.
Наверное ошибочно полагать, что предложенная здесь методика сохранения файлов удобна, поэтому можно порекомендовать приобретение стримерного устройства LTO для хранения объемных файлов, или приобрести большое число жестких дисков, которые должны храниться в разных местах и не подсоединяться к компьютеру без необходимости. Сегодня вопрос носителей также требует тщательного изучения.
ИЗОБРАЖЕНИЯ
Экспедиционные фотографии копируются в один каталог. Собиратель перемещает (или удаляет) ненужные, некачественные, бракованные. Затем файлы фотографий переименовываются, после чего составляется опись (например, с помощью программы Images-metaedit).
Случается, что объем фотографий превышает объем диска DVD+R. Один из способов - создать два каталога и так разделить фотографии, чтобы, например, фотоснимки с 1 по 3000 находились на одном диске, а с 3001 по 7000 на другом. Структура дисков идентична, но опись будет ссылаться на отсутствующие на носителе фотографии. Вся "конструкция" заработает лишь в том случае, если фотографии будут скопированы с обоих DVD+R в один каталог жесткого диска компьютера. Кстати, именно поэтому создают фонд использования, который и описывают. Имена фотографий фонда использования остаются прежними, а объем снижается в 10 и более раз (качество копий ухудшается). Такое решение не только "облегчает вес" цифровых фотографий, но и способно очень быстро выводить фотографии на экран, поскольку характеристики пользовательской фотографии могут быть следующими: размер длинной стороны снимка 1280 точек, качество сжатия JPEG - 65% (оригинал - 3000x4000 точек, качество JPEG 95-100%)
ТЕКСТ
Носителем для текста расшифровок и других материалов вполне может использоваться диск CD-R или DVD+R в виду компактности.
Если расшифровки представлены документом Microsoft Word, в обязательном порядке сохраняют документ как HTML (в диалоге сохранения "тип файла"). Сегодня приобретает популярность документ PDF (Adobe Acrobat Reader), но мне с трудом удавалось "вытащить" оттуда информацию из-за представления текста в виде картинок. Считается, что PDF защищен от копирования, но с помощью ABBYY Fine Reader все защиты складываются как карточный домик. Другое дело, если у собирателя единственная копия статьи, это PDF-документ. Вот здесь уже начинается маленький конец света. Словом, лучше использовать простые текстовые форматы.
НОСИТЕЛИ ЦИФРОВОЙ ИНФОРМАЦИИ
В начале XXI века, средством долговременного хранения цифровой информации, служил компакт-диск CD-R, который за первые 5 - 10 лет XXI века был вытеснен диском DVD (DVD+R, DVD-R). В мире архивных документов очень давно известны "стримеры" (streamer - накопитель на магнитной ленте). Наконец, как средство хранения мультимедиа данных можно представить жесткий диск большой емкости.
Компакт-диски и DVD чувствительны к механическим повреждениям, кроме того "боятся" солнечных лучей, перепадов температур и влажности. Срок хранения приблизительно 70-100 лет. Например, существующим CD-R дискам Фонограммархива ИЯЛИ 12 лет (тест на чтение в декабре 2011 года выявил 100% считывание успешно хранящейся информации). Стримерный накопитель предъявляет те же требования, что и магнитная лента, с уже гарантированным сроком хранения свыше 100 лет9 (подразумевается соблюдение условий хранения8). Жесткий диск чувствителен к механическим повреждениям (к ударам) и высоким температурам. Срок хранения, вероятно, равен сроку хранения радиодеталей контроллера, но производителем срок исчисляется десятками тысяч часов работы. Таким образом, если диск включать по часу в день, то фактором старения могут явиться пожалуй сроки хранения конденсаторов контроллера. Диски Blu-ray не рассматриваются из-за высокой цены и малой на сегодня распространенности (специализированные магазины в столицах умышленно не рассматривались). Флеш-накопители также не пригодны для хранения, поскольку данные сосредоточены в микросхеме энергонезависимой памяти и некорректное подключение "флешки" может уничтожить сразу всю информацию накопителя. Неверное подключение жесткого диска или сбои в операционной системе точно так же могут уничтожить информацию. К счастью, данные с жесткого диска восстановить легче, чем с флеш-накопителя, микросхемы которого могут вообще выйти из строя.
Более надежного хранения информации сегодня нет10, но по сравнению со старыми, новые, цифровые носители обладают уникальной особенностью - полноценную копию оригинала можно получить в считанные минуты.
Согласно инструкциям, копии единиц хранения размещают в двух разных местах. Скажем, архивный материал, расположенный в "пункте А" это диск с оригиналами и диск с ECC-копиями. В другом месте, "пункт Б" (по правилам приветствуется даже другое здание), такие же два экземпляра. В этом случае, при повреждении одной копии, существует возможность восстановить другую.
Ведение журнала проверки носителей "на чтение", позволяет оценить состояние хранения электронного архива.
В заключение, хочется отметить что типы файлов для оцифровки и их характеристики уже давно были определены, например в организации IASA (также в DOBES), в частности, об этом говорится в рекомендациях (соглашение об использовании принятых стандартов). Более того, документ IASA-TC 03 переведен на русский язык Виктором Денисовым и Наталией Светозаровой (доступен в разделе "Ссылки на статьи в сети Интернет"). Вместе с переводом, рекомендую не оставить без внимания и оригинал, всегда полезно знать, как за границей решают вопросы оцифровки и архивации.
1 Никамин В.А. Цифровая звукозапись. Технологии и стандарты. - СПб: Наука и Техника, 2002. ISBN 5-94387-043-1. С.225. 2Digital Video - размер кадра 720х576 точек (768х576 "квадратная" точка), число кадров в секунду 25 (PAL). Для сжатия можно использовать бесплатный (свободный) кодек Cedocida dv-codec, с инструкцией по установке. 3 То есть AVI, MKV это контейнеры - способ хранения фильмов, а HuffyUV, XviD, x264, MJPEG, DivX и др. - кодеки для сжатия хранимых фильмов. Просто MKV более гибок, чем AVI и скоро последнего вытеснит. 4 Прогрессивный режим можно объясить так. Исходное изображениет "разрезается" на множество горизонтальных линий, строк. Первая, 11я, 20я строки и далее, это одно изображение. Вторая строка, 12я, 22я и далее - второе. И так остальные изображения. Каждое изображение составляет часть общего рисунка. При просмотре любого полученного изображения можно в общих чертах узнать весь рисунок. Поскольку изображения выводятся постепенно и накладываются друг на друга, то пользователь сразу видит улучшающеся по мере загрузки изображение. Эта методика создавалась для использования в сети Интернет для того, чтобы пользователь не ожидал полной загрузки изображения, а мог сразу увидеть рисунок в низком качестве. Прогрессивный формат оказался полезным и для нужд архива. Эксперименты, которые мне удалось провести, показали, что повреждение исходного файла даже на 30% незначительно влияет на качество исходного изображения (разумеется, речь идет об архивных фотографиях с высоким разрешением). Однако, используя программу ICEECC, прогрессивный режим можно применять лишь для публикации фото в Интернет. 5 По правде говоря, в ходе эксперимента исходный TIF-файл претерпел некоторые модификации (сомневаюсь, что в плане качества). Хотя, полученный после конвертирования JP2-файла "новый" TIFF, повторно упаковывался в JP2 и распаковывался без каких-либо изменений. Для сжатия исходных TIF файлов в формат JPEG2000 (openjpeg), рекомендуется использовать файлы TIFF Uncompressed (несжатые), а при сохранении в openjpeg указывать параметр сжатия 0 (ноль - lossless). 6 Н.В. Ушаков "Учет и описание цифровых полевых материалов" С.442 Радловский сборник: Научные исследования и музейные проекты МАЭ РАН в 2012 г. ISBN 978-5-88431-238-8. 7 Ушаков Н.В. "Значение инструкции по регистрации коллекций МАЭ РАН Л.Я. Штернберга для полевой документации, камеральной обработки и архивации современных цифровых полевых этнографических материалов". 8 Хочется верить, что производство стримеров LTO (Linear Tape-Open - стандарт записи на магнитную ленту http://www.lto.org/) увеличится и они станут дешевле и доступнее. 9 Более развернутую информацию по условиям хранения можно почерпнуть в статье "Прогнозирование долговечности архивных документов". 10 Впереди две технологии: "каменный" диск Millenniata's M-DISC, со сроком хранения до 10 000 лет и голографическая (объемная) запись информации.