Российская национальная библиотека
Голландский институт в Санкт-Петербурге
Петровское историческое общество

Международная научная конференция

Раскрывая культурное наследие: новые задачи для библиотек, архивов и музеев


Назад


Владимир Борисович Бовин, ведущий инженер по звукозаписи, Петрозаводск.

Подготовка и хранение файлов фольклорно-этнографического материала на внешних носителях

    Согласитесь, безвозвратно потерять только что собранный фольклорно-этнографический материал было бы обидно. Цифровая информация сегодня составляет большую часть материалов собирателя. Материалы хранятся на жестком диске компьютера, на флеш-накопителях, а также на дисках DVD.

Рис. 1 Хранение компакт-дисков в Фонораммархиве ИЯЛИ КарНЦ РАН «http://folk.krc.karelia.ru», «http://phonogr.krc.karelia.ru».

    Если рассматривать старые документы, то сейчас, для удобства работы стремятся поскорее перевести их в электронный вид. Звук оцифровывается, видеокассеты захватываются, документы на бумажной основе сканируются. Отсканированные рукописи набираются в текстовые файлы, или базы данных и так далее.

    Распространенными и менее надежными носителями цифровой информации являются компакт-диски и DVD.

Created with GIMP

Рис. 2 Устройство хранения данных LTO (привод и картридж объемом 1600 Гб).

    Чуть надежней - переносной жесткий диск. Но к идеальному приближается, пожалуй, ленточный картридж LTO (Linear Tape-Open «http://www.ixbt.com/storage/tapes/lto.html», «http://www.lto.org/») В картридже используется магнитная лента высокого качества, что позволяет хранить данные, пожалуй более ста лет. Например, старые магнитозаписи в Фонограммархиве Института языка, литературы и истории, находятся в хорошем состоянии вот уже 65 лет. Если не считать копир-эффекта1 возникшего с большей вероятностью в течение суток после записи, качество звука великолепное. Из 30 таких магнитных лент, только две, или три стали хрупкими, но к счастью были вовремя полностью и без ошибок оцифрованы.

    Еще одно преимущество ленточного накопителя (стримера), это хранение информации на отдельных, независимых участках носителя, что исключает повреждение сразу всей ленты. Например, если к катушке с намотанной на нее магнитной лентой поднести небольшой постоянный магнит, сигнал ослабнет на каком-то одном участке. Для полного размагничивания необходим тщательный контакт со всей поверхностью катушки. Впрочем, магнитные материалы в хранилищах не размещают2. Выход из строя хотя бы одной радиодетали «флешки» приводит к утрате сразу всей хранящейся на ней информации. Пластины жесткого диска способны долго хранить информацию, но электронные комплектующие контроллера, «вращающего» эти пластины стареют или постепенно выходят из строя. К сожалению, даже какой-то один тип контроллера на заводе калибруется отдельно для каждого жесткого диска, что затрудняет его замену. Устаревшие жесткие диски снимают с производства, что в дальнейшем делает невозможным их ремонт.

    При подключении жесткого диска к компьютеру может возникнуть скачок напряжения (а также нельзя исключать воздействие статического электричества), что в отдельных случаях нарушит целостность хранящихся данных. Если на компьютере, к которому подключается диск, установлена система Windows вместо Linux, то данные  подвергаются еще и опасности со стороны новейших компьютерных вирусов.  В отличие от LTO, повреждение хотя бы одной радиодетали контроллера жесткого диска, закроет доступ сразу ко всей информации. Ну и, пожалуй, изготовить контроллер для чтения ленты LTO наверное легче, чем собрать и откалибровать устройство чтения информации с металлических пластин жесткого диска.

Рис. 3 Механическое повреждение диска DVD.

    Компакт-диски выходят из строя не только вследствие механических повреждений. Они изготовлены из пластика, который со временем стареет и разрушается. Диск DVD состоит из рабочего слоя, который путем склеивания  защищен с обеих сторон двумя пластмассовыми дисками.

Рис. 4 Повреждение рабочего слоя внутри CD-R.

    От качества клеевого шва зависит состояние рабочего слоя. Проникновение кислорода из воздуха в стык приводит к окислению материала, хранящего информацию. Но в связи с тем, что на компакт дисках можно разместить лишь малую часть информации, повредить сразу весь архив затруднительно.

    В отличие от нецифровых материалов (бумага, магнитная лента, кинопленка), файлы компьютера нуждаются в более бережном и ответственном хранении, поскольку данные утрачиваются полностью, без возможности восстановления. Скажем, магнитную ленту склеил и проблема решена, значительная часть звука спасена. Однако, у цифровых материалов есть одно хорошее свойство - полную копию, например, компакт-диска можно сделать в считанные минуты. Это позволяет, в ходе мониторинга архивных материалов, быстро создавать копии с интервалом в 3, 5, 20 или более лет в зависимости от состояния носителей. Так, в процессе проверки одной секции хранилища компакт-дисков, записанных в Фонограммархиве в 2001 году, на 2012 год выявлено 100% чтение. Несмотря на такие положительные результаты, сейчас мы озабочены другой проблемой.

    Предположим, на компакт-диске хранятся экспедиционные фотографии, как узнать, что с ними все в порядке, если контроллер привода не сообщает об ошибках, или оперативная память компьютера неисправна? Ответ прост. Необходимо открыть диск в файловом менеджере и просмотреть все фотофайлы. Посмотрим на фотографию-образец (Рис. 5), опубликованную в фотогалерее конференции 2004 года, на сайте Международной ассоциации звуковых и аудиовизуальных архивов (http://www.iasa-web.org).

Рис. 5 Поврежденный снимок из фотогалереи сайта Международной ассоциации звуковых и аудиовизуальных архивов (http://www.iasa-web.org/image/104).

    С точки зрения привода CD/DVD-ROM, файл не содержит ошибок. Программа просмотра изображения также не сообщает о повреждениях. Только человек может определить, что фото отображается некорректно. Как же быть, если в архиве несколько тысяч таких компакт-дисков с фотографиями, ведь сотрудников, которые будут осуществлять регулярную проверку и так не хватает?

    В области компьютерных технологий и в сети Интернет довольно длительное время используются контрольные суммы файлов. Специальная программа посчитает такие суммы как для отдельной, так и для всех фотографий хранящихся на носителе.  Файл контрольной суммы, как правило, текстовый и содержит значение суммы всех байт составляющих файл. Теперь, для проверки файлов не нужно пристально рассматривать каждую фотографию. Если в ходе проверки изменился хоть один байт, будет выдано сообщение об ошибке. С материалами, хранящимися на переносном жестком диске объемом, например, 1 гигабайт, поступают проще - компьютер оставляется на ночь, а утром можно будет ознакомиться с результатами проверки.

    Для подсчета контрольных сумм типа MD5 или SHA3 используются более сложные расчеты. Их алгоритмы рассчитаны скорее на безопасность, но могут использоваться и в архивном деле. Когда говорят, что такой-то алгоритм шифрования взломан, то это значит, что удалось так поменять несколько байт местами, что общая сумма оказалась прежней, в то время как содержимое файла не соответствует оригиналу. Применительно к архивам, поменять байты местами может только неисправный контроллер привода CD/DVD-ROM, или поврежденная оперативная память компьютера. К счастью алгоритм SHA2 более стойкий к подобным ошибкам.

    Само собой, хэш4 для архивных файлов рекомендуется создать как можно раньше. Идеальный вариант, когда собиратель вернулся из экспедиции, скопировал фотографии на жесткий диск и сразу же создал хэш-файлы. Предположим, собиратель так и сделал. Сформировал каталог, посчитал хэш-файлы, записал данные на диск DVD и сразу же создал его страховую копию. Чаще всего, как уже упоминалось выше, помимо компакт-дисков, файлы хранят и на переносном жестком диске. Например, переносные жесткие диски предусмотрены в фонотеке Удмуртского ИИЯЛ УрО РАН (г. Ижевск). Оригинал и его страховочную копию на одном диске не размещают.

    Учитывая данные обстоятельства, в Фонограммархиве ИЯЛИ КарНЦ РАН был проведен следующий эксперимент. На два диска DVD+R была записана одна и та же информация – экспедиционные аудиозаписи. После чего, диски искусственно повреждались (царапались).

Рис. 6 Нанесение искусственных повреждений на поверхность диска DVD.

    Один диск представлял оригинальную единицу хранения (основной фонд), другой – его резервную копию (страховой фонд). Таким образом, если будет утрачен диск основного фонда, есть возможность его восстановить с помощью страховой копии.

    Поврежденные диски устанавливались в привод DVD-ROM, с целью прочитывания информации (интересно, что четыре поперечные царапины полностью приводят диск в негодность, привод сообщает, что диска нет). В процессе копирования, в местах повреждений, устройство не могло перенести информацию в компьютер, поэтому использовались специальные программы (Non-Stop Copy «http://dsergeyev.ru» и Super Copy «http://www.snhp.narod.ru/scopy.html»), цель которых «обойти» нечитаемые области и скопировать то, что удается прочесть.

Рис. 7 Чтение файлов с поврежденных носителей с помощью программы Super Copy.

    Разумеется, в ходе такого копирования материал попадает в компьютер частично утраченным. Ожидалось, что с помощью специально написанной программы удастся заменить поврежденный участок одного файла, точно таким же, уцелевшим фрагментом другого файла, его страховой копии. Однако, это не осуществить в случае, если оба файла разных дисков получат повреждение на одном участке. Случай редкий, но вполне вероятен. Если же повреждены оба диска, то материалы восстанавливают с переносных, USB-жестких дисков. Что, если и на таком диске файл поврежден, ведь контрольная сумма не восстановит материалы собирателя? Существуют системные программы, выполняющие для архивов очень полезную работу. Речь идет о таком способе хранения, при котором допускается восстанавливать информацию даже из поврежденных файлов.

    Когда работает компьютер, пользователю кажется, что никаких ошибок нет, фотографии отображаются, звук проигрывается, тексты рукописей в порядке. Между тем происходит множество ошибок при чтении информации с носителей. Например, случайно толкнули системный блок работающего компьютера. А ведь там постоянно вращается жесткий диск и в момент даже легкого удара, головка электромагнита немного смещается, что неизбежно приводит к ошибке чтения. Об этих ошибках пользователю не сообщают, компьютер способен исправить их самостоятельно используя так называемые коды Рида-Соломона5.

    Чтобы не описывать алгоритм, очень приблизительно сообщу, что для оригинального файла-документа составляется специальный защитный файл, содержащий код, способный восстановить практически любой фрагмент оригинала. Чем объемнее этот защитный файл, тем более существенные повреждения допускается наносить оригинальному файлу. Кстати, обычный компакт-диск объемом 700 мегабайт, вмещает гораздо больше информации6. Только вся она скрыта и отдана под защитный код, поскольку преград на пути лазерного луча довольно много.

    Алгоритм избыточных корректирующих кодов Рида-Соломона применен, например, в программе Recovery Star http://art-drobanov.narod.ru/, а также в приложении ICE ECC "http://www.ice-graphics.com", рекомендуемом сотрудникам архива. Оба приложения бесплатны. Из более ранних программ достаточно вспомнить архиватор RAR «http://www.win-rar.ru». В создаваемые rar-архивы можно было добавлять избыточную информацию для восстановления. На мой взгляд, ICE ECC более удобна в использовании. В ходе различных экспериментов показала себя с положительной стороны и сегодня активно используется в Фонограммархиве ИЯЛИ.

Рис. 8 Выбор файла для обработки в ICE ECC и указание степени избыточности.

    Как осуществляется обработка? В программе выставляется значение Redundancy (избыточность) 100%, что позволит восстановить исходный файл даже при полном повреждении оригинала (в Фонограммархиве удалось подтвердить это путем эксперимента).

Рис. 9 Результат обработки с использованием избыточности 100%.

    Процесс требует больших затрат по времени. Обработка видеофайла объемом 4 гигабайта занимает до получаса времени на двухъядерном процессоре компьютера, с оперативной памятью 2 гигабайта. После обработки на один диск основного фонда записывается оригинальный файл (видеофайл, фотография и т.д.), на другой диск страхового фонда - защитный ecc-файл.

Рис. 10 Оригинал основного фонда (слева) и резервная копия страхового фонда (справа).

    Таким образом, оба диска содержат одинаковое количество файлов, имена файлов совпадают, но содержимое файлов и их расширения различаются. Для оригиналов и копий используют носители разных фирм, или партий7. Предпочтителен диск DVD+R (наш опыт показал, что DVD-R более подвержен выходу из строя). Третий носитель в Фонограммархиве, это переносной жесткий диск. Там хранятся только защитные файлы ICE ECC.

    Поскольку оригиналами не пользуются, на руки выдаются копии фонда использования. Хотелось бы немного сказать о таком фонде, так как в нем содержатся сжатые материалы. Поскольку свойства слуха и зрения человека «работают» в узком диапазоне, то частотные характеристики звука можно немножко ухудшить. В связи с утомляемостью при рассматривании мелких деталей в изображении, специальный алгоритм сжатия объединяет точки и кодирует их, что также ухудшает качество исходной фотографической единицы хранения. Тем не менее, материалами можно пользоваться без каких-либо трудностей, тем более что сжатие дает выигрыш, например, в объеме файлов фонда использования и отчасти защищает авторское право. К сожалению, подобная оптимизация не всегда используется в научной среде, поэтому на некоторых исследовательских вэб-сайтах материал затруднительно скачать с использованием, например, дешевых USB-модемов. То же касается файлов презентаций, демонстрируемых в научных докладах на конференциях. Громоздкость PowerPoint-файла презентации и его долгое открытие в программе, сокращает и без того короткий регламент выступления. Документы фонда использования позволяют без ощутимых искажений демонстрируемых материалов сжать такую презентацию в десятки раз. Само собой там, где потребуются мелкие детали, степень компрессии уменьшается, а размер изображения увеличивается.

    После того, как диски были записаны, в журнале мониторинга ставится отметка. Несмотря на гарантию производителя компакт-дисков обещающую срок службы продукта до 100 лет, в силу разных причин, в течение полугода-год, некоторые диски «теряют» информацию. Причем даже те, которые эксплуатировались после записи всего 1-2 раза. Даже по сообщениям на многочисленных форумах8 неясно, по каким причинам диск становится не читаемым. Причем это может быть диск даже одной партии.

    После назначенного в журнале срока, производится проверка. Самый быстрый и точный способ проверки - подсчет контрольных сумм. В случае ошибки чтения, файл копируют из резервной копии страхового фонда, формируя новый диск, в худшем случае восстанавливают с помощью программы ICE ECC.

Рис. 11 Проверка хэш-файла (зашифрованная контрольная сумма) средствами файлового менеджера Double Commander «http://doublecmd.sourceforge.net» в операционной системе Ubuntu Linux 13.04 «http://ubuntu.ru».

    В журнале мониторинга ставится отметка о замене единицы хранения. Однако, если после указанного в журнале срока, информация с диска успешно копируется, то дальнейшее хранение вполне может соответствовать гарантийному. Так, записанный в 1998 году в Фонограмархиве диск CD-R Verbatim, содержащий программное обеспечение, до сих пор не имеет ни одной ошибки чтения, хотя эксплуатировался нещадно (имеет незначительные царапины) и безотказно служит вот уже на протяжении 15 лет.

    В течение контрольного срока, оригиналы не рекомендуют удалять с жесткого диска. Это при том, что одна копия уже хранится на переносном жестком диске. Все это, при непрерывно поступающих экспедиционных материалах, создает другую проблему - переполнение дискового пространства.

    Через год, после очередной операции проверки данных, информацию с рабочего жесткого диска можно удалить, особенно при наличии переносного USB-диска, хранящего тот же материал. Хочется надеяться, что стримеры LTO подешевеют, а вместимость картриджей возрастет. Тогда оригиналы и копии можно будет смело хранить на носителях ленточного типа, проверенных временем.

    Итак, что дает предложенный способ хранения:

   1.  Достигается почти 100% надежность хранения за счет использования избыточности информации.

   2.  Регулярный мониторинг позволяет своевременно выявить и осуществить замену единиц хранения.

   3.  Появляется ранее не рекомендуемая возможность хранить упакованные материалы (сжатые архиваторами 7zip, Zip, Rar и т.д.)

   4.  Проверка данных на носителях большой емкости допускает автоматический режим работы по расписанию. Сотрудник лишь просматривает отчет и принимает решение.

   5.  Метод «работает» для всех организаций, использующих электронные документы.

    В заключение хочется отметить, что работы в электронном архиве ничуть не меньше, чем в нецифровом и задача сотрудников, сохранить электронные документы до прихода совершенных носителей информации. Также необходимо следить за устареванием форматов, чтобы всегда была возможность преобразовать хранящийся документ в новый формат без потери содержимого. В связи с этим, в Фонограммархиве на диск записываются программы, способные преобразовать хранящиеся файлы в другие форматы, кроме того размещается приложение ICE ECC. На сегодняшний день, в кабинете звукозаписи, продолжаются работы по формированию ECC-архива и постепенно происходит реорганизация с учетом вышеизложенных рекомендаций. Дополнительную информацию можно почерпнуть из вэб-сайта «http://arstandard.narod.ru/»9, рассматривающего вопросы сбора, обработки и хранения электронных документов собирателя.


1 "Копирэффект возникает через несколько дней после записи, поэтому предупредить его очень легко. Сразу после записи, лента оставляется неперемотанной. Таким образом, копирэффект будет "заглушен" самой записью". См. «http://www.ngpedia.ru/id110838p1.html»

2 В.А. Устинов.  Прогнозирование долговечности архивных документов «http://barsic-cat.narod.ru/tkt/archive/06_2001/ustin.htm»

3 Такие контрольные суммы принято называть алгоритмами хеширования, или просто хэшем.

4 См. «http://www.nestor.minsk.by/kg/2006/18/kg61802.html»

5 Иван Рощин. Использование избыточной информации для защиты файлов от повреждений «http://ivr.webzone.ru/articles/recovery/index.htm»

6 Крис Касперски. Секреты недетского прожига лазерных дисков «http://citforum.ru/hardware/pc/800_com»

7 CD, DVD срок хранения данных (Страница 3) «http://forum.ixbt.com/topic.cgi?id=64:1656-3»

8 Выбор лучших болванок для записи на DVD-+R/RW (часть 2) «http://forum.ixbt.com/topic.cgi?id=31:26320»

9 Указанный сайт является «мастерской» основного сайта «http://rst.krc.karelia.ru», находящегося на официальном сайте Академии Наук КарНЦ РАН «http://www.krc.karelia.ru»


Назад