Главная страница
Сканирование документов
Опыт сканирования фольклорного рукописного архива Института ЯЛИ КарНЦ РАН1



Приложение ScanExpress управляя сканером Mustek A3 1200 pro считывает лист рукописи.

    Работы по сканированию рукописных документов выполнялись в рамках проекта по созданию информационной системы фольклорного архива Института языка, литературы и истории КарНЦ РАН2. Это не только перевод ручных записей в электронную форму, но и создание архива нового поколения. В связи с этим потребовалась выработка определенной методики и стандартов, связанных с техникой сканирования, что позволило бы как можно грамотнее выполнить поставленные задачи.
    Хранение документов в электронном виде дает выигрыш не только в скорости поиска необходимых записей, но и создает удобство работы с архивом. Отсканированные материалы можно отправлять по электронной почте, публиковать в сети Интернет или распечатывать на принтере. Копирование электронных документов происходит быстро и без потерь в качестве.
    Как правило, исходные документы (фольклорные коллекции) представляют собой различной толщины подшивки, тетради с записями от руки или машинописные листы. Преобразование в электронный вид подразумевает создание такой электронной копии бумажного документа, при печати которой получается документ по качеству не хуже оригинала.
    Существует два вида электронного представления такого рода информации: графическое и текстовое. Под графическим понимают перевод в электронную форму всего изображения документа (раньше таким образом выполняли микрофильмирование книг). Текстовое представление лишь по содержанию повторяет исходный документ, визуально же не имеет ничего общего с первоисточником. Например, при подготовке к печати словаря поморского языка И.М. Дурова преследовались две цели. Первая – компьютерный набор текста словаря. Вторая – сохранение оригинала рукописи в электронном виде. Для целей набора качество картинки должно обеспечить лишь хорошую читаемость букв и слов. Если же потребуется печатать фотографии исходных тетрадей, то такого качества уже недостаточно.
    При планировании работ по сканированию оригиналов рукописного архива Института ЯЛИ, процесс выполнения представлялся четким и ясным. Единицы хранения (листы тетрадей) пропускаются через сканер. Затем, полученные файлы собираются в каталогах жесткого диска компьютера. Наконец, графические файлы записываются на электронные носители, например DVD+R. Однако, позже возникли вопросы, которые потребовалось решать уже в процессе выполнения проекта. По причине того, что страницы тетрадей имеют разный размер, автоматически изменяются и расчетные цифры конечного объема электронного архива. Та же картина возникает в случае, если в тетрадях листы заполнены с обеих сторон. Некоторые страницы, подлежащие сканированию, со временем покоробились и в настоящее время уже не такие ровные и гладкие, а это влечет за собой дополнительное время на подготовку документов к сканированию. Тетрадь в отсканированном виде может потребовать более одного DVD+R диска для размещения электронных страниц, в результате чего количество «болванок» DVD+R возрастет. Сканирование одной страницы при высоком разрешении увеличивает время преобразования документа в электронный вид. Наконец, при многодневной, многочасовой и монотонной работе, неизбежны пользовательские, программные и аппаратные ошибки, поэтому, стоит учитывать обслуживание техники и программного обеспечения. В таких условиях необходимо проявлять ответственный подход и работать добросовестно, так как документы с годами устаревают (истлевают) и настоящая работа по сканированию может оказаться последним шансом сохранить архив.
    Сотрудники архива бережно относятся к документам, тем не менее, для качественного сканирования, тетради требуется расшивать. Дело в том, что книгу на стекле планшетного сканера всей поверхностью не разместить. В местах изгиба, сканирование края листа затруднено и будет произведено с потерей резкости. Сканирование всегда производится в цвете для того, чтобы сохранить подлинный вид документа. Если в дальнейшем цвет не потребуется, электронный документ всегда можно обработать в графическом редакторе, убрав цвет. Разрешение (количество точек рисунка по вертикали и горизонтали) для типографской печати обычно составляет 300 dpi (англ. dots per inch - количество точек на дюйм). Для архивных целей, в зависимости от ценности документа можно использовать значения от 600 до 1200 и даже более точек на дюйм. Однако, чем выше значение dpi, тем дольше производится сканирование страницы, тем больше объем графического файла. На практике, в зависимости от значения dpi, сканирование листа формата А4 может занять от 1 до 6 минут.
    Для сканирования можно использовать планшетные сканеры наподобие Mustek ScanExpress A3, Canon CanoScan, Epson Perfection и другие, приемлемые по стоимости. Уровень качества определяется при сканировании специальных тестовых страниц (тестовых мир). При подборе рабочего разрешения ориентируются на результаты, полученные после сканирования миры. Для объемного архива потребуется высокопроизводительный сканер, способный выдержать многочасовую нагрузку. Использование других типов сканеров, например, ручных или же фотографирование качественным цифровым фотоаппаратом не рекомендуется. При закупке компьютера, входящего в состав сканирующего комплекса, необходимо уделить внимание объемам жесткого диска, оперативной памяти и видеопамяти. Во избежание случайных потерь информации и последующего восстановления, создание дисковых массивов типа RAID исключается.
    Сканер поставляется с программным обеспечением для сканирования, в котором присутствуют настройки по умолчанию. Такие настройки рекомендованы заводом-изготовителем для конкретного типа сканеров. Менять их допускается только специалистом. Вообще, всяческая пост-обработка электронного документа должна быть исключена. Документ кладется изображением на стекло сканера, таким образом, чтобы строчки текста были параллельны краям стекла. Это исключит последующее вращение картинки в графическом редакторе, которое обязательно привнесет нежелательные точки в содержимом изображения. Одна из программ сканирования, которую можно порекомендовать – IrfanView (http://irfanview.com).
    При сохранении документов необходимо выбрать тип файла. Электронные архивные документы рекомендуется хранить в неупакованном виде, например, в формате TIFF-Uncompressed (несжатый растровый файл). При незначительном повреждении носителя (в данном случае, диска DVD+R), пропадет лишь часть видимых точек изображения. При использовании графических форматов с потерей качества при сжатии (JPG, PNG, TIF-Compressed), такое повреждение губительно практически для большей части всего файла. Однако, при использовании страховочного фонда применение этих форматов разрешено. Другая сторона вопроса касается быстро меняющейся техники и устаревания форматов. Если формат JPG устареет и исчезнет из пользования, то потребуется искать программу, которая «умеет читать» JPG, иначе доступ к архиву будет невозможен. Несжатые форматы имеют простейшие алгоритмы вывода картинки.
    Чтобы не усложнять выбор типа разрешения, можно порекомендовать JPG с низким коэффициентом сжатия (лучшее качество картинки), но с высокими значениями DPI, от 1200 до 24003. В первую очередь, необходимо провести ряд экспериментов по сканированию исходных материалов и определить потерю качества получающихся документов. Запланировать создание страховочного фонда.
    При формировании электронного архива графическим файлам даются имена, которые набираются латинскими буквами. Это дает безошибочное прочтение файлов программами типа СУБД. Кроме того, файлы с такими именами прочитываются в разных операционных системах всевозможных компьютеров пользовательского класса. На сегодняшний день формирование структуры файлового дерева Научного Архива ИЯЛИ практически завершено4.
    В электронном архиве не рекомендуется пользоваться основным фондом. Исключение составляют случаи создания резервного копирования и проверки состояния электронных носителей. После того, как архив отсканирован, создается пользовательский фонд. Исходное изображение посредством графического редактора или специальных программ уменьшается до таких размеров, при которых остается возможность свободного прочтения текста. Полученная картинка сохраняется на диск с использованием любых графических форматов, использующих высокие алгоритмы сжатия (рекомендуется JPG). Такими дисками можно пользоваться сотрудникам архива, выдавая документы посетителям. Полученные документы занимают мало места на внешних накопителях, они могут быть использованы при составлении презентаций и публикации на вэб-сайтах. Печать таких документов в типографии почти невозможна из-за низкого значения dpi и низкого качества картинки, что отчасти может служить своеобразной защитой авторского права.
    Наряду с преимуществами электронный архив имеет и недостатки. Во-первых, это недолговечность материала, из которого изготовлен диск DVD+R. Кроме того, информация на диске хранится в рабочем слое, который с двух сторон закрыт бесцветными дисками (пластинами). Если заливка лаком стыка двух пластин произведена некачественно, то вовнутрь диска попадет воздух, кислород в составе которого, может со временем разрушить отражающий слой алюминия. В результате чего, диск перестанет читаться. Во-вторых, высокая чувствительность DVD+R к механическим повреждениям. Продольные (по ходу лазерного луча) царапины на бесцветной пластине ведут к ошибкам во время прочитывания информации.
    Быстрое копирование всего диска решает проблемы, связанные с разного рода износами DVD+R. Учитывая это, необходимо запланировать резервное сохранение всего электронного архива через утвержденное количество лет. Из-за того, что выполнить такую задачу за один-два дня невозможно (в зависимости от объема архива), для электронного архива имеется специальная тетрадь, в которой отмечены даты записи дисков. Например, через 15-30 лет рекомендуется создать дополнительный страховочный фонд путем копирования всех дисков архива. Каждый год диски проверяются на чтение. В зависимости от объема, проверяется либо весь архив, либо по нескольку дисков из всех коллекций. На основании состояния страховочного фонда можно планировать дату следующего резервного сохранения. Оригинальные документы выбрасывать недопустимо, поскольку в случае утраты электронных носителей основного фонда (при отсутствии страховочного), документы потребуется сканировать повторно.
    Методики, рекомендации и принимаемые стандарты важны не только при планировании и выполнении работ по сканированию бумажных документов. Готовый электронный архив необходимо грамотно использовать, преподнести конечному пользователю, подготовить материалы для предстоящей публикации. Полученные сведения заметно облегчают работу, систематизируют данные и позволят сохранить архив будущим поколениям. С рекомендациями по технике сканирования можно ознакомиться в сети Интернет, по адресу http://rst.krc.karelia.ru. На сайте освещаются дополнительные вопросы, требующие детального рассмотрения: проверка сканирующего оборудования, подготовка вычислительной техники, формирование и организация каталогов, именование и запись полученных файлов на диск.


1 Статья опубликована в сборнике "Русский фольклор" Том XXXVI, материалы и исследования, стр 637. Санкт-Петербург 2012 г. ISBN 978-5-02-038307-4
2 Исследование выполнено при финансовой поддержке Российского гуманитарного научного фонда в рамках проекта «Создание информационной системы по фольклорному рукописному архиву Института ЯЛИ КарНЦ РАН», проект № 08-04-12144в.
3 Например, при сканировании документов Научного Архива ИЯЛИ, в силу разных причин, было утверждено разрешение 600dpi.
4 См. "Именование графических файлов отсканированных документов на бумажной основе"


    У данной статьи было продолжение под названием "Дополнительная информация к статье "Сканирование документов....", в котором говорилось о некоторой защите хранящихся отсканированных документов на бумажной основе. Суть была в том, что повреждение носителя (CD, DVD) приводит к повреждению хранящихся на нем файлов. Однако, если при сохранении графических файлов отказаться от устаревшего TIF в пользу графики PNG, то его параметр Progressive (также применим к файлам JPEG) позволяет отчасти защитить исходное изображение.



Повреждения файлов, сохраненных без параметра Progressive (Прогрессивная, для PNG - Чрезстрочность [Adam7])

    В качестве образцов, отображенных на снимке были взяты несколько графических файлов, сохраненных без каких-либо специфических параметров. С помощью специального текстового редактора (HxD Hex Editor - http://www.mh-nexus.de), часть содержимого в каком-то одном месте каждого файла заменялась нулями. В результате программа-просмотрщик не отыскав данные для распаковки изображения, выводила на экран что "смогла" (группу цветных точек, черный фон).
    При использовании чрезстрочности (в некоторых графических программах указывается Progressive), когда изображение в самом файле многократно повторяется, утрата группы байт данных (в разумных пределах) лишь частично повреждает рисунок. Таким образом, в продолжении основной статьи рекомендовалось сохранять отсканированные документы именно с вышеуказанными параметрами.
    Статья была подготовлена несколько лет назад. Сегодня основной фонд комплектуется любыми типами файлов при условии, что выбранный тип открывается более чем в одной программе. Словом, необходимо следить лишь за устареванием форматов. Материалы основного фонда всегда имеют особую копию. Более того, в другой статье "Подготовка и хранение файлов..." предлагается более совершенный способ хранения архивных мультимедиа файлов, при котором утрата единиц хранения сведена к минимуму.
    Параметры сохранения, о которых шла речь в этой, дополнительной статье, можно порекомендовать лишь для графических материалов фонда использования, поскольку часть из них может публиковаться в сети Интернет, где не исключены ошибки при скачивании/закачивании файлов.


Фотография отображается и операционная система сообщает, что файл в порядке, но только человек может заметить искажения.
Документ из фотогалереи вэб-сайта Международной ассоциации звуковых и аудиовизуальных архивов "http://www.iasa-web.org/image/104"


    Да, так бывает, когда "обкатывается" и применяется казалось бы уникальный способ хранения, а потом возникает более совершенный. Замечательный формат для архивного хранения изображений JPEG-2000 (точнее - "open-jpeg") так и остался невостребованным. Приближаясь по объемам сжатия к JPEG он практически без потерь упаковывает изображение попутно защищая его. Об этом формате пишет Плотников С. А. "JPEG 2000 – большой шаг вперёд для архивного сообщества" (Автоматизированные архивные технологии)


(C) Бовин В.Б.
Внесение изменений: 29.09.2010, 15.10.2010, 18.02.2011, 2.10.2013