Главная страница
Составление описей (метаданных)
Автозаполнитель - программа, помогающая описать экспедиционный материал


     В 2003 году, на Первом Конгрессе фольклористов, проводившемся в столице России, мне удалось впервые познакомиться с необычной идеей описания экспедиционного материала. Владимир Леонидович Кляус (скорее всего, это был он) предлагал вниманию участников секции очень интересный метод составления описей. Ориентировочно, суть в том, что в описи "попадает" мультимедийная информация. Например, такие описи содержат не только текст, но и ссылки на собранный аудио, видео и фотоматериал. Используется язык гипертекстовой разметки HTML. Идея не нова, но здесь доведена до логического завершения.
     Тогда я нейтрально воспринял информацию, поскольку считал, что всё всем понятно и обсуждать это незачем. Однако, на семинарах и конференциях, год за годом, по каким-то причинам, поданная автором мысль не продвигалась в массы (это здорово, если я ошибаюсь). Предлагались всевозможные варианты других описей вплоть до виртуальных деревень, по которым можно "бродить" в трехмерном пространстве.
     Все эти излишне привлекательные идеи на мой взгляд сложны для гуманитария, потому и не смогли получить распространения (исследователю как правило не до игр). Но я не стал бы их вычеркивать. Это прекрасные работы, богато сопровождаемые исследовательской информацией (см. Виртуальный тур по Государственному Эрмитажу).

     Что нужно исследователю, приехавшему из экспедиции? Как можно скорее сделать опись и кое-что расшифровать. Поскольку расшифровка сегодня ведется на компьютере, не трудно догадаться, что многие из нас тексты набирают в программе Microsoft Word. Что ж, это легко, это быстро, это можно уже публиковать. Опасность в том, что "текст" в файле "вордовского" формата содержит системную информацию и доступен только с применением конвертирующих алгоритмов Microsoft Word и подобных текстовых редакторов. Таким образом, на мой взгляд, подобный тип файла не может являться архивным форматом. Остается только традиционный текстовый файл (ASCII). Приблизить текст к формату Microsoft Word, может гипертекст - HTML, который и был безошибочно использован Владимиром Леонидовичем.
     Спустя шесть лет, на конференции, посвященной 100-летию Фонограммархива Пушкинского Дома ИРЛИ, Владимир Кляус, совместно с Павлом Викторовичем Фрейчко вновь представили вышеуказанный проект, который в силу разных причин снова не получил положительных откликов, а жаль. Идея положительна сразу по нескольким критериям, причем исключительно важным в архивном плане:

1. Сегодняшние материалы фольклорно-этнографических экспедиций, это комплексная информация (фотографии, видео, звук и расшифровки с описями), т.е. совершенно новый тип архивов будущего - мультимедийный.
2. Используется гипертекстовая разметка HTML, текст в формате которой доступен вообще на любом компьютере. Такой формат "переживет" какую угодно эволюцию вычислительной техники, поэтому мы убеждены, что вносимая информация надежно сохранится. Исходный мультимедийный материал остается в нетронутом виде (в опись "прикрепляются" материалы фонда использования: webm, ogg, jpg).
3. Применение HTML позволит программистам, с наименьшими затратами использовать информацию в базах данных.

     Мультимедиа-файлы структурируются уже на этапе подготовки к вводу их описания. Использование же традиционных баз данных для описания архивных данных снова возвращает нас к зашифрованным форматам, трудным для раскодирования, в отличие от HTML. Да, сегодняшние базы данных это удобно, это профессионально и современно, но без импорта-экспорта в простейшие текстовые форматы, обречено на "гибель" при смене баз данных или модификации форматов. Например, информация одной из первых баз данных Фонограммархива ИЯЛИ, набранная в 1997-1998 году, является частично недоступной, поскольку выполнена в старой программе без возможности экспорта данных хотя бы в таблицы Excell. Автору этих строк удалось выделить основные поля и извлечь до 95% данных в виде, пригодном для импорта в другие базы, но несколько полей пока не удалось идентифицировать. Таким образом, должна быть некоторая база данных, безопасно хранящая описи архива и другая - удобная для осуществления поиска этих описей. Это может быть одна база, в которой присутствует функция импорта-экспорта.

     К сожалению, основная причина, "сокрушающая" проект Владимира Леонидовича - сложность редактирования HTML-текста. Причем, использование достаточно "продвинутых" средств HTML-редактирования (html-программирования) не приводит к упрощению ввода данных. Это лишь частично устраняет недостаток. Пользователю необходимо держать в голове всю структуру описей со всеми ее взаимосвязями и знать действие десятка тегов HTML ("операторов" языка программирования) наизусть. Научиться легко, но у исследователя своих дел в достатке, поэтому времени изучать структуру HTML-языка нет. Летом 2011 года мы встречались с Владимиром Леонидовичем, который сообщил, что проект, скорее всего "дальше не пойдет", в силу вышеуказанных причин. Это опечалило, поскольку проект один из лучших. На мой взгляд, это один из основных видов хранения и представления информации архивов будущего. Здесь мы не просто "сбросили" все фотографии, звук и видео + описи в каталоги на диск, а сложили их в виде структуры, готовой к использованию каким угодно программным обеспечением, что очень важно для архива.
     Уже тогда, на конференции в ИРЛИ, видя безосновательную критику участников секции, у меня возникла идея сконструировать автосоставитель/автозаполнитель описей (метаданных). Таким образом, удалось бы устранить основной недостаток - сложность ввода информации. Я также подумал, раз В.Л. Кляус со студентами применяет данную методику, значит она уже достаточно "обкатана". В работе над материалами в Фонограммархиве, своих мыслей, кроме хранения всех описей в файлах *.txt, у меня не было.
     На протяжении полугода, связаться с В.Л.Кляусом насчет проекта было сложно, но у меня сохранились фотографии с конференции. Сама идея проста, поэтому реализация автозаполнителя не составляет исключительного труда и это только плюс для проекта. Мне нужна была консультация, чтобы получить все детали проекта, сформировав "дерево" HTML. Посчитав, что отдельная опись должна составлять какую-то ветвь архива, приступил к работе. Хочется сразу предупредить, что в программе могут присутствовать незначительные отклонения от основной идеи проекта В.Л.Кляуса.

     Представим, что в экспедицию собрались три участника (пускай даже 20 человек). Видеокамеры, фотоаппараты и диктофоны в наличии как у руководителя экспедиции, так и у студентов (либо исследователей-профессионалов). За время сбора фольклорно-этнографического материала, на руках участников экспедиции накопились флеш-карты с мультимедиа-материалами. Все эти файлы просматриваются (так сказать, просеиваются) и копируются в отдельные каталоги. Запускается программа, в которой вносятся основные данные по экспедиции, по собирателю и прочее, после чего указываются каталоги и вносится информация по каждому снимку, фрагменту видео, звукозаписи. Результатом работы программы является создание HTML-структуры, позволяющей работать с материалами архива в любом обозревателе Интернет. Полученная HTML-структура "подключается" к СУБД и может составлять одну из ветвей обширной базы данных архива. Одним из положительных качеств программ подобного типа, следует отметить отсутствие ошибок при вводе тэгов HTML-кода. Программа вообще скрывает от пользователя HTML-структуру, тем самым защищая данные, отделяя их от текста исследователя.

     На момент написания данного текста (февраль 2012 г.), необходимо "утрясти" вопросы с "подключением" описей всех участников экспедиции. Дорабатывается структура каталогов и возможность набирать описи ежедневно, находясь с портативным компьютером (ноутбуком) в экспедиции. Также, мне хочется максимально сократить количество используемых тегов HTML, чтобы в файлах оставить больше пользовательского текста. Внешний вид программы не привожу, поскольку основное окно еще не содержит нескольких полей для ввода текста. Программирование осуществляется в среде Lazarus, что позволяет программе работать в операционных системах Windows, Linux, Mac OS X. С самого начала программа задумывалась бесплатной (распространяется с исходным кодом), чтобы помочь небольшим архивам.
     Из отрицательных сторон "автозаполнителя" могу отметить хранение структуры (т.е. html-описи и мультимедийных данных) исключительно на жестких дисках, в виду огромных объемов мультимедиа-файлов, хотя, при использовании Blu-ray допустимо некоторое распределение единиц хранения.
     С другой стороны, если на жестком диске структура будет сформирована и зафиксирована, то отдельные, переименованные файлы можно записать на диски в какой угодно последовательности, поскольку при обратной "сборке" всех данных на жесткий диск, файлы вновь составят единое целое.

03.10.2013> В декабре 2012 г. посмотрел доклад В.Л. Кляуса Проблемы создания "Экспедиционного мультимедийного программного комплекса". Молодцы, очень близко подошли к созданию полевого архива. Мне как-то в голову не приходило организовать своеобразный сервис Вконтакте для полевых материалов. Есть даже экспорт данных. Все что нужно.

29.07.2015> Что-то подзадержался я с программированием. Кстати, оказалось, что музейным учетом и систематизацией электронных полевых материалов серьезно занимается Никита Вадимович Ушаков (Кунсткамера, СПб), имеет статьи по теме. Правда система довольно сложна, зато рассмотрена до мелочей. Я все еще не теряю надежды запрограммировать автозаполнитель.

     Можно вообще в этой "базе" размещать материалы фонда использования. Имена файлов-оригиналов в общем-то совпадут (надо подумать, подставить некоторый отличительный знак, скажем 00001-00001.jpg - оригинал и 00001-00001c.jpg - копия, где C - Copy). Значит эту мультимедийную опись с материалами можно будет разместить где угодно, а оригиналы искать уже по именам файлов. Отвлекаясь от темы и обращаясь к статье Н. В. Ушакова1 хочу согласиться с некоторыми трудностями при именовании файлов. Ушаков выделяет три стадии "движения" полевых материалов: полевая документация, камеральная обработка, архивация. Если в условиях экспедиции предполагается ввод информации в некоторую базу данных, или просто в текстовый файл описей, то фото, аудио и видеофайлам необходим дать имена. Так, стадия "полевая документация" позволяет создать собственную нумерацию материалов собирателя (индивидуальный выезд), "камеральная обработка" - нумерацию отряда собирателей. Что это дает? Уже в поле можно указывать ссылки на свои полевые материалы. Когда отряд состоит из сотрудников разных организаций, собиратель не может конкретно сказать в какой архив будут сданы его материалы, поэтому, например, в имени файла не указывается название организации (см. Ушаков Н.В.). По приезду из экспедиции, в архиве будет точно известен первый свободный номер единицы хранения, поэтому в процессе стадии "архивации", имена можно быстро и безошибочно поменять. Однако, в силу разных причин, первые две стадии как правило игнорируют, поэтому именование производится только в кабинете архива. Он также выделяет семь видов цифровых материалов:
1. Цифровые текстовые материалы
2. Цифровые иллюстративные материалы
3. Цифровые фото материалы
4. Цифровые аудио материалы
5. Цифровые видео материалы
6. Предметные материалы
7. Цифровые копии

Пояснение:
1. Текстовые записи – части полевых дневников (текстовых файлов)
2. Цифровые рисунки и чертежи, сделанные сразу в ноутбуке или сканы аналоговых рисунков и чертежей на отдельных листах *
3. Цифровые фотокадры – фото файлы
4. Цифровые треки – аудио файлы
5. Цифровые видеокадры – видео файлы
6. Цифровые фотокадры (фото файлы) вещей, чтобы было удобно оперировать вещевыми сборами в ноутбуке
7. Сканы или цифровые репродукционные фотографии аналоговых фотографий, рисунков и чертежей и рукописных, машинописных, печатных текстов информантов
-------------------
* Простые рисунки и чертежи можно сразу делать в ноутбуке, сложные рисунки и чертежи проще сделать сначала аналоговые - обычные рисунки и чертежи на отдельных листах, сразу сканировать их, и оперировать уже оцифрованным аналоговыми рисунками и чертежами

Никита Вадимович делит архив на семь видов цифровых фондов:
1. Цифровой текстовой фонд
2. Цифровой иллюстративный фонд
3. Цифровой фото фонд
4. Цифровой аудио фонд
5. Цифровой видео фонд
6. Предметный фонд (цифровые фотографии)
7. Фонд цифровых копий: сканов (фото)

Содержимое (семь видов цифровых материалов):
1. Цифровые текстовые материалы
2. Цифровые иллюстративные материалы
3. Цифровые фото материалы
4. Цифровые аудио материалы
5. Цифровые видео материалы
6. Предметные материалы (цифровые фотографии)
7. Цифровые копии – сканы (фото)

С учетом того, что экспонат снимают в нескольких ракурсах, то сумма цифровых фотографий конкретного экспоната обозначается дополнительным номером через подчеркивание: 625-25_001, 625-25_002, 625-25_003... (Методические разработки лаборатории аудиовизуальной антропологии МАЭ).

Видно, что методика учета у Никиты Вадимовича довольно подробно описывает фото и другие эеспедиционные материалы.


1 Ушаков Н.В. "Значение инструкции по регистрации коллекций МАЭ РАН Л.Я. Штернберга для полевой документации, камеральной обработки и архивации современных цифровых полевых этнографических материалов".

(C) Бовин В.Б.
Внесение изменений: 14.08.2011, 15.02.2012, 12.09.2012, 03.10.2013, 29.07.2015