Главная страница Составление описей (метаданных) |
В каком формате хранить описи?
Без описей, Фонограммархив - это лишь звуковые файлы. Фотографии без описания - это картинки, на которых изображен кто-то. Видеозаписи без сопроводительной информации, это фильмы, в которых участвуют неизвестные личности. Описи, в прошлом веке заполняемые как правило от руки, в первую очередь и в самые кратчайшие сроки должны быть сфотографированы1 (если нет возможности их ввода в базу данных в ближайшее время).
К сожалению, на семинарах и конференциях, в разговоре о базах данных, практически не обсуждается вопрос, в каком виде все это будет храниться. Исследователю-гуманитарию не до структуры файлов базы, а программистам меньше всего приходится думать о правилах архивного хранения данных. В итоге, если "повезло", то база данных работает отменно, а также имеет функцию импорта-экспорта в простейшие форматы файлов (например, *.txt). В этом случае, не нужно беспокоиться о сохранности данных в связи с устареванием форматов файлов баз данных и, как следствие, невозможности прочтения описей.
На мой взгляд, основными правилами для любого архива являются:
1. Долговечность хранения данных (низкая "чувствительность" к смене форматов).
2. Простота использования (хранение в незашифрованном виде).
3. Стойкость к повреждению данных (содержание избыточной информации).
4. Регулярный мониторинг (копирование файлов на жесткий диск компьютера для проверки целостности данных).
Близкий к желаемому, является формат описей HTML с текстом в кодировке Unicode (UTF-8), хуже и менее рекомендован XLSX. Если уже создана база данных, то необходимо попросить программиста добавить в СУБД функцию экспорта всей информации базы в HTML (согласно структуре указанной ниже), либо в формат файла приложения Microsoft Excell (*.xlsx).
Это рекомендуется для того, чтобы в случае внезапного прекращения поддержки программистом вашей базы данных, наняв другого, можно было легко перенести все данные в новую базу данных (если новый программист, в силу различных обстоятельств, не может осуществлять программную поддержку существующей СУБД и даже БД).
Поскольку такой специфической и, главное, простой программы для набора описей в формат HTML нет (во всяком случае не приходилось встречать), то ничто не мешает печатать текст в LibreOffice Calc (или в программе Microsoft Excell), с регулярным сохранением всего текста в HTML.
Подбор универсальных полей базы.
Этот вопрос решается непросто. Дело в том, что во всех архивах давно уже сложилась своя структура документа и мало кто пожелает вносить изменения. Но если использовать некоторую единую подборку полей, то возникает определенного рода "совместимость" с описями всех архивов Страны (не будем пока "заезжать" в другие страны). Учитывая то обстоятельство, что через несколько десятков лет все архивы объединятся (к несчастью, а, может быть, к счастью этому активно способствует сеть Интернет), с единой структурой мы уже сегодня создадим условия для легкой интеграции данных. Если такого не сделать сейчас, то работы у следующего поколения сотрудников архива прибавится. А сегодня, мы и так заняты набором текста в компьютер, так есть ли разница в какой структуре оформлять, в своей, или в унифицированной?
Поля могут следовать в указанном порядке, однако нет весомой причины, чтобы выбрать другой порядок. Даже простым перетаскиванием колонок в Microsoft Excell, можно создать условия для комфортной работы (целостность данных при этом не нарушается).
Также рекомендуется придерживаться "стандартных" названий полей, ведь именно по ним будет ориентироваться программа-объединитель данных. Впрочем, и это не проблема, ведь в "объединителе" будут присутствовать как общепринятые поля, так и найденные в файле-описи аналоги. Останется "протянуть" к ним "нити" и выполнить объединение данных.
Рекомендуемые поля для описания аудиозаписей
Взглянем на структуру полей, которая была рассмотрена В. Н. Денисовым (УИИЯЛ, а также Фонограммархив Пушкинского Дома):
Согласно архивным требованиям, основными параметрами (полями) описания каждой единицы хранения должны являться:
1. Архивный номер.
2. Номер коллекции.
3. Порядковый номер в коллекции.
4. Скорость записи.
5. Качество записи.
6. Вид фонограммы (моно/стерео).
7. Начальная строка записи.
8. Наименование записи.
9. Жанровые обозначения.
10. Язык; этнос.
11. Количество исполнителей.
12. Дата записи.
13. Район бытования.
14. Перечень собирателей.
15. Исполнитель/исполнители.
Достаточно подробно, но некоторые поля по-желанию можно исключить, а кое-что и добавить, обоснуем. Во-первых, относительно первых трех полей. В Фонограммархиве ИЯЛИ КарНЦ РАН (г. Петрозаводск) архивные материалы представляют собой магнитные ленты или компакт-кассеты, имеющие уникальные номера. Если исследовать журналы описей, то можно выделить группы номеров-кассет, принадлежащих конкретной экспедиции. Однако, никакого подобного деления (на коллекции) ранее не осуществлялось (за ненадобностью?), поэтому в базе данных петрозаводского Фонограммархива фигурируют два главных поля - номер ед. хр. и номер отдельной записи (номер трека).
"4. Скорость записи" - поскольку скорость воспроизведения магнитофона (скорость записи магнитофона в экспедиции) влияет на качество, то проще будет использовать одно поле "Качество записи", сэкономив на объеме и ускорив работу базы. В виду того, что оцифрованная запись имеет один формат независимо от скорости воспроизведения магнитофона, последующая реставрация будет одинакова для любых материалов. По типу звучания иногда можно определить скорость записи.
"6. Вид фонограммы (моно/стерео)" - в принципе, это можно добавить в примечания. Будем ли отбирать записи по признаку "стерео-моно"? Обычно, при подготовке сборника пытаешься найти хотя бы полные записи среди отрывков не говоря уже о стереофонической записи.
"7. Начальная строка записи", "8. Наименование записи" - в Фонограммархиве два этих поля объединены. Если нет названия песни, дается ее первая строка.
"11. Количество исполнителей", "15. Исполнитель/исполнители" - практически два одинаковых поля. Однако, заметим, что в петрозаводской базе данных группы исполнителей собраны в "фольклорные группы". Сначала поет одна исполнительница, затем она сообщает, что в деревне они поют группой. Собиратель ищет и объединяет их, после чего производит звукозапись. Конечно удобно вместо перепечатывания десятка имен вписать "фольклорная группа деревни N" и перейти к заполнению следующей единицы хранения. Но такое деление несколько усложнит базу данных. Появится еще один справочник (а может и несколько). Простой способ, это указать фамилии поющих, а в примечаниях отметить принадлежность к фольклорной группе. Вообще, поле примечаний не ограничивается в объеме, оно должно быть универсальным. Все незначительные детали по вносимой единице хранения должны быть учтены.
Недостающие поля:
Есть ли напев? Бывает необходимо при формировании сборника плачей. Есть ли инструмент? Очень нужно для инструментального сборника.
Составим новый список для фонозаписей:
01. Номер единицы хранения (номер магнитной ленты/кассеты).
02. Номер трека (если файл разделен на части), или Время (позиция в аудиофайле - час: мин: сек).
03. Название, или первая строка произведения.
04. Жанр.
05. Язык, этнос.
06. Инструмент.
07. Наличие напева.
08. Исполнители.
09. Собиратели.
10. Место фиксации.
11. Дата.
12. Качество.
13. Шифр.
14. Доступ.
15. Примечания.
Насчет названия поля "10. Место фиксации" можно поспорить, но если найдется универсальное название, оно будет использовано. Ранее это поле называлось "Место записи". Поле "11. Дата" также имело название "Дата записи", но при фотосъемке так не скажешь, поэтому использовано универсальное значение. Тоже самое насчет "12. Качество" = "Качество записи (хорошее, удовлетворительное, низкое)", "13. Шифр" = "Шифр в рукописном архиве" и "14. Доступ" = "Доступ к записям"
"05. Язык; этнос" - язык может быть карельский, южнокарельский, северно карельский и т.д. В этом случае создают еще одно поле (или справочник), например, "Подъязык". Но на мой взгляд проще все это добавить в поле "05. Язык; этнос" упростив тем самым базу.
"14. Доступ" - это поле я добавил взглянув на систему именования Н. В. Ушакова. Там поле названо "запреты". Доступ определяет возможности при использовании материалов в научной работе. Если исполнитель, или собиратель указал особые распоряжения относительно единиц хранения, то это указывается в данном поле, а детали в примечаниях. Наверное тоже можно как-то унифицировать: "Разрешено прослушивать, запрещено публиковать", "Публиковать с разрешения автора/другого лица (см. прим.)", "Разрешено пользоваться с определенной даты (см. прим.)", "Особые указания (см. прим.)" и так далее. То есть гибкость поля определяется примечаниями, ведь всегда есть какие-то особые указания (в некоторых случаях указывают адреса и телефоны правообладателей).
Иногда можно встретить и специфические поля, например:
- Марка магнитофона, на котором производилась оцифровка.
- Марка звуковой карты, через которую передавался звук в компьютер.
- Информация об используемом компьютере, операционной системе, программном обеспечении (см. Стандарты, практические рекомендации и стратегии).
Даже не знаю насколько они значимы, но все равно указываю, вдруг кто посчитает их необходимыми. Что дает название оцифровочного магнитофона? Неужели найдется время и сотрудники заново оцифровать весь фонд на обновленных магнитофонах? В финансовом отношении это почти неподъемный проект хотя бы в плане заказа на сборку аппаратуры высшего класса. Если реставрировать записи, то практически ни одна программа не порекомендует использовать шумовой профиль, скажем, магнитофона "Маяк 205". Шумы очень разные и к каждой записи применима своя последовательность шумоочистки. О магнитофоне можно сообщить в примечаниях.
То же насчет марки звуковой карты. Звук теперь на цифровом носителе и имеет некоторые характеристики. Что дает тип оцифровочной карты? Возможность устранить собственные помехи карты Sound Blaster Audigy-2? Хорошо, уберем. Теперь будем искать и устранять помехи усилителя магнитофона "Ростов 112"? Компьютер, программы и операционная система, это также лишние поля, они ничего не дают. Но стоит заметить, что работа специалиста по оцифровке это некоторое этнографическое явление, которое в будущем могут исследовать, так же как сегодня фотографируют граффити на асфальте, или детские надписи и рисунки, выполненные на грязных кузовах автомобилей. На Западе это модно.
Таким образом, отобранные поля хорошо описывают хранящийся материал, а поле "Примечания" гибко расширяет базу данных. С помощью простой программы можно "распарсить" (разделить по деталям, найдя соответствия) поле примечаний для того чтобы имеющуюся информацию рассортировать по каким-то новым полям, или дополнить основные поля.
Также встречалось поле "Номер по порядку". Мы такие номера часто видели в различных журналах и описях. Эти номера присваиваются определенной строке и никогда не меняют своей позиции. Например, удалили номер ед. хр. обозначенный как "2" и он навсегда пропал из описи. Никакая единица хранения не может занять место "2". Для целостности данных это хорошо, но в базе данных используются свои уникальные номера - ключи, поэтому исключаем его из списка, ведь уникальным в архиве является номер единицы хранения. Не может быть двух разных записей с одним и тем же номером, разве что копии у которых есть свои описи и свои базы данных. Интересно, что фонд использования звукозаписей может иметь те же номера, что и основной фонд, но тип файла (Vorbis OGG) кардинальным образом отличается от Microsoft PCM WAV, что хранится в основном фонде и поэтому любой пользователь его без труда опознает. Таким образом, казалось бы абсолютно одинаковый на слух звук имеет совершенно разные характеристики в цифровом мире.
Рекомендуемые поля для описания видеозаписей близки аудиозаписям:
01. Номер единицы хранения.
02. Номер видеотрека (если файл разделен на части), или Время (позиция в видеофайле - час: мин: сек).
03. Название, или первая строка произведения.
04. Жанр.
05. Язык, этнос.
06. Инструмент.
07. Наличие напева.
08. Исполнители.
09. Собиратели.
10. Место фиксации.
11. Дата.
12. Качество.
13. Шифр.
14. Доступ.
15. Примечания.
Дополнительные и неиспользуемые поля: "Марка видеомагнитофона, на котором производился видеозахват", "Марка кинопроектора (или другого оборудования), на котором производился видеозахват (сканирование кадров)", "Тип (стандарт) видеоносителя (VHS, SVHS, Video-8, DV, Кинопленка)", "Марка карты видеозахвата, и марка звуковой карты, посредством которых данные поступали в компьютер, "Информация об используемом компьютере, операционной системе, программном обеспечении".
Известно, что видеомагнитофон стандарта Super VHS качественней оцифрует видеокассету (четче картинка). Но видеомагнитофоны "супер" достаточно редки и имеют высокую стоимость, поэтому в России оцифровывают посредством VHS магнитофонов. Если это не так, то указать тип магнитофона для видеозахвата можно и в примечаниях, либо в описании к базе данных.
Рекомендуемые поля для описания фотографий.
Прежде взглянем на систему именования, которой активно занимается Н. В. Ушаков (Кунсткамера, МАЭ РАН)2:
Кратко:
Имя файла
Описание
Полнее:
1. Номер
2. Краткое название
3. Этнос
4. Место
5. Дата
6. Собиратели
7. Запреты
8. Дополнение
9. Примечания
(перечислены не все поля).
Теперь определим поля базы для фотофайлов:
01. Номер единицы хранения (номер фотопленки, номер-имя каталога).
02. Номер фотографии (номер кадра/слайда, фотофайла).
03. Описание.
04. Этнос.
05. Собиратели.
06. Место фиксации.
07. Дата.
08. Качество.
09. Шифр.
10. Доступ.
11. Примечания.
Любопытно, что поле "Примечания" становится универсальным. Наверное можно каким-то особым образом сформировать это поле, чтобы сделать его более информативным. Скажем, использовать какой-то определенный набор слов или обозначений для поля и так далее (см. Основы построения баз данных для архивных единиц хранения).
Также необходимы поля и для текстов (расшифрованных полевых дневников и прочих записей). В рукописных архивах имеются свои поля и они будут в дальнейшем здесь рассмотрены.
Если текст предварительно набирается в программе LibreOffice Calc (или в программе Microsoft Excell), то первой строкой вводятся названия вышеуказанных полей. Теперь "базу" можно заполнять. Для того, чтобы "не потерять" заголовки полей во время пролистывания строк (записей), их можно закрепить. В программе Excell (Microsoft Office 2007):
1. Выделить заголовок
2. Вкладка "Вид" - Закрепить области - Закрепить верхнюю строку.
При пролистывании верхняя строка всегда остается на месте (в LibreOffice Calc аналогичная функция пока не найдена).
Можно использовать параметр "Закрепить области" (Снять закрепление областей), если строк несколько.
Для перемещения колонок (столбцов) в программе Excell (Microsoft Office 2007) необходимо выделить столбец, кликнув левой кнопкой мыши по его заголовку (весь столбец потемнеет, будет выделен). Также столбец будет обрамлен черной рамкой. Необходимо поднести указатель мыши к рамке, чтобы белый крестик сменился на значок четыре разнонаправленные стрелки (перемещение). Затем нажимается и удерживается клавиша [Shift] и при помощи нажатия и также удерживания левой кнопки мыши столбец переносится влево или вправо. Пока вы не отпустили кнопку, а затем и клавишу [Shift], программа будет указывать новое положение колонки вертикальным пунктиром. После отпускания кнопки мыши и клавиши колонка будет вставлена в новую позицию, при этом, все колонки (находящиеся теперь справа) сдвинутся в правую сторону.
Так работает вставка. Если [Shift] не нажимать, то Excell спросит перед вставкой "Заменить содержимое конечных ячеек?". При утвердительном ответе, прежде занятое место, перед вставкой, будет очищено.
Исправить текст в ячейке - [F2], перенести текст в ячейке на следующую строку - [Alt]+[Enter] (в LibreOffice Calc эта функция пока отсутствует).
Что это все дает? Используя предложенные рекомендации можно сформировать базы данных с универсальными полями. Такие базы можно объединять. В российских архивах используются базы данных в виде программы "Архивный фонд" (см. также Автоматизированные архивные технологии), но АФ имеет большое число полей, которые собиратель вряд ли станет заполнять. Применение же десятка предложенных полей систематизирует материалы полевика, а в случае передачи материалов окажет большое подспорье сотрудникам архива при приеме и учете единиц хранения.