Главная страница
Сканирование документов
Именование графических файлов отсканированных документов на бумажной основе


    Рекомендуемые имена файлов и каталогов (совместная разработка сотрудников Фонограммархива)
(Данные обозначения были приняты в Фонограммархиве ИЯЛИ - 13.12.2010)

    Сначала вашему вниманию предлагаю документ, затем кратко поясню.


Рекомендации по именованию файлов и каталогов отсканированных документов Научного Архива ФА ИЯЛИ на бумажной основе.

Имя для файлового каталога коллекции имеет следующий вид:
koll-01_fond-1_opis-1
где:
koll – обозначение коллекции
fond – обозначение фонда
opis – обозначение описи Научного архива КарНЦ РАН
Через дефис указывается порядковый номер коллекции. Разделение производится символом подчеркивания.

В каждой коллекции есть своя опись, ее имя имеет следующий вид:
koll-01_opis-01

Имя каталога тома имеет вид:
koll-01_tom-01
tom – обозначение тома

Имена каталогов тетрадей имеют следующий вид:
t01_ed001-022_032-098
t05_ed066-069_293-307ob

где:
t – тетрадь, в которой имеются единицы хранения.
ed – единица хранения
ob – оборотная сторона листа
Номер тетради, двузначное число, следует за символом «t» без дефиса.
После символа подчеркивания, через дефис указываются единицы хранения, расположенные в файловом каталоге.
Наконец, последние числа, также за символом подчеркивания, обозначают номера страниц-файлов, содержащихся в файловом каталоге. Если архивный лист имеет две заполненные страницы, то оборотная сторона отсканированного документа имеет в названии файла символы «ob». В данном примере указано, что последний лист тетради имел надписи на обороте.

Имена файлов, находящихся в каталогах тетрадей и томов:

k002_168_titul.jpg
k002_168_titul_ob.jpg
k002_169ob.jpg
k002_169.jpg
k002_170.jpg

k002_list_ucheta.jpg
k002_list_zaveritel.jpg
k002_oblozhka_t06.jpg

где:
k – коллекция (следом, без пробела указывается ее номер – трехзначное число)
titul – обозначение титульного листа
titul_ob – титульный лист имеет надписи на обороте
ob – оборотная сторона листа
list_ucheta – отсканированный лист учета
list_zaveritel – лист заверитель
oblozhka_t06 – обложка тетради №-6.
Здесь, симовол «t» обозначает обложку тетради. В случае, если в коллекции присутствуют каталоги тома, то обложка может обозначаться следующим образом:
k004_oblozhka_tom01.jpg
где:
tom – номер тома (номер ставится вплотную к надписи).


    Создание системы именований, нелегкий процесс. Папки и тетради, в которых находятся документы, формировались без жесткой систематизации, которую "любит" компьютер, поэтому приходилось что-то отвергать, что-то изменять.
    Первоначально, имена файлов были слишком длинными и состояли из букв русского алфавита (кириллица). Позже, они были переименованы в транслит, кое-где переведены на английский язык и, наконец, транслитерация была возвращена.
    При полном переводе названий на английский язык, возникли бы сложности с переводом на русский у лиц, которые не знакомы с языком. Однако, некоторые общепринятые сокращения (в Фонограммархиве вообще), хотелось бы оставить (audio, video, image и так далее). Поскольку документами по большей части пользуются сотрудники архива, то в научном архиве (документы на бумажной основе) имена файлов решено было оставить транслитерированными.
    В основном, задача стояла "безболезненно" укоротить имя файла. Во-первых, меньше символов - легче читать, во-вторых, проще обращаться из базы данных. И та и другая причина может быть просто выдуманы, хотя имена выглядят неплохо и согласно их простоте, переименование всего архива можно осуществить в самые кратчайшие сроки, с помощью несложной программы (например, написанной на Lazarus "http://www.lazarus.freepascal.org/").
    В имени файлового каталога (папки) было оставлено "koll" по причине небольшого числа папок, а вот в именах файла осталась лишь буква "k".
    Номера проставляются с добавлением нулей. Если всего единиц хранения около 999, то номера до десятки выглядят как 001, 002,... 009, а после десятки 010, 011,... 099,..999. Такое решение выбрано для последовательного отображения имен файлов в файловом дереве. В противном случае, порядок файлов может быть примерно таким:
k002_1.jpg
k002_10.jpg
k002_2.jpg
k002_3.jpg
...
k002_9.jpg
k002_11.jpg
k002_12.jpg
...
    Согласно кодировке символов в соответствии со стандартом ANSI, единица с нулем не может быть больше двойки. По той же причине оборот отсканированного листа обозначен как "ob", вместо "_ob" (подчеркивание выводится первым).
Титульные листы и обложки встречаются в начале списка и в конце, поэтому в тех местах символ подчеркивания был оставлен.
    У нас возникли трудности относительно буквы "t", означающую либо ТОМ, либо ТЕТРАДЬ, в которых расположены единицы хранения - папки со стопкой отдельных листов. Верно, в действительности том, или тетрадь представляют собой обыкновенную папку (единицу хранения), в которой находятся листы документа. По непроверенным же данным, существует определенное число единиц хранения, свыше которого создается новый том. Например, тетрадь/папка не может содержать 1000 единиц хранения. Для тысячепервой и последующих создается следующий том.
    Строго говоря, необходимо тщательно внедряться в этот вопрос как программисту, так и сотруднику архива. Обоим потребуется почерпнуть информацию из специальностей друг друга.
    Система именования, составленная нами может быть несовершенна, но у нее есть один существенный плюс, о котором говорилось выше, это возможность быстрой модификации имен согласно предложенному шаблону. В качестве примера могу привести свою несовершенную программу v-renamer, с помощью которой производилось переименование файлов отсканированных документов, согласно изложенной здесь системы именования. Программа была необходима в связи с тем, что множество отсканированных ранее файлов были поименованы практически в произвольном порядке. Задача приложения - найти и распознать символы по предлагаемому шаблону и переименовать по новой схеме.
    Также можно обнаружить исключения. Например, в имени файла "k004_oblozhka_tom01.jpg", присутствует надпись "tom". Обложек в коллекции может быть много (в каждой тетради). В случае выборки документов для пользования, обязательно возникнет конфликт файлов. Система скажет "Такое имя уже существует, перезаписать?". В остальных случаях конфликтов пока не наблюдалось.
    Принимая во внимание "капризность" операционных систем и программ, специфические символы, как и русские буквы, были полностью исключены. Также исключен символ пробела и всевозможные скобки. Согласен, что красота теряется, но мы хотим, чтобы переименование нескольких десятков тысяч файлов было произведено в течение нескольких секунд, а также не откажемся от безошибочной работы базы данных, поэтому идем системе навстречу.


(C) Бовин В.Б.
Внесение изменений: 26.08.2008, 04.05.2009, 31.01.2011, 18.02.2011, 01.07.2011