Сайт с рекомендациями по работе в архивах и технической помощи в фольклорно-этнографических экспедициях

В статье "Типы файлов для хранения информации" было кратко указано о выбираемом для оцифровки формате, поэтому здесь хотелось бы обосновать выбор.
Очень часто, когда речь на конференциях заходит о формате для звукозаписей, рекомендуются слишком завышенные параметры. "Оцифровка, согласно требованиями IASA TC 04, 6.5, должна производиться с помощью высокоточного AD конвертора с архивным разрешением 96 кГц, 24 бита"¹. Расставим все по своим местам.

1. Если ваш фонограммархив имеет студийные записи (например, исходный материал фирмы Мелодия) и если нет иных требований, то формат 96000 Гц, 24 бит это близко к тому, что рекомендуется (без учета многодорожечной записи).

2. Если в фонограммархиве находятся качественные стереофонические записи, выполненные на профессиональный катушечный магнитофон, то их можно было бы оцифровать с параметрами 48 кГц, 32 бита, но прежде заглянем в технический паспорт к магнитофону. Только последние выпуски катушечных магнитофонов Санда МК-012-стерео имеют приемлемые характеристики (выборочно):

Сетевой катушечный магнитофон - "Санда МК-012 стерео"
Волжский электромеханический завод. Модель 1990 года
За исключением незначительных изменений внешнего оформления
магнитофон по своей конструкции и электрической схеме,
абсолютно схож с магнитофонами ''Ростов МК-112С'', или ''Ростов МК-012С''.

Основные технические характеристики магнитофона:
Тип рекомендуемой магнитной ленты: Б-3716 или Б-3715.
Скорость протяжки магнитной ленты 9,53 и 19,05 см/сек.
Количество дорожек 4.
Диапазон записываемых или воспроизводимых звуковых частот на линейном выходе:
на скорости 9,53 см/сек 30....16000 Гц.
На скорости: 19,05 см/сек 25...25000 Гц.

Эффективный диапазон ЗЧ усилителей мощности: 20...25000 Гц.
Потребляемая от сети максимальная мощность: 140 Вт.
Габариты магнитофона: 510х410х225 мм.
Масса магнитофона: 22 кг.

Таким образом, сам производитель сообщает нам, что при скорости движения ленты 9,5 см/сек в записи не может оказаться звука с параметрами 96 кГц и 24 бита. На повышенной скорости значение 25 кГц, при переводе в дискретную форму компьютера даст 50 кГц (очень близко 48 кГц). Остальная техника первой и нулевой группы сложности обычно работает в пределах 44.1 "компьютерных" килогерц, что соответствует параметрам CDDA (Compact Disc Digital Audio).

3. Экспедиционные записи музыкальных инструментов, выполненные на бытовые катушечные магнитофоны. Это формат 22050 - 32000 Гц, 32 бит. Однако, звук удара по металлу (музыкальный треугольник), превышает 48 кГц, но не фиксируется бытовыми магнитофонами в полной мере. Чаще всего, при записи этого инструмента происходит перегрузка (Overload, Peak). Пожалуй, "Санда" смогла бы записать звук треугольника, или звон колокольчика, но большой и тяжелый магнитофон, вряд ли кто взял бы с собой в поле. Можно рассчитывать лишь на запись в кабинете.

4. Остальные экспедиционные звукозаписи собирателей (практически большинство) - речь и пение, выполненные на обычные кассетные и катушечные магнитофоны. Это формат 8000 - 11025 Гц, 32 бит.

5. Наконец, записи, выполненные на рубеже XX-XXI века, зафиксированные на портативные диктофоны китайского производства. Очень много шума, хорошее качество отсутствует. Этих записей также предостаточно.
Исключая высокопрофессиональные записи, все вышеперечисленное может успешно "храниться" в формате CDDA. Такой формат довольно неплохо вмещает качество записи симфонических оркестров, которое несоизмеримо сложнее в звуковом плане, чем человеческая речь. А форматы наподобие 96/24 попросту расходуют свободное место на дисках собирателя.

В тексте мной указывается разрядность звука 32 бит. Дело в том, что для 16 битных звукозаписей выделяется 65535 уровней громкости, а в 32 битах все 4 миллиарда. Если представить такой магнитофон, в котором при увеличении громкости на один щелчок (одну позицию) мы сможем заметить разницу в звуке, то 24 битный диапазон имеет между одной такой позицией и другой, еще 256 положений "рукоятки громкости". Рассматривая 32-битный звук, можно сказать, что это 65535 промежуточных положений громкости между одной и другой позицией. Заметить такое повышение громкости невозможно. Мы можем говорить о практически полном переносе аналоговой формы звука в цифровую. Программы реставрации стараются производить обработку в 32 битах во избежание даже мельчайших искажений звука (разумеется на уровне арифметики). Если оцифровку осуществлять с использованием разрядности 24 или 32 бит, то кроме своеобразной защиты от громких звуков (также создающих перегрузку), в дальнейшем не придется осуществлять дополнительных преобразований наподобие 16 бит < - > 32 бит. В ходе работ по оцифровке было также замечено, что 32-битная запись достаточно легко "выдерживает" перепады громкости от самой тихой записи, до перегрузки. Таких записей у собирателей довольно много, ведь в поле всякое случается.

Графическое представление 32-битного звука. Четыре области разделены красными
горизонтальными линиями. В верхнюю (4й байт) попадают лишь незначительные всплески звука.

     Файл PCM WAV, полученный в результате оцифровки, уже не редактируют и не упаковывают в сжатые форматы. Под редактированием подразумевают осуществление реставрации. Простые преобразования наподобие обрезки лишнего звука с начала и конца звукозаписи, удаление продолжительных пауз, вполне допустимы. Группы файлов защищают с помощью приложения ICEECC (или MultiPar) и сохраняют на диске DVD+R. После этого создается фонд использования в формате Vorbis OGG, с параметрами качества от 1 до 4.

Фонд использования
     В недавнем прошлом, среди любителей музыки огромной популярностью пользовался формат MP3. Его можно продолжать использовать, но хотелось бы порекомендовать OGG из следующих соображений. Сегодня информационные технологии переместились в сеть Интернет. Формат Vorbis OGG поддерживается в языке гипертекстовой разметки HTML 5, которая используется для отображения страничек Интернет. Разместить такой аудиофайл на сайте очень легко. Для формата MP3 придется писать особый код обработки. MP3 не всегда успешно воспроизводится на вэб-сайтах. Формат MP3 не является свободным.² Интересно, что Vorbis OGG легко сжимает записи из диапазона 96 кГц, который в MP3 недоступен. Словом, многое говорит в пользу OGG.
    Сжатые записи, MP3, Vorbis OGG получаются в результате обработки исходных WAV-файлов. В результате анализа WAV, звуковая составляющая разбивается на блоки, которые отдельно анализируются и упаковываются. Сжатие происходит с использованием всех возможностей. Предположим, диктофон собирателя записывает речь информанта. Но вот, в дом постучались и информант ненадолго вышел. В это время собиратель в голове быстро "прокручивает" полученный материал и готовит очередные вопросы, пишет заметки в полевой дневник. Все это время диктофон записывает тишину³. Несмотря на то, что и в деревенской тишине есть всевозможные звуки, предположим, что громких звуков нет и WAV-файл заполняется нулями. Минута нулей, это 10 мегабайт израсходованного дискового пространства. Простейший алгоритм сжатия (RLE) сможет учесть эти нули, запомнить и уменьшить исходный файл во много раз. В итоге, многочасовая экспедиционная запись без потерь упаковывается в десятки раз. Однако, без потерь звук сжимают программы наподобие WavPack, а MP3 и OGG вносят изменения, используя анализ акустических характеристик. Они находят участки записи, где записанный звук, выходит за пределы слышимости человеческого уха и исключают его из записи Таким образом достигается максимальный уровень сжатия. Для обоих форматов существуют параметры сжатия звука. MP3 от 8 kbps (килобит в секунду) до 320 kbps, Vorbis OGG от "-1" до "10" условных ступеней качества. В обоих случаях качество варьируется соответственно от худшего к лучшему.
     Но искажение звука, это потеря качества, а WavPack не дает ощутимого уровня сжатия. В принципе, запись речи в файле MP3 с параметром 160 kbps не отличить от оригинала на слух. Если собиратель записал игру на гармони, то качество повышают до 192 kbps. Все хорошо до тех пор, пока информант не достал колокольчик. Даже предельного уровня 320 kbps будет недостаточно, поэтому для фонда использования рекомендуется Vorbis OGG. А соревнуясь на равных, OGG выигрывает по объему получающегося компактного файла. Для получения OGG потребуется программа ffmpeg (на сайте выбрать "32-bit Downloads, Download FFmpeg git-......... 32-bit Static"), которая находится в свободном доступе в сети Интернет. Как и формат OGG, упаковщик ffmpeg совершенно бесплатен. Для упаковки файлов WAV, в каталог со звукозаписями достаточно скопировать сам упаковщик (один файл ffmpeg.exe) и файл с расширением bat (например, compress.bat), который создается в текстовом редакторе Блокнот. В тексте пишут следующее:

for %%a in ("*.wav","*.mp3","*.wma") do ffmpeg.exe -i "%%a" -acodec libvorbis -aq 2 -y "%%~na.ogg"

В примере указан уровень качества "-aq 2", но при желании повысить качество, вместо значения 2 можно вписать 5, или 6. При сомнении относительно качества можно указать 8, хотя на тестах параметр 6 показал себя довольно хорошо. Файл compress.bat запускается как программа и спустя несколько десятков минут рядом с оригиналами будут созданы файлы с расширением ogg. Можно скачать готовый файл-конвертер wav2ogg-q0-32khz.bat.
     Сегодня музыкальные проигрыватели "всеядны", поэтому AIMP, Foobar2000 свободно проигрывают такие файлы. Кроме того, указанные программы бесплатны и без проблем скачиваются из Интернет. Интересно, что файл OGG проигрывается и в любом современном обозревателе Интернет (в браузере).

     До сих пор речь шла о файлах, полученных в ходе оцифровки, но в последнее время собиратели не берут с собой тяжеленную магнитозаписывающую технику. В продаже достаточно карманных цифровых диктофонов (например, Sony ICD-UX512, или Sanyo ICR-B175NX). Дешевые диктофоны ведут запись в формат MP3. Те, что подороже, в WAV (Olympus LS-11). В этих случаях файлы с диктофона, после переименования (в соответствии принятой системой именования и хранения) в неизменном виде отправляют в архив.

     Часто случается, что собиратель желает вырезать из MP3-записи ненужные фрагменты. Но такая обработка обязательно ухудшит оригинал, поскольку обрезка и последующее сохранение в сжатый формат приведет к повторному акустическому анализу и удалению всех звуков, которые кодек посчитал ненужными. Здесь есть два варианта. Обработанную запись можно сохранить в формат WAV, или, если это файл MP3, воспользоваться приложением mp3DirectCut. Программа вырезает фрагменты и переписывает заголовок файла. Внутреннее содержимое звучащих данных не подвергается изменению.

     На следующем рисунке отображена последовательность действий при "сборке" группы mp3 файлов в один (см. также "Объединение записей MP3 (без потерь качества) в единый аудиофайл" ).

     Подытоживая хочется сказать, что оцифровку следует производить на отлаженном магнитофоне при полностью отключенных мобильных телефонах, чтобы исключить запись радиопомех (то же касается и записи на любые звукозаписывающие устройства в экспедиции). Несмотря на то, что существуют и другие аудиоформаты для оцифровки, (например aiff), специалисты рекомендуют PCM WAV.

¹ Денисов В.Н. "Звуковые архивы музеев: некоторые вопросы технологии сохранения звучащих материалов".
² Если говорить о программах, создающих MP3, то "Согласно новым условиям, предложенным компанией Thomson Multimedia и институтом Фраунгофера, выплата лицензионных отчислений должна осуществляться не только в случае использования компрессоров для сжатия звука в формат mp3, но и при использовании декомпрессоров.", "При использовании компрессоров или кодеков целиком размер отчислений составляет 5 долларов США за каждую копию программы, а единовременных выплат не предусмотрено". Взято из статьи "Формат сжатия звука MP3 стал платным" КомпьюЛента (14) 29.08.2002.
³ Хочется верить, что вы не используете (отключили) в своих диктофонах функцию записи с активацией по голосу. Т.е. автоматический старт записи при обнаружении звука. При этом удаляется небольшая часть записи в начале и конце при срабатывании датчика. Voice operated recording (VOR) activates the recorder only when audible sound is present ("Автоматическое начало записи при обнаружении звука – функция VOR").