Главная страница
Форматы файлов мультимедиа и их хранение
Выбор файлов для публикации в сети Интернет


    Как опубликовать архивный, мультимедийный, фольклорно-этнографический материал в сети Интернет? На первый взгляд все просто, но собиратель, со временем начинает замечать, что используемые методы не дают желаемого результата. Чаще всего, не отыскав времени на поиск и отладку недочетов, научные сотрудники оставляют все как есть. Видно на фото человека и достаточно. Что-то поет информант и хорошо. Видеозапись кое-как запускается, отображая в общих чертах отснятый обряд и ладно.
    Совершенно неправильно осуждать кого-то, ведь компьютер "свалился на голову" исследователю внезапно. Кроме того, в конце XX века собиратель выполнял только свою, научную работу. Фотографиями занималась лаборатория, подготовкой сборников совершенно другие люди. Сегодня собиратель, сотрудник архива и обычный ученый должен все сам. Данный материал позволяет помочь в этом нелегком деле, позволив получить замечательный результат.

    При публикации своих материалов в сети Интернет, важно соблюдение следующих основных условий: наличие авторских прав, знание типов мультимедийных файлов и контроль над результирующими объемами.
* В вопросах авторских прав необходимо всегда помнить, что люди в кадре (видеозапись) не желали бы, чтобы их речь или внешний вид видела вся страна (правда, если это заранее не оговорено перед проведением видеосъемки).
* Распространенные типы файлов избавят пользователей от поиска специфических программ, предназначенных для открытия полученных файлов. Прежде всего публикация нужна нам самим. Необходимо внимательно относиться к каждому пользователю, учитывая даже тех, кто подключается через низкоскоростные модемы. Проявленное внимание в конечном итоге бережет время исследователя, посетителя интернет-странички (вэб-сайта).
* Объем публикуемых файлов влияет на скорость получения данных из сети Интернет. Не следует к этому вопросу подходить с мыслями наподобие "как смог, так и закачал", "я желал опубликовать записи исключительно высокого качества ", или "меня не интересуют пользователи, выходящие в сеть с помощью модема, сегодня у всех быстрый Интернет".


ПУБЛИКАЦИЯ ЗВУКОЗАПИСЕЙ
    Чрезвычайно распространенный формат MP3 я не стал бы рекомендовать. К сожалению, при использовании этого формата в коммерческих целях, необходимо будет осуществлять отчисления правообладателям (компания Thomson Multimedia и институт Фраунгофера), ведь создавая фольклорный MP3-сборник на компакт-диске мы не станем его дарить, а хотя бы по небольшой цене все-таки продадим. Является ли это в данном случае коммерческим использованием формата? Вопрос необходимо обсудить с юристом.

Некоторые операционные системы предупреждают об используемых лицензиях при установке программ.

    Для публикации звука используют набравший уже популярность формат OGG. Качество воспроизводимых звукозаписей выше чем у формата MP3. Начиная с 2007 года отдельные бытовые персональные проигрыватели успешно воспроизводили OGG Vorbis. Сегодня формат используют в звуковой дорожке для видеозаписей (например, в контейнере MKV и VP8).
    Звукозаписи требуют больше места на диске, чем фотографии, тем не менее, параметр сжатия следует выбирать таким, чтобы слова и музыка были по крайней мере различимы на слух. Если пользователя не устроит качество звука, вы договоритесь и вышлете ему качественный образец. "Для кодера OGG Vorbis установлен режим качества Q6, который широко используется как альтернатива MP3 320 кбит/с. Более высокие значения параметра обычно не дают значительного улучшения качества, но при этом размер получаемых файлов больше."1 Вэб-сайт, это не компакт-диск и качество звука здесь должно значительно уступать скорости доставки информации исследователю.
Программа, позволяющая создавать файлы OGG - ffmpeg (скачать). Ранее предлагал "oggdropXPd" (скачать), но ffmpeg стремительно развивается, поэтому будет работать быстрее и лучше. Для кодирования, потребуется файл wav2ogg-q0-32khz.bat (скачать), который размещают вместе с ffmpeg.exe в каталоге с WAV-файлами и запускают.
Во вторых, это редактор Audacity. При сохранении файла выбирают тип файла OGG (параметры сжатия находятся в пределах от 0 до 5).



ПУБЛИКАЦИЯ ВИДЕОФИЛЬМОВ
    Образцы видеозаписей отнимают много времени на загрузку в виду того, что такая информация имеет внушительные размеры. Тем не менее, есть способы положительно решить такого рода затруднения.
    Формат файла обычно представлен контейнером AVI, но можно использовать MKV. В сети Интернет встречается видео в формате MPG, но "сильно" упаковать фильм в этом формате вряд ли удастся. Не редкость форматы WMV, FLV, OGV, MP4, MOV. Кроме того, существует "беспроблемный" для сети Интернет формат WEBM (рекомендуется).
    Кодеками для сжатия фильмов AVI могут служить Xvid, x264. Уменьшение контраста изображения позволяет добиться чуть большего сжатия файла фильма, но не значительно.
    Говоря о бесплатном (свободном) формате MKV (Matroshka - Матрёшка) следует добавить, что видеопоток кодируют в формат x264 (свободный аналог H254), или в Xvid. Для звуковой дорожки применяется аудиокодек OGG Vorbis. В контейнере WEBM хранится видео VP8 и звук Vorbis OGG. Мне не удалось получить успешные результаты с применением кодека VP9, поэтому остался на VP8. Строка сжатия для ffmpeg может выглядеть следующим образом: for %%a in ("*.avi", "*.mov", "*.mp4", "*.mkv", "*.mp*g") do ffmpeg.exe -i "%%a" -c:v libvpx -b:v 300k -acodec libvorbis -aq 1 -ac 2 -strict -2 -f webm -y "%%~na.webm"
    Размер видеокадра выбирается таким, чтобы элементы изображения ориентировочно распознавались (например, 360 х 288 точек, иногда 180 х 144 если мелкие детали не важны). Частота кадров может оставаться оригинальной (но не выше 25 - 30 кадров в секунду) или замедленной, до 15 кадров в секунду. Здесь как в звукозаписях. Пользователь не станет всматриваться в детали, ему необходимо лишь знакомство с материалом. В целях дальнейшего исследования обычно связываются с авторами фильма и высылают качественные образцы.
    Вероятно, максимальный объем видеоролика желательно "держать" на уровне 30-50 мегабайт, чтобы не доставлять пользователю неудобств, ведь нашей изначальной целью являлась "доставка" материала до исследователя.
Программы, позволяющие создавать файлы AVI: Virtual Dub, Avidemux (параметры сжатия кодека Xvid = 6-12, кодек x264 = 27-35). Для сжатия в формат MKV рекомендуется Avidemux, или MKVToolNix (см. Windsoft), но для работы нужны дополнительные знания. В системе Ubuntu Linux присутствует как Avidemux, так и OpenShot, позволяющий сохранять фильм в формате WEBM. Мне удобней и легче работать с FFmpeg.


ПУБЛИКАЦИЯ ФОТОГРАФИЙ
    При публикации цифровых фотографий, рекомендуется использовать файлы JPG, с параметрами сжатия от 25% до 65% (низкое качество, малый объем). Если требуется сконцентрировать внимание исследователя на мельчайших деталях изображения, то процент увеличивают до 85%.
Повышения детализации картинки можно достичь также за счет высокого разрешения снимка (т.е. размеров изображения в точках), "оставаясь" при этом на уровне качества 25-65%. Если при этом файл фотоснимка займет объем до 500 килобайт, то посредством модемного соединения, снимок попадет в компьютер исследователя менее чем за полминуты (при скорости 128 килобит). Это слишком долго. Ниже, для сравнения качества приводятся образцы фотографий и их объемы.
Фотография 1024*768, сжатие 25% [42 kb], Фотография 1024*768, сжатие 55% [70 kb], Фотография 1024*768, сжатие 85% [132 kb]

Вообще, разрешения сегодняшних экранов мониторов варьируются от 1024 х 768 точек, до 1920 х 1080 точек. Обозреватель Интернет (браузер) с границами окна, бегунками прокрутки, значками меню и текстом вэб-сайта, отнимет примерно 15% экранного пространства. Таким образом, приблизительный размер фотографии при разрешении экрана 1024 х 768 может составлять 800 х 600 точек. Если требуется опубликовать фотографию полностью, то оставляют ее исходные размеры, варьируя качеством сжатия и при этом готовят уменьшенную копию фотографии (предпросмотр), размерами 160 х 120 точек, (либо еще меньше 80 х 60) которая будет являться ссылкой на "оригинал". Не следует "переполнять" страницу сайта множеством фотографий, пользователь попросту не дождется окончания загрузки. В данном случае, фотографии разбивают на группы по нескольку штук. Дальнейшая информация соприкасается с вэб-программированием и не входит в цели данной статьи. Другие используемые сегодня форматы, это PNG и GIF.
Программы, позволяющие производить операции над изображениями: The Gimp, PhotoFiltre, IrfanView, XnView. Рекомендуется добавить чрезстрочность, указав параметр "Progressive JPG" при сохранении картинки в графических редакторах.


ПУБЛИКАЦИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ
    Статьи и прочие документы сегодня не публикуют даже в RTF, не говоря уже о DOC (LibreOffice Writer, Microsoft Word). Для этого служит формат PDF (Adobe Acrobat). Не стоит забывать о HTML, если в тексте нет изображений. Иногда, может быть опубликован, традиционный TXT в кодировке Unicode (UTF-8).
Довольно привлекательным на фоне остальных форматов электронных книг выглядит FB2 и DJVU. Впрочем, последний годится скорее для отсканированных книг.
Программа, позволяющая создавать PDF: LibreOffice Writer. Для защиты текста необходимо так настроить сохранение PDF, чтобы редактор создал группу фотографий по числу страниц текста. В этом случае выделение и копирование текста PDF не осуществить.


ИМЕНОВАНИЕ ПОЛЬЗОВАТЕЛЬСКИХ ФАЙЛОВ
    Поскольку архивные имена файлов по большей части необходимы для систематизации материалов и, как правило, выглядят следующим образом: "00001-001.wav", "00001-001.avi", "00001-00001.jpg", то имена файлов для использования могут быть какими угодно, лишь бы сотрудник архива смог разобраться. Например, в своей работе я печатаю несколько символов перед основным именем файла, скажем, "copy00001-001.wav", или "fa00001-001.avi", (даже лучше так "fa-00001-001.avi") и так далее. Таким образом, некоторая связь с основным фондом все-таки присутствует. Такой прием помогает очень быстро найти оригинал. А вот подарки, которые поступают в Фонограммархив так уже не поименуешь. Во-первых, там нет номера единицы хранения, который существует для основного фонда и оцифровав грампластинку приходится давать имя чуть ли не следующего вида "01_Kalendri_tahtpaevade_ja_pidustuste_laulud.wav" и для второй стороны винилового диска соответственно "02_Kalendri_tahtpaevade_ja_pidustuste_laulud.wav". То есть использую либо оригинальное название, либо транслитерацию "1Kantele79.wav" и "2Kantele79.wav". Безусловно, в ближайшее время, вышеуказанные имена будут исправлены в соответствии с принятой системой. Очевидно, что у таких, дополнительных фондов (вернее, коллекций), должны быть свои описи и свои, внутренние номера единиц хранения. Здесь, главное - не запутаться. Скажем, простой способ отличить основной фонд от подарочного, это заменить дефис на подчеркивание, чтобы получилось следующее имя файла, "00001_001.wav" (и "fa_00001_001.wav", если даритель разрешает опубликовать свои материалы).
    Если вы "загляните" в раздел Музыкальные образцы (Фонограммархив ИЯЛИ), то сможете наблюдать следующие имена файлов: "jurjeva_md.mp3", "r-andreev_vinyl.mp3", "saveljeva_md.mp3", "tape0001trk01.mp3", "tape0005trk02.mp3". Такая "каша" имен файлов обусловлена тем, что образцы закачивались на сайт постепенно, одновременно с формированием (скажем честно, придумыванием) имен. Даже формат MP3 был выбран ошибочно, вместо свободного Vorbis OGG. Первые файлы получали имена обычной транслитерацией, насколько это было возможно. Позже, они приняли вид, близкий к общесистемному ("tape0001trk01.mp3"). На новом сайте Звуковая коллекция (Фонограммархив ИЯЛИ) имена файлов уже приближаются к желаемым "fa_0348-02.mp3", хотя присутствуют и старые "bychok-smoljanoj-bochok.mp3", или "pro_Rahtu-Ragnozerskogo.mp3". Четкая система в именовании "пользовательских" файлов, здорово помогает на этапе выборки аудиозаписей и подготовке их к публикации. С другой стороны, скаченный файл, имя которого состоит из подобной "шифровки", для пользователя не несет никакой информации, в отличие от "bychok-smoljanoj-bochok.mp3", где одно имя уже говорит о сказке, а вот каждый "шифрованный" файл необходимо прослушивать и это затрудняет работу исследователя. Что касается глобального переименования всех файлов вэб-сайта Фонограммархива ИЯЛИ с тем, чтобы привести записи к общему виду, то здесь потребуется продолжительная работа, поскольку поисковая система сайта содержит ссылки на опубликованные образцы. Надеюсь, что все последующие публикации будут иметь вид "fa-00348-002.ogg". Использование формата Vorbis OGG избавит пользователя от поиска проигрывателя, так как он уже "встроен" в вэб-страничку стандарта HTML5.

     Пожалуй, рассмотрены основные форматы документов.



1 См. "Encoders test"

(C) Бовин В.Б.
Внесение изменений: 03.11.2010, 22.02.2012, 02.04.2012, 16.07.2012, 11.09.2015