Музыка под прессом
Записывать звук люди научились очень давно. Из-за отсталости античной техники звукозаписи древние эллины вынуждены были записывать музыку с помощью особого нотного письма, причем высота звуков обозначалась с помощью букв, а длительность звуков записывать то ли не умели, то ли не считали нужным. Наверное, это была весьма своеобразная музыка…
Тем не менее, этот способ записи музыки дожил аж до 11 века нашей эры, когда было создано нечто похожее на современную нотную грамоту. Но все это было, как говорится, не то. Для того чтобы сыграть записанную музыку, нужно было, во-первых, уметь играть на музыкальных инструментах, а, во-вторых, уметь читать ноты. Поучителен пример с древнеармянским нотным письмом. Получилось так, что со временем его разучились читать, и старинные ноты превратились в бессмысленный набор символов. И только в конце XIX века благодаря таланту и настойчивости армянского композитора и ученого Комитаса древние мелодии зазвучали вновь…
Эра механической записи звука началась в 1877 году, когда Томас Алва Эдисон изобрел фонограф. По сути дела, граммофоны, патефоны, и даже дожившие до наших дней электрофоны, воспроизводящие звук с виниловых пластинок, являются только усовершенствованными фонографами - ведь принцип записи звука на канавку, расположенную на носителе по спирали, остался неизменным.
В 1900 году датский инженер В. Паульсен на Парижской Всемирной выставке продемонстрировал действующую модель аппарата магнитной записи, созданного как бы в противовес изобретению Эдисона. Впервые в истории человечества в магнитной записи прозвучал голос человека – удивленные парижане услышали пробивающийся через хрип помех голос императора Австро-Венгрии Франца-Иосифа. Вот с этого момента, пожалуй, и началась подлинная история звукозаписи, теория которой была создана в 30-х годах ХХ века.
Звук – это аналоговый сигнал сложной формы (рис 1). Для анализа таких сигналов используют прием, широко используемый в радиоэлектронике. С помощью преобразования Фурье сложный сигнал преобразуют в гармонический ряд Фурье, состоящий из синусоид с различными частотами и амплитудами. Но на практике звуки, с которыми мы имеем дело, конечно, сильно отличаются от простых синусоидальных волн.
Первую гармонику такого спектра музыканты называют основным тоном, а гармоники с более высокими частотами – обертонами. Основной тон определяет высоту звука, а обертона-гармоники придают звуку определенную окраску, создавая тембр голоса или музыкального инструмента.
Для исследования спектров звуковых сигналов используют сложные и дорогостоящие приборы – анализаторы спектра.
С помощью таких приборов можно установить, что некоторые музыкальные инструменты, например скрипка, имеют относительно равномерный спектр, а некоторые духовые инструменты имеют спектры с ярко выраженными максимумами и минимумами, называемыми формантами.
Терминов, прямо описывающих тембровую окраску голоса человека или музыкальных инструментов, не существует, поэтому приходится прибегать к различным метафорам, вроде “глубокий тембр”, “жесткий тембр”, “металлическое” или даже “транзисторное” звучание.
Попытки использовать цифровые методы обработки информации применительно к записи звука предпринимались многократно, но первых серьезных успехов удалось добиться в начале 80-х годов XX века, и совпали они с бурным развитием компьютеров и успехами микроминиатюризации радиокомпонентов. Применение цифровых методов обработки звука открыло новые и очень интересные возможности.
Для того чтобы обрабатывать звук на компьютере, его необходимо предварительно преобразовать в цифровую форму – закодировать. Кодирование аналогового сигнала осуществляется с помощью устройств, называемых аналого-цифровыми преобразователями (АЦП). Основным методом кодирования аналогового сигнала является импульсно-кодовая модуляция, которая состоит из трех операций: дискретизации, квантования и кодирования.
Сейчас мы не будем вдаваться в теорию кодирования, тем более что она довольно сложна и требует знания высшей математики. Для нас важно понимать, что качество оцифрованного звука и размер полученного файла зависят от частоты дискретизации и разрядности.
Частота дискретизации – это частота измерения характеристик звукового сигнала. Из теоремы отсчетов Котельникова следует, что для получения неискаженного цифрового сигнала частота дискретизации должна быть как минимум в 2 раза больше наивысшей частоты кодируемого сигнала. Таким образом, при кодировании звукового сигнала частота дискретизации должна быть не менее 40 кГц. В системах цифровой связи принята частота дискретизации 32 кГц, в лазерных проигрывателях CD и в бытовых цифровых магнитофонах – 44,1 кГц. В студийной цифровой аппаратуре частота дискретизации еще выше – 48 кГц.
Разрядность записанного звука – это количество битов памяти, которые выделяются для записи каждого значения амплитуды звукового сигнала в момент его измерения. Современные звуковые платы используют 8 или 16 битов памяти на одно измерение, существуют и более высококачественные – 32-разрядные платы. Чем больше разрядность, тем выше качество оцифрованного звука.
Как уже говорилось, размер звукового файла зависит частоты дискретизации и от разрядности звука. Так, при частоте дискретизации 44 кГц и разрядности звука 16 бит 1 минута звучания требует файла размером в 5,3 Мб, а при частоте дискретизации 11 кГц и разрядности 8 бит – 660 кБ.
Понятно, что такое неэкономное расходование дискового пространства оказалось неприемлемым, и были созданы специальные алгоритмы и форматы для более экономного хранения аудио файлов.
При сравнении различных форматов сжатия часто использует параметр «качество звучания при определенном битрейте».
Битрейт – это параметр, обозначающий, какой объем дискового пространства уходит на хранение 1 секунды музыки. Например, битрейт 128 кБит/с означает, что трехминутная композиция будет занимать около 2,8 Мб.
В принципе, все программы для кодирования звука (их еще называют кодерами) используют алгоритмы двух видов: для сжатия звука без потерь качества и для сжатия с потерями качества.
Алгоритмы сжатия без потерь качества по сути представляют собой хорошо знакомые пользователям персоналок архиваторы, специально модифицированные под работу со звуковым потоком. При воспроизведении звука «на лету» происходит распаковка файла из архива.
Алгоритмы сжатия с потерями качества основаны, грубо говоря, на том, что путем отбрасывания некоторых относительно несущественных элементов звука, получают весьма компактные звуковые файлы. При выборе этих самых «несущественных элементов» используют принципы маскировки звука. Их два – маскировка по частоте и маскировка по времени.
Маскировка по частоте означает, что если рядом с тихим звуком в частотном диапазоне будет находиться громкий звук, тихий можно отбросить, так как человеческое ухо его все равно не услышит.
Маскировка по времени основана на том, что если сразу за громким звуком последует тихий, его можно отбросить, ибо изменение порога слышимости человеческого уха происходит не мгновенно.
Все методы кодирования звука с потерей качества работают по одной схеме. В начале звук разбивается на кадры, из которых удаляются маскируемые компоненты, после чего кадры кодируются с использованием метода Хоффмана, в соответствии с которым наиболее часто встречающиеся кодовые слова получают минимальную длительность, а наименее частые, наоборот, максимальную. Разница между методами заключается в способе анализа звука и удаления замаскированных компонентов.
Алгоритмы сжатия без потерь распространены сравнительно мало, хотя у них есть свои неоспоримые достоинства. Дело в том, что как ни крути, а алгоритмы сжатия с потерями портят звук. Одно дело, если вы, работая на компьютере, слушаете через пластмассовые китайские динамики-«чебурашки» «Поцелуй меня везде…», и другое, – когда на серьезной аппаратуре воспроизводится симфоническая музыка. Причем даже профессионал с трудом сможет сказать, что именно пропало в звуке при кодировании. В ход пойдут смутные термины вроде «красочности», «прозрачности», «сочности» звука…
Алгоритмов сжатия аудиофайлов и, соответственно, форматов этих файлов существует великое множество. Так получилось потому, что для решения разных задач нужны звуковые файлы разного формата. Например, форматы записи звука в компьютерных играх, в аудиоплеерах и для загрузки через Интернет отличаются. Общее правило заключается в том, что файлы с высоким битрейтом имеют относительно высокое качество звука и большой объем, а файлы с малым битрейтом компактны, но музыкой их можно назвать только из вежливости.
Кроме того, различные форматы аудиофайлов создавались для различных компьютерных платформ, таких как PC, Macintosh, Amiga и другие.
Рассмотрим основные форматы аудиофайлов:
-
Формат МРЗ появился в 1992 году. Благодаря высокому коэффициенту сжатия и приемлемому качеству звучания он приобрел чрезвычайную популярность и фактически стал стандартом для хранения музыкальных файлов. Именно в этом формате записаны музыкальные файлы в портативных плеерах, так популярных у молодежи. Однако с лета 2002 года формат стал платным для программистов: за право включить поддержку формата в свою программу был установлен лицензионный сбор в размере 75 центов за каждый экземпляр программы. За новую, более совершенную версию МР3 – МРЗ Рrо нужно было платить по уже 1,25 доллара за каждую программу. Естественно, что разработчики и пользователи программ этой идеей оказались крайне недовольны. В частности, поддержка формата MP3 оказывалась невозможной в операционных системах с открытым кодом, например во всех клонах Линукса. Почувствовав, что хватили лишку, владельцы патента – институт Фраунгофера и Thomson Multimedia – поспешили заявить, что «их неправильно поняли», но, как в старом анекдоте, «хоть ложечки и нашли, осадочек-то все равно остался».
-
Формат WMA. Неудачная и негибкая политика патентовладельцев привела к тому, что в компьютерном мире резко повысился интерес к другим форматам кодирования звука, и первым среди них, безусловно, является формат WMA (Windows Media Audio), созданный фирмой Microsoft. Формат WMA был разработан на основе очень удачной технологии Voxware Audio Codec 4, которая изначально была предназначена для кодирования голоса человека: файлы Voxware 4 сохраняли 90-процентную разборчивость голоса при битрейте в 64 Кбит/с – в два раза лучше, чем у конкурентов.
Доработанный кодек Voxware превратился в марку WMA и теперь позволяет записывать музыку при битрейте 64 Кбит/с, по качеству аналогичную файлам МРЗ с битрейтом 128 Кбит/с. Это означает, что при том же качестве звучания файл WMA занимает вдвое меньший объем, чем файлы МРЗ. Специалисты считают, что музыка, записанная в WMA, звучит «чище и живее», чем в МРЗ. -
Наиболее интересным и серьезным противником MP3 и WMA является формат OGG (Ogg Vorbis Audio). Проект стартовал в 1993 году под названием «Squish». В английском языке это слово многозначно, оно означает мармелад, чепуху и хлюпанье носом. Какое именно значение имели в виду авторы, сейчас сказать трудно, но какая-то фирма, производящая сладости, заявила, что «Squish» – их зарегистрированная товарная марка. Пришлось срочно менять название. Чтобы уж точно никому не перейти дорогу, новое название выбрали позаковыристей: слово «Vorbis» позаимствовали из фантастического романа Терри Пратчетта, а «Ogg» – жаргонное словечко компьютерных игроков, которое означает «Сила есть – ума не надо!».
OGG – открытый и бесплатный формат. Его кодек поддерживает частоту дискретизации до 48 КГц, скорость потока до 512 Кбит/с, до 255 каналов, позволяет хранить в файле вместе с композицией текстовую и графическую информацию, а звук кодируется с переменной скоростью. Поскольку стереоканалы кодируются вместе, а не по отдельности, музыку, звучащую в обоих каналах одинаково, записывают не два раза, а один, отчего файл получается весьма компактным, его сжатие на 20-50% лучше, чем у МРЗ, а субъективное качество звука выше. Проблема (Ogg Vorbis Audio) в том, что китам компьютерного бизнеса сильный конкурент не нужен, и его поддержку в популярные операционные системы не включают. -
ААС. Полное название – MPEG-2 ААС (Advanced Audio Coding – передовое кодирование звука). Разработан институтом Фраунгофера и несколькими коммерческими фирмами. В его основе лежит все тот же МРЗ. В ААС изначально заложена поддержка частоты дискретизации до 96 КГц, а максимальное количество каналов увеличено с двух до 48 в расчете на будущие многоканальные форматы вроде нынешнего шестиканального Dolby Digital. За счет использования более сложных алгоритмов его кодеры работают значительно медленнее, чем в случае МРЗ, а проигрыватели также требуют большей мощности процессора. Лучшие варианты кодеров ААС при скорости 96 Кбит/с дают качество не хуже, а иногда и лучше, чем МРЗ при скорости 128 Кбит/с. Объем файла при этом получается на четверть меньше.
Формат ААС позволяет с использованием приемов стеганографии встраивать в записываемый поток так называемые водяные знаки (watermarks) – имена авторов/исполнителей, сведения об авторских правах и прочее. Впоследствии соавторы формата самостоятельно создали несколько его версий, самой известной из которых является формат Liquid Audio. -
Формат Liquid Audio до недавнего времени считался самым лучшим по качеству воспроизведения и мог бы претендовать на роль преемника МРЗ, но создатель формата, компания Liquid Audio, повела неудачную политику по его внедрению.
-
VQF - метод и формат, разработанный японской фирмой NTT и продвигаемый в основном японской же фирмой Yamaha под названием SoundVQ. Поддерживает частоты дискретизации до 48 кГц, но количество каналов ограничено двумя. Поддерживает также индивидуальную скорость для каждого стереоканала, однако реальный эффект от этого невелик. Используемый алгоритм, как и в случае с ААС, заметно сложнее МРЗ, отчего кодер и проигрыватель сильнее загружают процессор. Сегодня формат не поддерживается большинством плейеров и постепенно вымирает.
-
РСМ (pulse code modulation – импульсно-кодовая модуляция) используется для кодирования несжатых аудио данных. Существует множество вариантов этого формата, разработанных различными компаниями, например Microsoft.
-
Формат Macintosh AIFF. Это стандартный формат аудио файлов для платформы Macintosh. Он поддерживает 8- и 16-битные монофонические и стереофонические аудио данные.
-
Формат RealMedia Этот формат файлов позволяет создавать потоковые аудио- и видео файлы для передачи через Интернет. Он предлагает сложные собственные функции сжатия, позволяющие передавать аудио- и видеоданные через Интернет (даже через медленные телефонные линии) в режиме реального времени.
-
Формат Video for Windows. Формат AVI (Audio Video Interleaved – Чередование видео и аудио) представляет собой специальный цифровой формат файлов, разработанный для работы с видео на компьютерах под управлением Windows. Файлы AVI поддерживают многодорожечный звук.
-
Формат Microsoft Wave Подобно формату МРЗ, формат Wave представляет собой еще один очень популярный формат аудиофайлов для Windows. Формат поддерживает множество различных типов аудиоданных, в том числе 8- и 16-битные, моно и стерео. Файлы в формате Wave имеют расширение wav.