Анатолий Лихницкий

Формула относительности звука

(часть 3)

Я наотрез отказываюсь считать что-нибудь невозможным

Генри Форд

Судя по откликам читателей на первые две части статьи "Формула звука", мне удалось многих убедить в том, что аномальные явления в звуке, в конце концов, могут быть объяснены. Наверное, так оно и есть. Однако каждый раз, преодолевая тот или иной барьер необъяснимости, я наталкиваюсь на новые. Приведу пример. В июне этого года ко мне обратились друзья с просьбой научить их сделать хороший предусилитель для проигрывателя Lp.

Я посоветовал собрать его из радиодеталей фирмы "Те1еfunken" времен Второй мировой войны. Кроме этого ценного совета, я дал еще ряд рекомендаций.

Мои друзья выполнили все, как я сказал, и приехали прослушивать новый предусилитель ко мне. Как и ожидалось, он сразу зазвучал великолепно. Помню, мы слушали записи Натана Мильштейна, наслаждаясь пластичностью и задушевностью звучания его скрипки, контрастами тембров и динамикой. Мне даже показалось, что этот неказистый самопал может уверенно обыграть "Audio Note M2 Phono", и я предложил друзьям съездить в "Hi-Fi Audio" на Литейный, 30, чтобы проверить это.

К сожалению, они меня не послушались и отвезли предусилитель на прослушивание к известному в кругах, близких к hi-fi, гуру.

Об этом самом первом в Санкт-Петербурге гуру стоит сказать несколько слов. В молодости, то есть сразу после Второй мировой войны, он с риском для жизни работал агентом штази. О его деятельности в тот период мало что известно, однако говорят, будто он был одним из немногих причастных к исчезновению рожденной учеными немцами аудиоцивилизации. Так было или иначе, сейчас никто не может точно сказать, теперь о нем говорят как о добром, наивном и искренне увлеченном качеством звучания аудиофиле.

Моих друзей он встретил приветливо. Включил самодельный предусилитель в свою аудиосистему. Поставил пластинку все того же Мильштейна. Как вспоминают мои друзья, предусилитель и на этот раз заиграл великолепно. Затем гуру пригласил гостей выпить чаю. Сели за стол, на котором кроме волшебно душистого чая неожиданно появились дорогие шоколадные конфеты и фрукты. Предусилитель продолжал тихо звучать, а за столом возникла приятнейшая беседа. Тогда еще мои знакомые заметили одну странность, о которой вспомнили только потом. Конфеты, которыми угощал гуру, залетали в рот хозяину и гостям сами...

Неожиданно гуру прервал беседу и, дожевывая очередную конфету, голосом, лишенным каких бы то ни было эмоций, сказал: "А предусилитель-то звучит плохо!". Действительно, за время чаепития что-то случилось. Звук резко ухудшился, стал ядовитым и жеваным в среднем регистре и совершенно утратил свою привлекательность. Мои друзья были обескуражены и, не допив волшебный чай, быстро ретировались.

Вернувшись домой, они вскрыли предусилитель, перемерили все его режимы, а также проверили сохранность точек заземления. Никаких повреждений в схеме обнаружено не было; озадаченные, они позвонили мне, рассказали эту историю и спросили, что делать.

Я предложил еще раз прослушать предусилитель у меня. И через две-три минуты после его включения мне пришлось подтвердить поставленный известным гуру диагноз.

В этой истории самым аномальным я считаю тот факт, что объективная причина случившегося осталась неразгаданной до сих пор...

Однако обратимся снова к неисчерпаемой теме рандомизации. Аудиофилам, которые гордятся тонкостью своего слуха, мои заявления о необходимости рандомизации фаз музыкального сигнала кажутся чудовищными. В их головах не укладывается - чтобы убрать маскирующиеся под музыку искажения (названные мной музыкальным мусором), музыкальный сигнал надо исказить еще больше.

Противоречие здесь мнимое, и возникает оно из-за того, что мы пытаемся представить себе звук не таким, каким его слышим, а таким, каким видим на осциллографе. На самом же деле наблюдаемые на осциллографе звуковые колебания - это вовсе не звук и тем более не музыка. Так же, как и радиоволны, они являются лишь физическими переносчиками содержания звуков, в том числе и музыкальных, в окружающей нас среде. Это содержание на уровне восприятия ощущается нами в виде трех независимых друг от друга составляющих звучания: его высоты, громкости и тембра, которым, как принято считать, соответствуют объективные параметры - мгновенная частота, мгновенная интенсивность и мгновенный спектр. Примерно об этом я уже писал в "АМ" № 4 (33) 2000, с. 159.

Данное соотнесение субъективного и объективного в звучании полностью согласуется с представлениями классической психофизики, однако, будучи человеком сомневающимся, прежде чем писать об этом, я задал себе вопрос, а так ли все обстоит на самом деле? Здесь мне хотелось бы отвлечься и рассказать о том, что произошло 35 лет назад. В то время я работал в лаборатории физиологии слуха АН СССР под руководством проф. Г. В. Гершуни. Однажды я получил от шефа задание разработать высокоточные головные телефоны для исследования слуха. В качестве преобразователей я подобрал пару стареньких конденсаторных микрофонов фирмы "Neumann". После того как телефоны были изготовлены, я решил посмотреть их импульсную характеристику. Установив свое детище на искусственное ухо фирмы "В & К" и подключив к нему осциллограф, я подал на телефон короткий прямоугольный импульс. Картинка на осциллографе получилась чудесная, и, в порядке развлечения, я стал подавать на телефоны разные по форме импульсы и смотреть, что из этого выйдет. Очередь дошла до половинки периода синусоиды. На этот раз картинка получилась настолько хорошей, что у меня возникло желание послушать, как такой импульс звучит.

Первое ощущение было, что у этого, напомню, совершенно однополярного импульса есть вполне определенная высота. "Это интересно!" - подумал я и попробовал на слух подобрать частоту другого, уже вполне нормального синуса так, чтобы его высота совпала с высотой половинки синусоидальной волны. Это мне удалось без труда, причем частоты двух синусов, "длинного" и половинки, почти точно совпали. Я не поверил своим ушам. Может быть, я попал на какой-то скрытый резонанс телефонной мембраны? И я повторил опыт на другой частоте. Ощущение высоты изменилось, но не исчезло. Скромно предположив, что моему восприятию помогают открывшиеся у меня еще в детстве паранормальные способности, я решил повторить опыт на рядовых сотрудниках лаборатории. Результат оказался точно таким же: у них хотя и возникали ошибки, однако только на октаву, чего вполне можно было ожидать.

Похоже, - заметил я сам себе, - это открытие не оставит камня на камне от теории формирования ощущения высоты (теории места [1]) по максимуму мгновенного спектра. Напомню читателям, что одиночный однополярный импульс не имеет спектрального максимума выше ноля частот, и поэтому, согласно теории места, его высоту слушатель ощущать не может.

Я рассказал о случившемся Гершуни. Он внимательно выслушал меня и попросил повторить эксперимент с его участием. Убедившись в том, что мои наблюдения вовсе не какая-то глупость и что методических ошибок я не совершал, маститый профессор сильно напрягся и, помрачнев, около часа бегал туда-сюда по коридору, затем подозвал меня и сказал: "Результаты этого опыта обнародовать нельзя".

Так и случилось. Даже в выпущенной 25 лет спустя научным коллективом лаборатории физиологии слуха монографии "Слуховая система" [2] среди прочих аномалий восприятия высоты звука открытая мной даже не была упомянута.

Только перейдя на другую работу, я понял, что Академия наук во все времена отрицала существование необъяснимых явлений. Не знаю, правда это или нет, однако мне рассказывали, что вместе с присвоением ученому звания доктора наук с него брали подписку о неразглашении аномальных явлений природы. Вот так, чисто по-армейски, Академия защищала и, по-видимому, защищает и сейчас свой имидж, имидж всесилия научной мысли и ее непогрешимости. Я же, не слишком доверяя официальной науке, ответ на вопрос о составляющих музыки стал искать не в академических трудах, а в ней самой. Для этого мне пришлось внимательно изучить сформировавшуюся в течение столетий нотную запись. Именно благодаря ей я осознал то, что на самом деле должно быть для всех очевидным. В нотах (в самом тексте и в указаниях, как его исполнять) сказано все о воспринимаемой нами музыке, причем заданы всего лишь высота звуков, громкость и тембр, который, кстати, обозначается не строго и не физическими параметрами, а только названием используемых музыкальных инструментов[1], кроме того, все это поставлено в жесткую зависимость от времени (о роли времени в музыке расскажу в одной из следующих статей).

Физический музыкальный сигнал (его временная форма) или его амплитудный и фазовый спектры в нотах даже у самых авангардных композиторов никогда не отображается.

По существу, классическая психофизика оказалась права, если не учитывать, что она скрыла от нас свое незнание того, как формируются субъективная высота и тембр звука, приписав им не существующую в явном виде зависимость от мгновенного спектра звукового сигнала.

Тогда же возникла догадка: в защите от искажений нуждается вовсе не наблюдаемый на осциллографе физический сигнал или его спектры (его разнообразные частотные характеристики), а три сравнительно медленно изменяющиеся во времени объективные составляющие этого сигнала: мгновенная частота (в первом приближении), интенсивность, а также неизвестные пока физические параметры сигнала, формирующие ощущение меняющегося во времени тембра. Именно такой взгляд на физическую реальность музыки позволил мне трактовать рандомизацию фаз как частотную фильтрацию трех объективно существующих составляющих музыкального сигнала. Эту последнюю, до меня никем из живущих на Земле не высказанную мысль, разумеется, полученную мною из космоса, я сообщил читателям в "АМ" № 4 (33) 2000, с. 159.

Почти сразу появилось желание использовать этот фильтр для очистки музыки от маскирующихся под нее искажений, то есть от музыкального мусора. Но вот загвоздка. Музыкальный мусор по определению неотличим от музыки.

Поставленная задача на первый взгляд кажется неразрешимой. Я бы даже сказал, в чем-то она напоминает попытку отделения мух от котлет. Однако ничего невозможного, как считал Генри Форд, нет. Просто необходимо поискать какие-нибудь различия между характером изменений трех составляющих, обусловленных музыкой, и имитирующими ее искажениями в аудиоаппаратуре.

Нам повезло - такие различия, в конце концов, нашлись. Для начала примем на веру, что музыка (так же как речь) и наша слуховая система соотносятся между собой, как ключ и замок. А это значит, что на протяжении каждого звука, начиная с его первой волны, в нем и одновременно в слуховой системе должны происходить взаимосвязанные изменения. Как я уже писал (см. "АМ" № 3 (32) 2000, с. 109), начало звука практически всегда очень изменчиво, однако в его середине и в конце изменения становятся плавными. Слуховая система приспособилась к этому и анализирует три составляющие на начальном участке звука очень быстро, но грубо, а затем, начиная со стационарного участка, медленно, но зато точно. Такая перестройка слухового восприятия не противоречит принципу неопределенности[2] Габора.

Если в передающей музыку аудиосистеме отмеченные мной особенности звуков начинают видоизменяться, например: в начале звука, скажем в результате действия искажений, скорость изменения трех составляющих замедляется, а в конце по той же причине в этих составляющих появляются быстрые компоненты, то "ключ в замке" может заедать: слушатель начинает воспринимать звуки как неестественные и немузыкальные, хотя и не может толком осмыслить, что с ними произошло. Ведь ни на осциллографе, ни на спектрометре искажения звуков, о которых идет речь, увидеть нельзя.

Получиться такое может, например, в результате воздействия на музыкальный сигнал очень небольшой дозы инерционно-нелинейных искажений. Именно на них обратил внимание в своем послании Норберт Винер (см. "АМ" № 4 (33) 2000, с. 155).

Особенность инерционно-нелинейных искажений, как, впрочем, и других видов нелинейных искажений, причастных к образованию музыкального мусора, состоит в том, что они почти не различают начало и конец сигнала, а действуют на составляющие музыки однородно на всем протяжении звучания.

Линейные искажения всегда хоть немного запаздывают, поэтому они различают начало и конец сигнала, то есть действуют на рассмотренные мной выше составляющие музыки по-разному в зависимости от времени. Скорее всего, в этой особенности линейных искажений и зарыта собака.

В качестве примера линейных искажений музыкального сигнала рассмотрим акустическую реверберацию. Напомню, что акустическая реверберация - частный случай рандомизации фаз. У нее кроме выраженной зависимости влияния на звуковой сигнал от времени есть одна черта - орган слуха за многие миллионы лет эволюции к ней прекрасно приспособился.

Еще в первой части статьи я рассказал о том, что ясность звучания в условиях акустической реверберации (если, конечно, она оптимальна), не убывает. Попробую теперь объяснить более сложное - каким образом оптимальная реверберация ослабляет действие музыкального мусора.

Начнем с того, что на характер установления звука реверберация практически никакого влияния не оказывает. И это понятно, ведь она запаздывает относительно его начала примерно на 3-30 мс. Но из этого следует, что количество музыкального мусора на этом участке не становится меньше! Страшного в этом ничего нет, ведь этот участок звука слушатель анализирует грубо. А значит, присутствия в нем музыкального мусора он не замечает.

На стационарном участке звука, где тонкость слуха существенно возрастает, музыка концентрируется в медленных изменениях ее составляющих. Эти изменения сосредоточены теперь на частотах от 0 до 6-7 Гц. Но именно тогда реверберация и начинает выполнять роль рандомизирующего фильтра. Он ограничивает частоты изменений составляющих, находящиеся выше 7 Гц, убирая, таким образом, их нелинейные (гармонические) искажения, а также паразитные модуляции, которые проникают в музыку выше частоты среза этого фильтра. Далее, на участке спада составляющие музыкального звука полностью освобождаются от паразитных модуляций. Этот эффект объясняется существенным преобладанием реверберационного отклика над затуханием прямого звука.

Думаю, теперь уже не возникнет сомнений, что, применяя рандомизацию фаз с параметрами, близкими к оптимальной акустической реверберации, действительно можно избежать убывания музыки и при этом ослабить действие музыкального мусора. Остается выяснить, каковы это параметры. К счастью, плеяда блистательных акустиков - лорд Рэлей (Reyleigh), Сэбин (Sabine), Ватсон (Watson), Кнудсен (Knudson), Мак-Нэр (McNair), еще в начале XX века определили основные параметры и характеристики реверберации в помещении, при которых она не только не мешает, но и благоприятствует восприятию музыки. Назовем такую рандомизацию фаз правильной. Правда, они тогда не знали, что такое рандомизация фаз; им также не было известно аналитическое представление сигнала, основанное на понятиях мгновенной частоты и огибающей [З]. Именно по этой причине в своей земной жизни блистательные акустики изучали реверберацию, прежде всего во временной области, используя для этого импульсный отклик помещений. Но и этот опыт оказался немалым. Я проанализировал его и вывел требования к правильной рандомизации фаз. Полагаю, что они вполне могут быть распространены на все случаи, когда в аудиоаппаратуре встречаются подобные явления вне зависимости от их физической природы. Но я должен сразу предупредить - любые отклонения от параметров, присущих правильной рандомизации, могут привести к катастрофическим потерям в музыке! Насторожившихся читателей успокою, акустическая рандомизация фаз в большинстве случаев является правильной. Мы сталкиваемся с ней на каждом шагу, и готов утверждать, что не можем без нее обходиться. Вспомним хотя бы о том, что корпус почти любого музыкального инструмента - правильный рандомизатор; концертный зал, в который вы пришли послушать музыку, - рандомизатор, и часто тоже правильный; любая коммерческая звукозапись записана с реверберацией, то есть рандомизирована;

наконец, комната, в которой вы слушаете музыку через акустическую систему, - также рандомизатор. Поэтому бояться правильной рандомизации не стоит. Бояться надо неправильной, "теневой" - той, что скрывается в вашей аудиоэлектронике.

А теперь рассмотрим параметры и характеристики правильной рандомизации.

1. Требования к форме импульсного отклика рандомизатора

Этот отклик:

а) не должен быть слишком длинным, то есть рано или поздно должен затухать (к этому вопросу мы еще вернемся);

б) не должен видоизменять начало звука, однако следующий за ним затухающий процесс должен иметь максимально случайную структуру, а значит, быть монотонным по субъективному ощущению[3].

С точки зрения физиологии второе требование к отклику рандомизатора объясняется тем, что резкие, необычные, но короткие элементы звука приводят в действие психофизиологические механизмы слухового восприятия, такие как прямая и обратная маскировки [4], эффект Хааса [5], а также перестройка соотношения точности и длительности частотного анализа звуков. Пуск этих механизмов именно первой волной звука обеспечивает правильную зависимость восприятия от времени, а значит легкое и разборчивое восприятие речи и музыки. Напротив, включение их в произвольные моменты восприятию мешает.

Наибольшая субъективная монотонность затухания достигается, когда его огибающая имеет форму экспоненты. Всякие аномалии на этом участке звука, такие как изломы (мелкие участки с неодинаковой скоростью спада), периодические или непериодические флуктуации уровня, свидетельствуют о наличии в фазовых соотношениях спектра звучания неблагоприятных для восприятия музыки закономерностей. Даже незначительные по величине периодические флуктуации огибающей затухания вызывают неприятные ощущения. Если частота флуктуации равна 20-40 Гц, то звучание кажется жестким. При частоте от 8 до 16 Гц ощущается неприятное тремоло. А с частотой от 6 до 7 Гц пластичность звучания становится преувеличенной[4].

Важно, что любое отклонение огибающей импульсного отклика от экспоненциальной формы в процессе воспроизведения музыки улавливается слушателем на подсознательном уровне, а потому является определяющим для формирования эмоциональной оценки звучания.

Экспоненциальное затухание звука во времени при логарифмическом масштабе амплитуды имеет вид прямой линии (см. рис. 1), наклон которой характеризует скорость затухания этого звука в дБ/с.

Рис. 1. 1- входной импульс, 2 – огибающая импульсного отклика правильного рандомизатора фаз.

На практике затухание реверберации принято определять на частоте 512 Гц, но не по скорости затухания, а по времени, необходимому для затухания отклика реверберации на 60 дБ. Это так называемое время стандартной реверберации, которое обозначается Т₆₀.

Установление реверберации в помещении, иначе - заполнение его звуковой энергией, происходит гораздо быстрее, чем затухание, и длится примерно 0,2Т₆₀. Реверберационный отклик к этому моменту времени достигает примерно 95% от максимального уровня.

Замечу, что в статистическом смысле установление реверберации ведет себя не вполне предсказуемо, потому что в его формировании участвует небольшая часть отражений звука. Тем не менее, ухо эффективно защищается от этой неупорядоченности благодаря эффекту Хааса [5], действующему в интервале от 5 до 30 мс.

Кстати, именно время установления реверберации я использовал для оценки длительности окна фазовой рандомизации - по аналогии с оценкой психофизиками отрезка времени, в котором ухо нечувствительно к различиям соотношения фаз акустического сигнала. Это время определялось как длительность установления субъективной громкости тона после его включения [6].

2. Оптимальная скорость затухания импульсного отклика

Рис. 2. Кривые процентной артикуляции в аудиториях различной величины и с различным временем реверберации.

В архитектурной акустике время стандартной реверберации обычно выбирают из соображений достижения наилучшей разборчивости речи, причем одновременно в разных частях проектируемого зала. По результатам многочисленных исследований были получены достоверные кривые, отражающие зависимость разборчивости речи от времени реверберации (рис. 2) [7]. В соответствии с этими данными оптимальное время реверберации для наилучшей артикуляции речи в среднем по размеру помещении составляет Т₆₀1 с. Читателя, выступающего за точность передачи осциллографического изображения звука, должен слегка шокировать тот факт, что разборчивость речи, а значит ее ясность, снижается не только при увеличении этого времени, но и при его уменьшении.

Такое же время признается оптимальным и для достижения ясного, пластически связного звучания живой музыки [8]. И это понятно, меньшее время реверберации открывает дорогу музыкальному и прочему звуковому мусору, большее - приводит к убыванию музыки за счет сглаживания (нивелирования) быстрых изменений ее трех составляющих.

Итак, при правильной рандомизации фаз музыкального сигнала скорость затухания импульсного отклика должна составлять примерно 60 дБ/с.

3. Зависимость скорости спада импульсного отклика от частоты

После того как точные методы измерения реверберации были освоены, встал вопрос, каков должен быть вид частотной зависимости времени реверберации. Этот вопрос горячо дискутировался в 20-е годы [9]. Должна ли скорость затухания быть одинаковой для всех частот? Должна ли она основываться на таком же частотном распределении энергии, как в музыке: чтобы все компоненты музыки затухали одновременно? Должна ли она быть основана на психофизическом соотношении субъективной громкости, интенсивности и частоты звука таким образом, чтобы скорость нарастания и затухания громкости была одинаковой для всех частотных компонентов, как это было предложено Мак-Нэром? Были и другие взаимоисключающие предложения. Только спустя примерно 30 лет после начала этой дискуссии были признаны три зависимости скорости затухания реверберации от частоты (см. рис. 3).

Рис. 3. Оптимальная частотная зависимость времени реверберации:

1 – по Мак-Нэру,

2 – по Брюэлю,

3 – по рекомендациям Би-Би-Си.

На этом рисунке представлена частотная зависимость по Мак-Нэру (кривая 1); ее модификация, предложенная Брюэлем (Bruel) (кривая 2 — в ней увеличено затухание реверберации в окрестностях частоты 300 Гц); независимая от частоты скорость затухания реверберации (кривая 3). Последней закономерности придерживаются до сих пор на студиях Би-Би-Си. Будучи приверженцем не только немецкого, но и английского звука, я также предпочитаю этот вариант.

В действительности различия между рассматриваемыми частотными характеристиками времени реверберации на субъективном уровне не так существенны. Они проявляются в малозаметных особенностях тонального баланса, привычка к которому подобна привычке к национальной кухне. Это подтверждает сравнение звукозаписей английских, французских, немецких и американских фирм. Такие изменения в тональном балансе опытному слушателю заметны, но на качество передачи музыки влияния не оказывают. Убывание музыки наблюдается только тогда, когда на отдельных частотах, возникает ощутимое по сравнению со средним значением уменьшение скорости затухания. Субъективно это напоминает искажения групповой задержки, то есть воспринимается слушателем как специфическая окраска звучания.

4. Соотношение первичного сигнала и рандомизированного отклика

Физическая природа акустической реверберации такова, что при прослушивании музыки ушей достигают два сигнала: первый - прямой, нерандомизированный, другой - рандомизирован по фазе в процессе реверберации.

На самом деле такое разделение условно, так как прямой звук и его копии, отраженные от стен, пола и потолка, друг от друга практически неотличимы. После того как они смешались, различить их можно только по направлению векторов колебательной скорости звука. Тем не менее, представление результата рандомизации в виде двух объединяющихся сигналов полезно, поскольку позволяет учесть еще два параметра, важных для восприятия музыки и речи.

1. Время задержки рандомизированного сигнала относительно прямого (в архитектурной акустике эта задержка обусловлена тем, что путь прямого звука существенно короче, чем тот, который преодолевают первые и последующие отражения).

2. Энергия первичного сигнала может по-разному соотноситься с энергией рандомизированного отклика (в концертном зале это соотношение зависит от удаленности слушателя от исполнителя). Это отношение в сочетании с Т₆₀ - один из важнейших критериев оценки качества слушательских мест в концертном зале [10].

Эволюция сформировала орган слуха так, что время задержки между прямыми и отраженными звуками оказывается в пределах от 5 до 30 мс (снова см. эффект Хааса [5]). Если в реальной акустической обстановке это время меньше, то начинает страдать ясность звучания (артикуляция, детальность и т. п.); если же оно больше 30 мс, у слу

Источник: http://aml.nm.ru/articles/formula_sound_3.htm