Дубляж фильмов – это сложный многокомпонентный процесс, сочетающий художественные и технические аспекты звукорежиссуры. Его цель – заменить оригинальную речевую дорожку на другой язык так, чтобы новая озвучка органично вписалась в звуковую картину фильма. Роль дубляжа в кинопроизводстве огромна: качественный дубляж обеспечивает локальным зрителям полноценное восприятие сюжета и эмоций персонажей. При этом к локальным миксам предъявляются строгие требования по качеству звука, синхронности и соответствию оригиналу. Локальный дубляж должен звучать так, словно именно на этом языке изначально говорили актеры, без посторонних шумов, артефактов или несоответствий тембра.
Чтобы достичь такого результата, звукорежиссеры-дубляжисты используют комплексный подход к сведению и мастерингу диалоговой дорожки. Он включает как традиционные методы обработки голоса (эквализация, компрессия и т.д.), так и специализированные техники (шумоподавление, тональное выравнивание, реверберация для соответствия акустике сцены). Важно учесть эволюцию технологий: то, как работали со звуком в 1990-е годы, существенно отличается от практик 2010-х и, тем более, 2020-х годов. Ниже мы рассмотрим исторический контекст — от аналоговых консолей и шумоподавления Dolby в 90-е до современных объектов в Dolby Atmos и облачных рабочих процессов в 2020-е — а затем подробно разберем практические аспекты обработки голоса для дубляжа, включая DIY-workflow (подход «сделай сам») для небольших студий или индивидуальных специалистов.
В ходе исследования использованы отраслевые материалы Dolby Laboratories, стандарты EBU и ITU по громкости, статьи AES, а также практический опыт, отраженный в интервью и блогах профессиональных звукорежиссеров. Всего проанализировано более 15 источников, чтобы обеспечить технически точное и актуальное изложение. Ниже представлена эволюция технологий и подходов, за которой следует пошаговое руководство по самостоятельному сведению дубляжа.
Технологический контекст по десятилетиям
1990-е годы: аналоговые системы, пленка и Dolby SR/Digital
В 1990-х индустрия кинозвука все еще опиралась на аналоговое оборудование, хотя в конце десятилетия начали проникать цифровые решения. Сведение дубляжа на раннем этапе осуществлялось на крупных аналоговых консольных пультах. Каждая ручка и фейдер такой консоли выполняли фиксированную функцию, сигнал проходил через аналоговые цепи, а автоматизация была весьма ограниченной. Обычно на одной консоли могло быть порядка 60 каналов, и материалы сводились с плёночных многодорожечных магнитофонов. Звукорежиссерам приходилось физически управлять множеством фейдеров, иногда прибегая к «side-car» – дополнительным малым пультам для расширения количества каналов. Это наложило ограничения на сложность дубляжных миксов.
Запись и сведение производились на магнитную плёнку; широко применялись шумоподавляющие системы Dolby. Стандартом для аналоговых киноплёнок был Dolby SR (Spectral Recording) – система шумопонижения, улучшавшая динамический диапазон оптической дорожки примерно до ~46 дБ. В середине 90-х появился формат Dolby Digital (AC-3), также называвшийся Dolby SR-D: на пленке одновременно записывались аналоговая стереопара с Dolby SR и цифровой 5.1 саундтрек. Первый фильм с Dolby SR-D («Бэтмен возвращается») вышел в 1992 году. Цифровой трек обеспечивал значительно больший динамический диапазон – порядка 60 дБ с отношением сигнал/шум ~98 дБ. Для сравнения, аналоговый Dolby SR ограничен ~46 дБ динамики, в то время как совмещенный с цифровым SR-D позволил расширить его до ~60 дБ и обеспечить более высокие пиковые уровни без искажений. Это означало, что дубляжные миксы конца 90-х могли передавать как очень тихие шепоты, так и громкие всплески (в рамках ~12 dB дополнительного запаса по пикам на цифровой дорожке).
Однако работа с аналоговым носителем накладывала ограничения. Монтаж дубляжа требовал точной физической резки и склейки плёнки или копирования фрагментов, а каждое смешивание добавляло шум и теряло качество. Шумопонижение Dolby SR помогало сдерживать шумовой фон, но делало необходимым строгий контроль уровней: при печати оптической стереодорожки нельзя было превышать допустимые пределы модуляции, чтобы избежать перегрузки. Задача инженера дубляжа в 90-е заключалась в ювелирном балансировании диалогов с музыкой и шумами (M&E) в условиях ограниченной динамики и значительного уровня собственных шумов аппаратуры. Несмотря на эти трудности, к концу десятилетия технологическая база позволила создавать качественные локальные миксы: большинство фильмов выходило с стерео или Dolby SR-D 5.1 дорожками (в кинотеатрах 5.1 декодировалось с оптического цифрового потока). Таким образом, 1990-е стали переходным периодом, когда аналоговые методы сведения голоса соседствовали с новыми цифровыми форматами распространения звука.
2010-е годы: повсеместный DAW-workflow, 5.1 и стандарты громкости
К 2010-м годам аудиопостпродакшн окончательно перешел в цифровую среду. Теперь основным инструментом звукорежиссера дубляжа стала DAW (Digital Audio Workstation) – чаще всего Avid Pro Tools, но также используются Steinberg Nuendo, Apple Logic или интегрированные решения (Fairlight в DaVinci Resolve и др.). Монтаж и сведение диалогов происходят «в цифре»: десятки и сотни дорожек диалога, Foley, эффектов загружаются в проект, где доступны неразрушимая правка, автоматизация параметров, плагины обработки в реальном времени и мгновенный откат изменений. Еще в начале 2000-х смешанные подходы (Pro Tools + внешний аналоговый пульт) были нормой, но около 2000–2005 гг. появились примеры полного «mixing in the box», когда большой аналоговый пульт использовался лишь как контроллер и мониторный секцион. К 2010-м эта практика стала универсальной: даже на крупных студиях микширование нередко выполняется на цифровых консолях с движками, основанными на DAW, или непосредственно в компьютере, с выводом на многоканальный даунмиксер. Современные цифровые микшеры способны обрабатывать сотни входов с индивидуальной обработкой, чему старые аналоговые пульты не могли сравниться. Это позволяет без компромиссов сводить сложные дубляжные проекты, где может быть десятки голосовых дорожек (основные реплики, альтёрнаты, групповки и т.д.).
Формат многоканального звука к 2010-м был стандартным – практически все локальные релизы сводятся в 5.1 Surround. Помимо шестиканального микса, обычно готовится стереоверсия (для телевидения или старых залов) и набор вспомогательных стемов (Dialog, Music, Effects). К середине декады стал появляться формат 7.1 (например, для Blu-ray) и начали внедряться первые элементы объектного звука (Dolby Atmos) – однако массово Atmos для дубляжа будет освоен позже, в 2020-х. Важным сдвигом 2010-х стало введение стандартов громкости. Раньше миксы контролировались по пиковому уровню, что приводило к гонке громкости между разными релизами. Европейский вещательный союз (EBU) в 2010 г. выпустил рекомендации EBU R128, задающие единый уровень интегрированной громкости −23 LUFS (LUFS – единицы громкости относительно полной шкалы) для длительности программы. С тех пор во всех теле- и стриминговых проектах требуется измерять и выдерживать среднюю loudness диалогов около этого значения. В кинотеатральном контексте обычно микшируют при целевом уровне диалогового дипа ~−27 LKFS (например, Netflix для домашних миксов рекомендует −27 LKFS ±2 LU, диалог-гейтед), что близко к традиционному Dolby Dialnorm 27. Практически это означает, что диалоговая дорожка дубляжа должна быть выровнена по громкости с оригинальной: зритель не должен заметить разницы в уровне при переключении языка. Стандарты также ограничивают пиковый уровень: True Peak ≤ −1 дБTP, чтобы избежать цифровых искажений при трансляции.
В 2010-е росло внимание к динамическому диапазону дубляжных миксов. С одной стороны, домашние условия прослушивания ограничены (нельзя делать слишком большой разброс громкостей, иначе тихие реплики будут неразборчивы), с другой – чрезмерная компрессия лишает звук натуралистичности. Появились метрики вроде Loudness Range (LRA), характеризующие вариативность громкости в программе. Многие заказчики требуют, чтобы LRA диалогового (или полного) микса не превышал определённого значения (например, ≤ 18 LU для фильмов, ≤ 8 LU для ТВ-шоу и т.п.), что учитывается при мастеринге дубляжа. Таким образом, в 2010-е сформировался DAW-based workflow с акцентом на точный контроль громкости и многоканальное окружающее звучание. Задача дубляжного звукорежиссера расширилась: мало просто свести «чисто» – нужно обеспечить соответствие строгим числовым критериям (LUFS, dBTP, LRA), что отслеживается специальными измерителями громкости.
Наше время (2023–2025): Dolby Atmos, ИИ-шумоподавление и облачные технологии
Сегодня, в середине 2020-х, звукорежиссура дубляжа стоит на новом витке технологической эволюции. Dolby Atmos – формат объекто-ориентированного иммерсивного звука – становится повсеместным не только для оригинальных релизов, но и для локализованных версий крупных фильмов и сериалов. В отличие от классического channel-based микса (5.1 или 7.1), Atmos позволяет микшировать звуковые объекты – индивидуальные источники с метаданными о их позиционировании в зале. Система поддерживает до 128 объектов. Для дубляжа это значит, что диалоги могут быть представлены одним или несколькими объектами, свободно размещаемыми в 3D-пространстве. Например, реплики «из-за кадра» или голос бога можно позиционировать не только по панораме, но и по высоте. При мастеринге Atmos-микса очень важно, чтобы локальный дубляж сохранил задуманный создателями объемный эффект. Поэтому при создании дубляжа часто используют ATMOS Home миксы: диалоги дублируются и интегрируются уже в объектном пространстве на базе исходного Atmos-проекта (если он доступен). Если же студия дубляжа не имеет доступа к Atmos-режиссерской версии, обычно ограничиваются near-field 5.1 миксом, который затем может быть вставлен дистрибьютором в Atmos как замена диалогового слоя. В любом случае, знание основных принципов Atmos (например, разделение на bed-слои и объекты, требования к мониторингу 7.1.4, управление метаданными) теперь требуется и от специалистов по дубляжу.
Другая примета настоящего времени – стремительное внедрение искусственного интеллекта (AI) в инструменты обработки речи. Особенно это коснулось шумоподавления и реставрации голосовых записей. Классические алгоритмы (большинство из которых – спектральные вычитатели шумов) дополнились обученными нейросетями, способными узнавать человеческий голос и отделять его от фоновых звуков. Например, плагин Waves Clarity Vx (2022) произвел революцию тем, что нажатием одной кнопки позволяет убрать шум ветра, транспорта, гула кондиционера и т.п. из диалога, оставив голос практически нетронутым. В отличие от традиционного Cedar DNS, работающего как широкополосный подавитель шума, AI-инструменты (Clarity, iZotope Dialogue Isolate, Accusonus Voice denoise и др.) идентифицируют голос как главный сигнал и удаляют все остальное – будь то монотонный гул или разовые звуки вроде щебета птиц. Это открывает новые возможности: теперь даже записи с крайне неблагоприятным фоном могут быть «спасены» без перезаписи. Однако и классические решения продолжают совершенствоваться: Cedar DNS по-прежнему остается золотым стандартом на крупных дубляжных студиях для быстрой очитски речи от шума кондиционеров, дороги и т.п. без заметных артефактов. Более того, DNS-процессоры встроены почти во все дубляжные этапы – как отмечает член AMPAS, технология DNS «вероятно, использовалась в каждом крупном голливудском фильме последних лет» и стоит практически на всех дубль-студиях мира. DNS остается непременной частью диалогового тракта, придавая характерный «голливудский» лоск очищенному голосу. Комбинация AI-подхода и классического шумоподавления – тренд 2020-х: специалисты часто применяют несколько этапов очистки, используя сильные стороны разных технологий.
Кроме шумопонижения, появились AI-инструменты для других задач дубляжа. Пример – Auto-Align Post (Sound Radix) и VoсAlign Ultra (SynchroArts). Эти программы автоматически подгоняют ADR или дубляжный дубль по таймингу под оригинальные реплики, экономя часы ручной работы. VocAlign уже давно де-факто стандарт в пост-продакшне: его используют, чтобы мгновенно совмещать по длительности и ритмике перезаписанную фразу с оригинальной. Свежая версия VocAlign Ultra добавила и автоматическую подгонку интонации – можно сделать так, чтобы дублер понижал или повышал голос в тех же местах, что и оригинальный актер, за счет изменения высоты тона и форманты в реальном времени. Более того, в VocAlign есть пресеты специально для иностранного дубляжа, учитывающие отличия языков. Таким образом, интеграция AI в рабочий процесс дубляжа расширяет инструментарий звукорежиссера.
Наконец, нельзя не упомянуть облачные технологии. Постепенно становится нормой хранение и обмен сессиями дубляжа через облачные хранилища, удаленный доступ к проектам для рассеянных команд. Крупные платформы (например, Netflix Content Hub) требуют загружать финальные миксы и стемы через облачный интерфейс, могут принимать даже сессии Pro Tools целиком. Пандемия COVID-19 ускорила переход к удаленной работе, и сейчас записать актера дубляжа, находящегося в другой стране, – решаемая задача с помощью сетевых решений (Source-Connect, SessionLinkPro и пр.). Blackmagic Design развивает DaVinci Resolve Cloud для совместной работы над проектами, Avid предлагает облачные сервисы для Pro Tools. В перспективе это приведет к тому, что дубляжный миксможет выполняться распределенной командой: редактор диалогов, микс-инженер и режиссер могут взаимодействовать, находясь в разных городах, через облачную сессию. Уже сейчас есть примеры полнометражных фильмов, полностью сведенных удаленно. Таким образом, к 2023–2026 гг. в работе с дубляжем мы видим сочетание объектно-ориентированного звука, искусственного интеллекта для обработки речи и облачных рабочих процессов.
Резюмируя: современные технологии дают беспрецедентные возможности для качественного дубляжа, но вместе с тем требуют от звукорежиссера высокой квалификации в новых инструментах. Далее мы перейдем к практической части – рассмотрим типовые цепочки обработки голоса, методы устранения проблем записей и, шаг за шагом, процесс самостоятельного сведения дубляжа с учетом всех упомянутых технологий.
Цепочки обработки голоса в дубляже
Создание естественно звучащей, разборчивой и согласованной по тональности диалоговой дорожки – ключевая задача дубляжа. Для этого при записи и сведении используется определенная цепочка обработки голоса (dialogue signal chain). Рассмотрим основные звенья этой цепочки и специальные техники, актуальные в дубляже.
Запись: микрофоны, предусилители, конвертеры
Качество финального дубляжа во многом закладывается на стадии записи реплик (ADR-сессии для дубляжа). Микрофон – первый и очень важный элемент. В профессиональном дубляже обычно применяются конденсаторные микрофоны большого мембраны с нейтральной или слегка теплой характеристикой, передающие нюансы голоса. Классикой индустрии являются модели Neumann (U87, TLM-103), Sennheiser (MKH-416 – «пушка», часто используется для совпадения с тембром production sound). Как отмечает практикующий ADR-инженер, совпадение типа микрофона и его позиции с оригиналом чрезвычайно важно: если на съемке голос писали «пушкой» сверху, то и в студии нужно ставить такой же микрофон на расстоянии ~30–50 см над актером, под углом к рту. Также нередко одновременно пишут парой микрофонов – «пушка» и петличный – чтобы потом выбрать, какой лучше ляжет в сцену.
Предусилитель и AD-конвертер влияют на чистоту и динамику записи. В топовых студиях дубляжа сигнал с микрофона пропускают через высококлассные ламповые или транзисторные предусилители (Neve, SSL, API и др.), которые могут слегка окрашивать звук приятным теплом. Конвертация в цифру обычно выполняется на 24 бит / 48 кГц (индустриальный стандарт для кино). В домашнем же DIY-варианте важно хотя бы обеспечить низкий уровень шума и отсутствие искажений: использовать аудиоинтерфейс с чистым преампом, правильный гейн-стейджинг (пиковые уровни речи порядка −12 дБFS, чтобы был запас). И, конечно, акустика помещения: если нет профессионально построенной камеры, нужно хотя бы повесить вокруг диктора звукопоглощающие панели, устранить эхо и гул. Многие домашние дубляжисты работают в наушниках, но запись в наушниках требует, чтобы у актера не было «лизуна» (просачивания реплик из наушников обратно в микрофон). Для этого используют закрытые наушники и минимально необходимую громкость в них.
Качество записи напрямую влияет на объем последующей обработки. Золотое правило: «Garbage in – garbage out». Чем чище и ближе к идеалу записан исходник, тем меньше понадобится исправлять эквалайзером или шумоподавителем. Один из инженеров удачно заметил: грамотная работа с микрофоном «устраняет» большую часть проблем – лишний бубнеж, взрывные согласные, сибилянты, шумы дыхания и т.д. – еще до обработки. Поэтому перед тем как кидаться в плагины, убедитесь, что запись сделана максимально хорошо технически.
Базовая цепочка обработки: EQ → компрессия → де-эссер → гейт/экспандер
После записи (или при сведении готовых дублей) голос проходит через ряд стандартных обработок. Классический порядок для очистки и выравнивания звучания диалога следующий: коррекционная эквализация, затем компрессия, затем де-эссер, а в конце при необходимости шумовой гейт или экспандер. Рассмотрим каждое звено:
- Коррекционный эквалайзер (EQ). Первым в цепи обычно ставят эквализацию, чтобы удалить ненужные частоты и выровнять тональный баланс голоса. Как правило, делают нисходящую (субтрактивную) эквализацию: отрезают низ и верх вне спектра речи, вырезают гулкие или резонансные участки. Рекомендуется начать с high-pass фильтра (HPF): обрезать низкие частоты, где только шум и гул. Частота среза HPF зависит от голоса – для мужского можно 60–80 Гц, для женского/детского выше, иногда вплоть до 100–120 Гц (чтобы убрать шум кондиционера, гул стоек и прочее). Также полезно убрать избыточный низкий мид-бас: часто микрофоны дают мутность около 200–500 Гц, небольшой колоколообразный срез (−3…−6 дБ) в этом диапазоне очищает голос. Далее смотрят на резонансы помещения или микрофона – узкие пики на спектре. К примеру, дешевые микрофоны могут давать «картонность» на 3–5 кГц; в дубляже нередко возникает специфичный «paper» оттенок в верхней середине (4 кГц зона), его слегка причесывают эквалайзером. Как говорят звукорежиссеры: “если звучит правильно – значит правильно”. Не бойтесь радикальных фильтров, если надо приблизить ADR к Production: иногда ADR-реплика слишком чистая, тогда применяют low-pass фильтр на ~5–6 кГц, чтобы имитировать заглушенность оригинала. В целом, эквализация – это ваш основной инструмент маскировки дубляжа: убрать гул комнаты, скорректировать тембр под образ, подогнать частоту под окружающие звуки сцены.
- Компрессия. После EQ идет компрессор – для выравнивания динамики речи. Цель компрессии диалога в дубляже – сделать громкие и тихие слова более ровными по уровню, сохранив при этом естественность. Хороший ориентир – добиться RMS (среднеквадратичного) уровня голоса в диапазоне примерно −18…−12 на пике эмоций. То есть, речь не должна болтаться от шепота до крика слишком разреженно; компрессор чуть подтянет тихие места и удержит слишком громкие. Настройки компрессора: умеренное отношение (коэффициент) порядка 2:1 – 4:1, Threshold выставляют так, чтобы компрессия срабатывала на более громких фрагментах, давая подавление 3–6 дБ максимум на пиках. Время атаки – среднее (около 10 мс), чтобы не рубить транзиенты полностью, но и не пропускать резкие всплески; релиз – порядка 50–100 мс, чтобы компрессор успокаивался между фразами и не вызывал «дыхания» шумов сцены. Небольшое смягчение Knee (если доступно) поможет сделать срабатывание более плавным. После компрессора голос воспринимается более сфокусированным и стабильно сидящим в миксе. Однако нужно следить, чтобы не возник «насосный» эффект (pumping), когда компрессор заметно качает шум фона или резко давит окончания фраз. Если такое случается, попробуйте увеличить атаку/релиз, либо снизить Ratio. В процессе дубляжа компрессор – скорее утилитарный; он не должен придавать явную окраску (если только нет спецзадачи). Поэтому популярны прозрачные VCA-компрессоры (например, эмуляции SSL 4000 Bus Comp, или даже встроенные динамические модули в DAW). Иногда применяют и мультимандные компрессоры, чтоб отдельно укротить, скажем, бубнеж низов или выпирающий диапазон 2–4 кГц; но в простых случаях достаточно обычного компрессора.
- De-esser (сибиллянтный компрессор). Третий в цепочке – дессер, прибор для устранения излишней сибиллянтности («шипящих» звуков “С”, “Ш”, “Щ”). Логика постановки после основного компрессора такова: компрессия часто усиливает сибилянты, делая их более заметными. Поэтому de-esser лучше срабатывает уже на сжатом сигнале. Настраивают де-эссер на диапазон ~5–8 кГц – именно там лежит энергия “с” и “ш” звуков у голоса. Цель – убрать резкие пики сибилянтов, но не сделать речь глухой. Обычно достаточно подавления на 3–6 дБ (в экстремальных случаях до 10 дБ на самых проблемных звуках). Хороший де-эссер – незаметный: в момент шипящих слегка приглушает ВЧ, остальное время не трогает сигнал. Если де-эссер оставить до компрессора, то компрессор может нивелировать его эффект, снова вытащив «с» вверх – поэтому соблюдайте порядок. На рынке много специальных де-эссеров (Waves Sibilance, FabFilter DS, Sonnox SuprEsser и т.д.). Можно и вручную управлять – автоматизацией эквалайзера на этих фрагментах или расставляя Clip Gain вниз на сибилянсах. Важно не переусердствовать: некоторые зрители разных языков иначе воспринимают высокие частоты речи, и чрезмерный de-essing может сделать дикцию менее четкой.
- Gate / Expander (шумовой гейт или экспандер). Последним звеном иногда ставят шумовой гейт либо экспандер для снижения уровня шума между фразами. В идеале в дубляже у вас тишина в паузах (так как пишется в студии), но на практике могут оставаться фоновые шумы, дыхание актера, шелест одежды. Шумоподавляющий гейт открывается, когда человек говорит, и закрывается (приглушает сигнал), когда он молчит. Это позволяет отсечь шум в паузах. Однако с гейтом надо быть осторожным: слишком крутой гейт будет резко обрывать концовки слов или делать неестественную «мертвую тишину» между словами, которая тоже чужеродна (в жизни абсолютной тишины не бывает, всегда есть небольшой фон). Поэтому чаще вместо полного gating применяют мягкий экспандер, который опускает фоновые звуки на 5–10 дБ, но не до нуля. Многие диалоговые процессоры (например, модуль Dialogue Processor в DaVinci Resolve Fairlight) имеют встроенный expander для этой цели. В DIY-условиях можно вообще обойтись без гейта, просто вручную вырезав шумы в паузах или подложив ровный room tone, который мы позже обсудим. Важно: если вы применили шумоподавление iZotope RX и т.п., то скорее всего фон уже достаточно чистый, и дополнительный гейт может не понадобиться.
Дополнительно в базовую цепочку иногда включают сателлитные обработки: например, легкую сатурацию/эксайтер для обогащения гармоник (каплю ламповой теплоты, чтобы голос «прорезал» микс). В малых дозах это можно делать – некоторые плагины-компрессоры имеют встроенный регулятор Warmth (как Oxford Dynamics). Также может быть задействован Transient Shaper до или после компрессора – о нем поговорим отдельно. Но в целом, стандартный канал дубляжа выглядит как описано: EQ → Comp → De-ess → Gate. Такой порядок подтверждается многими профи. В реальности, конечно, возможны отклонения: кто-то ставит де-эссер перед компрессором, если уж очень сильные шипящие (чтобы компрессор не реагировал на них), или эквалайзер еще после компрессора для шлифовки. Нет жестких правил, итог важнее порядка.
Специальные приемы: удаление артефактов дыхания, репитчинг, транзиент-шейпинг
Помимо основной обработки, в дубляже часто приходится применять специальные техники для решения узких проблем или улучшения натуральности звучания.
- Удаление дыхания. Актёр дубляжа, как и любой человек, между фразами делает вдохи. Порой эти вздохи слишком громкие или частые, и их нужно убрать либо ослабить, чтобы не отвлекали. В классическом подходе дыхание либо вручную вырезают/затухают, либо понижают его громкость (Clip Gain или автоматизация). Но важно не перестараться: совсем убрать все дыхание – тоже плохо, речь станет неживой. Обычно оставляют часть естественных вдохов, особенно там, где актер на экране явно дышит. Отдельные шумные вздохи можно просто сделать тише дБ на 10. Существует и автоматический инструмент – Waves DeBreath плагин, который анализирует паузы и вырезает шумы дыхания автоматически. Однако его работа не идеальна, часто безопаснее вручную править. В ADR постпродакшене есть подход: записать немного “чистого дыхания” актера и подкладывать нужный вздох, если родной был вырезан. Кроме дыхания, удаляют и прочие вокальные артефакты: губные шумы, щелчки слюнные – это делается через iZotope De-click, De-plosive и т.п. Небольшая чистка таких вещей заметно повышает класс звучания дубляжа.
- Репитчинг (изменение высоты тона) и формантная коррекция. Иногда дубляжному инженеру требуется слегка подправить высоту голоса. Причины могут быть разные: например, совмещение интонации с оригиналом – если дублер сказал фразу на понижающейся интонации, а в оригинале была повышающаяся к концу, можно подкорректировать питч на финальном слоге. Инструмент iZotope Dialogue Contour специально для этого сделан – позволяет “нарисовать” плавную кривую высоты тона фразы. Другая ситуация: актер озвучания звучит слишком резко, молодо/старо по тембру. Тогда применяют формантный сдвиг – сдвигают форманты вниз, чтобы голос казался чуть ниже и солиднее, или вверх – чтобы помолодить. Современные плагины (Revoice Pro, VocAlign Ultra) умеют менять питч, сохраняя форманты, или менять форманты независимо. На практике репитчинг в дубляже применяют очень экономно – изменение не больше чем на полтона (±0.5 семитона), иначе голос перестанет быть узнаваем. Любопытный прием приводил звукоинженер Sonsey: когда ADR звучит «тише» чем должен (актер недоиграл громкость), он слегка повышает питч на доли тона – ведь при громкой речи у людей естественно голос чуть выше. Такой едва заметный трюк может придать реплике энергию крика, даже если записано спокойнее. Главное правило – избегать слышимых артефактов автотюна, дубляж не должен превратиться в роботизированное пение.
- Transient shaping (управление транзиентами). Транзиент-шейперы – плагины, которые могут отдельно усилять или уменьшать атаки и релизы звука – тоже нашли применение в диалогах. В каких случаях они помогают? Например, если запись сделана в слегка эховом помещении и имеет длинные хвосты от голоса, уменьшение релиза (sustain) через транзиент-шейпер может подсушить звук, имитируя более глухую комнату. Такой подход упоминался на форумах: плагин SPL De-Verb (версия Transient Designer) многим нравится именно за способность убавить амбианс без заметных артефактов, причем в реальном времени, без вырезания шумов. Другой кейс – чересчур «жесткие» транзиенты: иногда у актера слишком резкие согласные «т», «к» бьют по уху или сильные взрывные («п», «б») дают пик на микрофоне. Транзиент-шейпером можно смягчить атаку, чуть скруглив эти звуки. В отличие от компрессора, который реагирует по уровню и может давить и полезный сигнал, транзиент-процессор работает более избирательно по форме сигнала. Как отмечают специалисты, транзиент-шейпинг – недеструктивный, автоматизируемый и ненавязчивый способ усмирить реверберацию или шум без характерных артефактов компрессии/гейта. Поэтому в ситуациях, когда традиционный noise reduction слишком заметно портит голос, можно попробовать транзиентный экспандер.
Кроме этих методов, существуют и другие хитрые приемы. Например, при сведении ADR к production звуку иногда специально добавляют немного искажений или эксайтер. Если оригинальная запись, сделанная на площадке, имеет ограниченный диапазон или искажена радиосистемой, то чистый ADR может чересчур выделяться. Решение – слегка «испортить» ADR: добавить Aphex Aural Exciter для зернистости высоких, либо даже примешать дисторшн (например, Avid Lo-Fi) для имитации перегрузки радиомикрофона. Это противоинтуитивно, но иногда необходимо для правдоподобия. В дубляже фильмов такие вещи редки, но вот в дубляже реалити-шоу, где исходный звук грязный, могут использоваться.
Подытожим: стандартная цепочка обработки голоса обеспечивает чистоту и ровность, а специальные техники помогают подогнать звучание дубляжа точно под оригинал и убрать артефакты. Настало время разобраться, как решать более глобальную проблему – реставрацию и унификацию некачественных записей, ведь не всегда актеров пишут в идеальных условиях.
Реставрация и унификация некачественных записей
В дубляже нередко сталкиваются с ситуацией, когда разные реплики звучат неоднородно: часть записана на хорошей студии, часть – на выезде; у одного актера дорогой микрофон, у другого – бюджетный; или нужно вписать реплику, записанную в другое время, в общую сцену. Задача – сделать так, чтобы все голоса в фильме звучали единообразно, будто они из одного пространства, одной акустики. Для этого применяют комбинацию реставрационных технологий и тонального сведения.
Диагностика проблем: шум, реверберация, искажения, узкий частотный диапазон
Прежде чем лечить – надо понять «симптомы». Типичные проблемы неидеальных голосовых записей:
- Фоновый шум. Это может быть шипение, гул вентиляции, уличный шум, эхо помещения. Шум проявляется как постоянный нежелательный звук под голосом. Субъективно уменьшает разборчивость и «бюджетит» звучание (сразу слышно, что писалось не в глухой студии).
- Сильная комната / реверберация. Если запись делалась в непоглощенном помещении, голос содержит много отражений. Слышится «эхо ванной» или бубнёж зала. Это тоже плохо: при монтаже в фильм голос с большим реверберационным хвостом не будет сочетаться с сухими M&E дорожками.
- Дисторшн (перегруз, клиппинг). Иногда крики или громкий голос записались с перегрузом – появляются хрипы, треск на пиках. Либо использовался дешевый рекордер с ограничением динамики – часть атак «сплющена».
- Узкая АЧХ (тонкая, телефонная окраска). В случае использования недорогого микрофона или, скажем, записи через гарнитуру, у голоса может не быть низких частот, а средние могут иметь выпуклость («носовой», «тонкий» тембр). В совокупности с компрессией радиоканала это дает эффект, что голос как по телефону звучит – отсутствует телесность.
После выявления конкретных проблем по каждой дорожке, выстраивается план реставрации.
Шумоподавление: iZotope RX, Cedar DNS, Waves Clarity Vx (spectral repair vs dialogue isolate)
Борьба с шумом и эхом – первоочередная задача. Современные инструменты дают две принципиально разные стратегии: широкополосное шумоподавление и искусственный интеллект для извлечения голоса.
Широкополосное шумоподавление включает классические решения вроде CEDAR DNS, Waves WNS, iZotope Voice De-noise. Они анализируют спектр шума и вычитают его из сигнала, подавляя примерно равномерно по всем частотам. Cedar DNS (Dialogue Noise Suppressor) – эталон такого подхода: его алгоритм эффективно убирает гул улицы, ветер, кондиционер и пр. на лету, практически без артефактов при умеренных настройках. DNS имеется и в виде софта (CEDAR DNS One) и как железо (DNS2, DNS8). Как гласит реклама, он «спас диалоги в бесчисленных фильмах» и позволяет избежать дорогостоящего переозвучивания (ADR). В правильных руках DNS настолько привычен уху зрителя, что считается частью «фирменного голливудского звука» – пройдясь DNS, вы как бы придаёте дорожке студийный блеск, убирая лишнее. Принцип действия: пользователь находит порог, ниже которого шум давится (например, −12 дБ относительно речи) и подавляет его с нужной глубиной. Сильное подавление может привести к эффекту, похожему на лёгкую компрессию и легкий раскрас (DNS привносит свой subtle «почерк», но не в виде артефактов, а скорее в виде особой тишины). В любом случае, DNS и аналоги лучше справляются с стационарными шумами – постоянными в течение фразы.
Другой подход – AI Voice Extraction, представленный в инструментах типа Waves Clarity Vx, iZotope Dialogue Isolate, Accusonus Voice DENoise. Они пытаются выделить сам голос как сигнал, а всё остальное воспринимают как шум, даже если это нестационарные звуки (машина проехала, чьи-то шаги, щелчки). Например, Waves Clarity Vx Pro с помощью обученной сети удаляет и фоновые текстурные шумы, и одиночные звуки с минимальными артефактами. Dialogue Isolate в iZotope RX работает по схожему принципу. Преимущество: можно спасти запись с очень сложным шумом, где традиционный DNS бессилен (например, шумная толпа, музыка на заднем плане). Недостаток: иногда нейросеть убирает слишком много, делая голос стерильным или пропадающим местами, или внося металлические булькающие артефакты. Лучший результат часто достигается комбинированием: например, сначала снять общее шипение DNS’ом на пару дБ, затем применить Dialogue Isolate для оставшихся звуков на ещё −6−8 дБ, вместо попытки одним инструментом задавить −14 дБ сразу. В реальных кейсах специалисты так и делают: многоступенчатая чистка – сперва Broadband NR, потом AI, потом ручная дорисовка спектральным редактором самых сложных моментов.
Отдельно упомянем спектральный ремонт (Spectral Repair), входящий в iZotope RX. Это почти хирургический метод: в спектрограмме звука выделяют проблемный участок (скажем, звяк посуды или лязг) и либо затирают его, либо заменяют на интерполированное по соседям. Спектральная очистка требует времени и навыка, но позволяет устранить уникальные артефакты, которые нельзя вырезать фильтром. Например, внезапный писк микрофона или собачий лай в фоне можно в RX просто вымарать, не тронув речь вокруг. Этот метод часто используют при подготовке оригинального звука, но и в дубляже может пригодиться, если в записи дубляжа что-то попало (хоть в студии и стараются тишину держать).
Если проблема – избыточная реверберация, существуют де-реверберационные плагины (iZotope De-reverb, SPL DeVerb). Они математически пытаются отделить прямой звук от отражений. В легких случаях (комната не очень «живая») такие инструменты могут помочь подсушить ADR. Однако сильное эхо убрать без заметных последствий крайне трудно. Бывает, проще не подавлять реверб на дубляже, а… добавить похожий реверб на остальные фрагменты, чтобы уравнять. Об этом далее.
Тональное выравнивание и моделирование микрофонов: Slate VMS, Townsend Sphere, match EQ
После устранения шумов/реверберации следующий шаг – добиться единообразного тембра у всех реплик. Особенно актуально, если актёры писались на разных микрофонах или в разные дни. Тут есть несколько инструментов:
Match EQ (тоновое сопоставление эквалайзером). Многие эквалайзеры или специальные утилиты умеют проанализировать спектр одного сигнала и «применить» его к другому. Например, в iZotope Ozone есть Match EQ, в FabFilter Pro-Q – опция Matching. В контексте дубляжа это можно использовать так: взять эталон – фрагмент идеально записанной реплики (с хорошей АЧХ), и под него подогнать проблемную реплику. Плагин автоматически нарисует эквализационную кривую, компенсирующую разницу. Jeff Carpenter, описывая процесс ADR, упоминал, что iZotope Dialogue Match (пакет для Pro Tools) может матчить эквализацию и реверберацию оригинала, и иногда это действительно выручает. Хотя полагаться только на автоматику он не советует, но в конце, когда все ручные приемы исчерпаны, такой инструмент способен дать последние штрихи. Если специальных плагинов нет, можно вручную: проанализировать спектры (например, через Span) и обычным эквалайзером приблизить одну кривую к другой.
Микрофонное моделирование. Более продвинутый способ – использовать системы, эмулирующие дорогие микрофоны. Например, Slate Virtual Microphone System (VMS) или Townsend Labs Sphere. Они состоят из калиброванного нейтрального микрофона и программного модуля, который меняет его АЧХ и диаграмму до совпадения с выбранным классическим микрофоном (Neumann U67, Telefunken 251 и т.д.). В дубляже применение такое: если у вас часть реплик записана на простенький конденсаторник, можно пропустить их через модель U87, чтобы окрасить так же, как реплики, реально снятые на U87. Townsend Sphere L22 даже позволяет после записи менять диаграмму направленности и прочие параметры, фактически «перезаписывая» материал виртуально. Важное преимущество моделинга – он также компенсирует недостатки недорогих микрофонов. Например, если запись «тонкая» без низа, модель знаменитого микрофона добавит недостающий низ (путем эквализации и гармоник). По сути, это тоже разновидность match EQ, просто настроенная на конкретные целевые микрофоны. Конечно, работает это лучше, если исходник снят на специальный модельный микрофон; но существуют и плагины, пытающиеся это сделать постфактум (IK Multimedia Mic Room и др.). В студийной практике микрофонные модели используются чаще на стадии записи ADR: можно записать чисто и потом менять микрофоны под каждую сцену.
Ручная тональная коррекция группой. Если несколько персонажей звучат разнородно – можно сгладить их на уровне группового шины. Например, послать все диалоги сцены на общий диалог-бус и там применить широкой кистью эквалайзер: чуть поднять низы общей полке, чуть убрать резкость на 4 кГц. Эта техника не выровняет их спектры полностью, но создаст общее тональное пространство. Часто её используют, когда дубляж сводится уже с M&E: на мастере диалогов может стоять минимальная EQ и компрессия, чтобы «склеить» всех говорящих вместе. Также может помочь коллективный тональный матч: выбрать одного актера как эталон по тембру (скажем, главный герой) и подгонять остальных под него, а не под оригинал. Главное – добиться, чтобы никто не выбивался явной окраской.
Выровняние громкости, реверберация и «склейка» сцены
После того, как тембр и чистота отдельных реплик приведены в порядок, нужно поместить их в общую акустическую среду и выровнять по громкости относительно друг друга и оригинала.
Loudness alignment (выравнивание громкости). Мы уже говорили о стандартах громкости – здесь они пригодятся. Если у вас несколько дублеров писались по отдельности, их уровни могут отличаться: кто-то говорит громче, кто-то тише. Сначала нужно внутри сцены уравнять голоса по субъективной громкости (слухом или с помощью Short-Term LUFS в 3-секундном окне, ориентир – разница не больше 1-2 LU между разными персонажами, если по логике они равноудалены). Затем – свести средний уровень диалогов сцены к требуемому. Обычно удобно взять оригинальную английскую дорожку и замерить ее Integrated Loudness по сцене или роли, и подогнать дубляж. Если оригинал – кино (без нормализации), то в целом диалоги там идут около −27 LUFS интегрировано. Для ТВ – около −23 LUFS. В любом случае, финальный дубляж микс по всему фильму измеряется: в отчете EBU Mode B обычно указывают Integrated Loudness всего фильма (должен быть в пределах допуска), LRA и Max TruePeak. Например, для Netflix дубляжа (Secondary mix) часто требуется −27 LUFS ±1 и TP ≤ −2 dBTP. Мы в DIY рассмотрении будем стремиться к −23 LUFS ±0.5 (европейский стандарт) с запасом TP −1 дБ. Такой уровень легко контролировать с помощью бесплатных метров (Youlean Loudness Meter и аналоги).
Convolution reverb для сцены. «Склейка» с пространством – решающий штрих, делающий дубляж натуральным. Что имеется в виду: если в оригинале герои стоят в большом зале, на их голосах будет определенная реверберация этого зала (ранние отражения и хвост). Дубляж, записанный в сухой студии, необходимо снабдить аналогичным «залом», чтобы не было диссонанса с окружающей акустикой (M&E обычно содержит отголоски окружения для шагов, движений). Лучший способ – сверточная реверберация (convolution reverb) с импульсной характеристикой реального помещения. Идеально – иметь снятый импульс в том же зале, где шла съемка. Практически – подобрать из библиотеки Altiverb или подобных наиболее похожее пространство. Jeff Carpenter пишет, что он просто быстро перебирает пресеты залов, пока не найдет близкий по звучанию, и слегка правит настройки. Для дубляжа важно: использовать моно-реверб для ADR, если оригинал – моно (например, звук с «пушки»). Обычно диалоги в кино – моноисточник, панорамированный, поэтому и искусственный реверб им добавляют моно-отдачей (то есть early reflections моно, а уже в surround при необходимости размазывают). Настройки: реверберация не должна быть длинной. Часто достаточно 0.3–0.7 секунды RT60 – т.е. довольно короткий хвост, но важны ранние отражения (Early Reflections). Если есть параметр «Mix», то ратио должно быть небольшим – зачастую достаточно 5–15% мокрого сигнала, чтобы ADR «село» в микс. В некоторых случаях ADR даже более сухое, чем production, особенно в крупных планах – тогда реверба почти не дают, только ER. Общая философия: зритель не должен услышать сам ревербератор, он должен лишь перестать ощущать, что голос «из студии». Поэтому как сказал один инженер: «If it sounds right – it is right» – ориентируйтесь на ухо, сравнивайте с оригиналом. Некоторые современные инструменты, как iZotope Dialogue Match, вообще автоматически берут отпечаток реверба с оригинальной дорожки и накладывают на ADR. Это сильно ускоряет процесс, хотя иногда требует дополивать руками.
Room tone и фон. Кроме явного реверберационного хвоста, у оригинальных записей всегда есть фоновый шум (room tone). При монтировании дубляжа, чтобы не было «дыр» в фоне, между репликами подкладывают room tone, подходящий к сцене. Обычно берут кусочек тишины с production track (если есть M&E, там порой нет room tone в диалоговых паузах – тогда надо поискать в исходных материалах). Если негде взять – iZotope RX может синтезировать подобие шума через модуль Ambience Match. Но лучше натуральный. Важно плавно вводить/выводить room tone, чтобы не было скачков шума. Итог: когда актер закончил фразу, вместо полной тишины мы слышим еле заметный «атмосферный» фон помещения, и зритель не ощущает подвоха.
Когда все перечисленное проделано – у нас получается дубляжная диалоговая дорожка, максимально неотличимая по качеству от оригинальной. Критерии успеха здесь: единая тембральная подпись (все голоса словно записаны одним способом), отсутствие слышимых артефактов (ни шумодава, ни кривых вырезов, ни рассинхрона), и соответствие всем техническим нормам (громкость в LUFS, динамика, пики). Если при прослушивании вслепую дубляжа без изображения кажется, что это оригинал – значит, цель достигнута.
DIY-блок: самостоятельное сведение и мастеринг дубляжа
Как быть, если у вас нет доступа к большой студии, а сделать качественную озвучку фильма нужно? Ниже приведен сценарий минимального сетапа и пошагового процесса для индивидуального звукорежиссера или небольшой студии, желающей выполнить сведение и мастеринг дубляжа профессионально.
Минимальный сетап для дубляжа
Для начала определимся, что потребуется из оборудования и софта.
- Помещение или наушники. Идеально – иметь акустически обработанную комнату с честными мониторами, где можно точно сводить баланс. Если такого нет, следующая по надежности опция – качественные студийные наушники с калибровкой АЧХ. Например, можно использовать программную калибровку типа Sonarworks SoundID Reference, которая корректирует частотную характеристику наушников до условно «плоской». С калиброванными наушниками миксы будут лучше переводиться на другие системы, поскольку вы слышите более правдивый звук. Многие отмечают, что это существенно повысило уверенность в решениях и качество миксов. Конечно, наушники не дают ощущения пространства как мониторы, но современные технологии (Waves NX, dearVR Monitor) даже это отчасти компенсируют. Итого: либо комната+мониторы, либо хорошие наушники + коррекция.
- Цифровая рабочая станция (DAW). Потребуется софт для многодорожечной записи/сведения. Подойдет любой, но популярные выборы: Reaper (очень доступный и функциональный), Pro Tools Intro (бесплатная урезанная Pro Tools – достаточно для стерео/5.1 проекта), DaVinci Resolve Fairlight (встроен в бесплатный DaVinci Resolve, умеет многоканальный звук и даже Dolby Atmos). Важно, чтобы DAW поддерживал видео-окно, т.к. нужно видеть изображение при синхронизации губ. Указанные решения это умеют. В проекте надо сразу установить правильные параметры: 48 kHz, 24-bit WAV – стандарт для кино и ТВ. Также определитесь с форматом: для начала сводим хотя бы стерео (2.0) или 5.1. DIY-энтузиасту проще работать в стерео, имитируя Lt/Rt. Но если есть возможность мониторить 5.1 (например, 6 выходов и софтверный даунмиксер), то лучше делать сразу 5.1, а стерео получить по даунмиксу.
- Контроллер громкости и измеритель loudness. Под контроллером громкости подразумевается устройство или плагин для калиброванного прослушивания. Например, простой пассивный контроллер (Nano Patch+) или даже ручка аудиоинтерфейса – чтобы вы могли устанавливать референсный уровень SPL. Рекомендуется откалибровать мониторинг: для nearfield микса – уровень розового шума −23 LUFS воспроизводит 79 dB SPL на фронтах. Это поможет микшировать интуитивно под стандарт громкости. Кроме того, необходим программный LUFS-метр (Youlean Loudness Meter, TC Clarity M, Dolby Media Meter и пр.) для контроля Integrated, Short-term Loudness и True Peak.
- Плагины первой необходимости. Предположим, DAW базовая, без дорогих сторонних пакетов. Чем стоит обзавестись:
- Linear-phase EQ. Линейно-фазовый эквалайзер пригодится на этапе мастеринга, когда нужно коррекцию без фазовых сдвигов (например, для совмещения с M&E). Впрочем, в Reaper есть ReaEQ, а линейно-фазовый можно заменить небольшими правками в RX в режиме Linear.
- VCA-компрессор. То есть прозрачный компрессор для диалога. Могут подойти бесплатные, например TDR Kotelnikov (не VCA, но очень чистый), или Variety of Sound Density. Главное – с удобными настройками attack/release.
- De-esser. Бесплатный Lisp (Sleepy-Time DSP) или опять же TDR Nova (динамический EQ) можно настроить как дессер.
- True-peak limiter. На мастер-шине нужен Brickwall limiter. Из бесплатных: LoudMax, Limiter №6 (последний имеет TP-детектор).
- Loudness meter. Уже сказали – Youlean бесплатен и хорош.
- Диалоговая реставрация (RX Elements). Этот пункт очень желателен: пакет iZotope RX Elements сравнительно недорог, а включает Voice De-noise, De-click, De-clip, De-hum – то, что часто необходимо. Если бюджет ноль, можно попытаться обойтись бесплатным Audacity и его шумопонижением, но это рискованно. RX Elements может работать как в режиме отдельного приложения (офлайн обработка файлов), так и через VST-плагины в DAW (Voice De-noise real-time).
- Linear-phase EQ. Линейно-фазовый эквалайзер пригодится на этапе мастеринга, когда нужно коррекцию без фазовых сдвигов (например, для совмещения с M&E). Впрочем, в Reaper есть ReaEQ, а линейно-фазовый можно заменить небольшими правками в RX в режиме Linear.
Итак, имея вышеперечисленное, вы вооружены для задачи. Теперь перейдем к самому workflow.
Пошаговый workflow сведения дубляжа
Предположим, у вас есть: видеофайл фильма, оригинальная M&E (Music & Effects) дорожка без голосов, и записанные вами или предоставленные VO-треки (озвученные реплики на вашем языке). Задача – смонтировать реплики, совместить с картиной, обработать, смешать с M&E и отмастерить под финальные требования.
- Импортируйте материалы и настройте сессию. Создайте в DAW проект 48 kHz / 24-bit, многоканальный (по необходимости). Импортируйте видеофайл и M&E stem – это стерео или 5.1 аудиодорожка с музыкой и шумами оригинала. Разместите M&E точно по таймкоду, соответствующему фильму (обычно старт 00:00:00:00 или с оффсетом). Отдельно импортируйте все записанные диалоговые файлы (VO-треки). Для удобства сразу разложите их по дорожкам – обычно по персонажам или сценам. Обязательно убедитесь, что синхронизация частоты дискретизации верна (48kHz и там, и там), чтобы не было дрейфа.
- Синхронизация губ (lip-sync). Это наиболее трудоемкая часть. Нужно, чтобы каждая реплика дубляжа идеально совпала по таймингу с движениями губ актеров на экране. Если вы писали реплики под изображение, актеры старались попасть – все равно потребуется подвинуть/растянуть. Что делаем: берем отдельную реплику, сверяем зрительно волнформу с оригинальной (в M&E могут остаться кусочки оригинальных голосов тихо, или у вас может быть референс-звук с камеры). Подгоняем по началу фразы – зачастую начало согласуется, а вот внутри могут быть рассинхроны. В DAW с включенной функцией варпинга (Elastic Audio в Pro Tools, Stretch markers в Reaper) можно растягивать или сжимать фрагменты слова. Например, если фраза сказана слишком медленно – ее чуть ужать по времени, чтобы губы не «болтали» без звука. Особое внимание окончаниям фраз – они должны чётко закрываться одновременно. Если доступен VocAlign плагин – воспользуйтесь им: он может автоматом сопоставить дубляж с эталоном (если эталон – оригинальная реплика). Также VocAlign Ultra может даже немного поправить интонацию при совмещении. Но полагаться полностью не стоит – всегда проверяйте глазами и ушами на видеокартинке. Частый случай: актер произнес реплику короче оригинала – тогда приходится вставлять микропаузу внутри (например, перед следующей фразой, чуть растянуть паузу) или повторить какой-то звук, чтобы длительность совпала. В крайнем случае, если фраза длиннее, а актёр не может быстрее – можно попробовать слегка ускорить запись с поднятием питча (на пару процентов), чтобы вложилась. Это допустимо, если изменение не заметно слуху. Итог: пройдите весь фильм, совместите все дубль-реплики покадрово. Это адская работа, но без неё дубляж будет непрофессиональным. Хороший липсинк – основа качества.
- Коррекционный EQ дубляжных треков. Теперь, когда черновой монтаж собран и вы можете проиграть M&E + VO вместе, слушайте критично: как «сидит» голос в сцене. На этом этапе используйте приемы из предыдущей главы по эквализации. Обычно первым делом убираем низкочастотный гул. Включите высокочастотный фильтр на каждом VO-треке, срежьте все ниже ~60–80 Гц (или выше, если не влияет на полноту голоса). Это устранит шумы, удары по стойке, микрофонные качания. Затем найдите резонансные бубнящие ноты (низ-середина): гулкость комнаты или «бум» микрофона может быть на 120 Гц или 200 Гц. Узким колоколом −3 dB там – и голос станет яснее. Далее, “бумажность” 3–5 кГц: если чувствуете неприятную жесть в голосе, слегка снизьте в этой области. Особо часто вылезает противный призвук на ~4 кГц у микрофонов-пушек или некоторых женских голосов – его можно приручить. Также уберите лишний верх: да, хочется кристальной ясности, но помните, что дубляж не должен быть намного ярче оригинала. Если оригинал – старый фильм или с мягкой пленочной АЧХ, а вы записали сверхчисто – придется даже приглушить >8 кГц, чтобы не выбиваться. В общем, делаем черновую тональную подгонку под M&E. Здесь уместно использовать и match EQ: можно проанализировать кусок оригинального саунда (например, на не полностью удалённом вокале в M&E) и вашу дорожку, сравнить спектры.
- Компрессия речи. После EQ вставьте компрессор на каждый VO-трек или на группу диалогов (если несколько персонажей одного плана). Настройте умеренно: цель – держать динамику. Предлагаемые параметры: атака ~10 мс, релиз ~70 мс, ratio около 3:1. Важно выставить Threshold: поговорите самую громкую реплику и опустите порог, пока компрессор на пиках не станет давить ~4–5 дБ. Больше обычно не надо, иначе будет слышно. Если есть режим soft knee – включите, чтобы сглаживать вступление компрессииr. Послушайте, не появился ли шум фона: если записи не идеально тихие, компрессор может вытягивать паузы. Если заметили «подсос» шума – тут поможет следующий пункт (de-esser и expander, либо отключить авто gain).
- Де-эссер. Поставьте де-эссер после компрессора на тех треках, где сильные «с-ш». Настройте чувствительность так, чтобы на проблемных звуках срабатывало понижение. Обычно ловим диапазон 6–8 кГц для женских, 5–6 кГц для мужских. Не стремитесь полностью убрать все шипящие – это неправильно, просто уберите острые пики (например, до −3 дБ). Проверяйте на словах типа «сейчас», «что»: они не должны выпрыгивать на фоне остальных.
- Шумоподавление и очистка. Теперь видно и слышно, какой шум остался на дубляже. В идеале – ничего, но если пишете в домашней, возможно слегка шуршит. Легкое шумопонижение: используйте iZotope Voice De-noise в режиме Adaptive. Выставьте Reduction примерно −10..−12 dB, не больше, Threshold подстройте, чтобы на речи не было артефактов. Так вы срежете шипение. Если был легкий эхо-комнатный тон – можно попробовать De-reverb, но он часто портит голос, будьте аккуратны. Шумы между словами лучше убрать вручную: пройдитесь по паузам и либо заглушите их (но лучше не в ноль, а на −20 дБ оставить breath), либо вставьте room tone. Удалите громкие вздохи и клики: инструментом Strip Silence или ручками вырежьте явные приступы дыхания, подправьте Plosive (Waves X-Plosive или RX De-plosive могут помочь). Короче, доведите дорожку до «студийного» качества: чистая, без лишнего. Помните – не переборщите с шумодавом. Проверяйте с M&E: если M&E громкая (музыка), то возможно шум дубляжа в ней тонет, и можно вообще не давить лишний раз.
- Добавление реверберации (space-matching). Этот творческий этап: нужно поместить ваш сухой голос в пространство фильма. Посмотрите сцену: интерьер? Экстерьер? Большой зал или тесная комната? Возьмите подходящий impulse response для свертки. Например, для офиса – короткий маленький room IR с RT60 ~0.4 s, для церкви – большой hall 2 s (но в дубляже редко такие). Обычно на диалог накладывают только ранние отражения и короткий хвост. Хороший приём: сделать два посыла – один на EarlyReflections (в некоторых реверах можно отделить), другой на Tail, и отрегулировать их отдельно. Если инструмент не позволяет – просто ограничьтесь малым временем реверберации. Подмешивайте понемногу: например, -20 dB send. Послушайте в контексте: голос не должен звучать оторвано «из студии». Если закрыть глаза, вы должны представить того актера в том помещении, которое на экране. Это тонкий момент: иногда достаточно буквально 5% эффект-сигнала. Jeff Carpenter советует: лучше использовать свертку (impulse) или очень качественный алгоритм – они дадут реализм. В бесплатном сегменте можно воспользоваться импульсами и convology XT (free). Либо в Reaper есть ReaVerb, в DaVinci – встроенные импульсы. Не забудьте сделать посыл моно, если источник – моно! (В Reaper это панорама send 100% mono.) И еще: для фронтальных диалогов ревerb обычно тоже идет в передние колонки (и немного в сурраунды при 5.1, но не слишком).
- Сведение с M&E и громкостной матчинг. Теперь включаем M&E трек и наши обработанные VO вместе. Регулируем громкость VO относительно M&E. Обычно диалоги чуть впереди музыки: разборчивость – приоритет. Если чувствуете, что на громких моментах музыка забивает речь, у вас есть несколько опций: снизить M&E на эти куски (автоматизацией), сделать легкую ducking-компрессию (sidechain от диалога в компрессор на M&E, чтобы просаживать на 2–3 дБ). Большие студии часто так и делают для международных версий: при наличии полного микса оригинала, управляют «диалоговым интеллигибилити». Но в DIY можно ручками. Когда баланс кажется хорошим, проверьте среднюю громкость диалогов: цель – около −23 LUFS Integrated по всему фильму. Можно проанализировать проект целиком или покатушками по актам. Уточнение: EBU R128 измеряет полную программу, включая M&E; но удобнее смотреть диалог-гейтед значение (когда считаются только моменты, где звучит речь). Например, Netflix указывает измерять диалоги отдельно. В конечном счете ваша дубляжная дорожка должна быть по интегральной громкости равна оригинальной речевой дорожке. Подгонять можно мастер-фейдером диалогов. True Peak диалогов при этом, как правило, должен остаться ≤ −3 dBFS (пока без лимитера).
- Финальный мастеринг (лимитирование). На финальной сумме (M&E + VO) поставьте стерео (или многоканальный) лимитер. Настройте потолок −1.0 dBTP – это требование большинства платформ. Это значит, никакой пик после даунмикса не превысит −1 дБFS. Если у вас только стерео микс, проще – выставили и всё. Если 5.1, убедитесь, что лимитер умеет следить за суммой каналов. Некоторые дают опцию «surround linking». Пропустите через лимитер самые громкие места фильма и посмотрите, сколько дБ он срезает. Желательно не больше 2 дБ. Если видите, что музыка+SFX сильно пикируют – лучше слегка понизить всю M&E дорожку, чем «ковырять» лимитером. В фильмах обычно пиков много (выстрелы, удары) – но они приходятся на эффекты, а эффекты у вас в M&E уже сведены. Поэтому ваша задача лимитера – ловить возможно резкие всплески, когда вы повысили диалог на крике и он суммировался с музыкой. Иначе говоря, страховка. После лимитера еще раз измерьте Integrated Loudness всего финального микса (если делаете экспорт сразу совмещенный). Должно быть близко к требуемому (−23 ±0.5 LUFS или что нужно заказчику).
- Контроль фазовой совместимости (LtRt даунмикс). Если вы сделали 5.1 микс, крайне рекомендуется проверить, как он свернется в стерео (LoRo и LtRt). LoRo – просто сложение с понижающими коэффициентами (Ц на -3 дБ в L/R, сурраунды в L/R на -3 дБ). LtRt – матричное кодирование Dolby Pro Logic (с фазовыми поворотами). В идеале, у вас должен быть плагин-кодер (например, Neyrinck SoundCode LtRt). Пропустите через него громкие фрагменты речи с эффектами: не пропадает ли что-то? Обычно проблема может быть, если вы вдруг сделали диалог стерео и он частично в противофазе – тогда при сведении в моно он частично отменится. Но вы-то делали диалог моноцентрично – так что все ок. Тем не менее, запустить микс в моно – обязательно. Если в моно вдруг диалоги стали тихими – беда с фазой. Чаще это происходит с эффектами (например, звук сирены антифазный), но проверить нужно.
После прохождения всех шагов – у вас готов финальный дубляжный микс. Пришло время позаботиться об экспортных файлах и документации.
Чек-лист экспорта
В зависимости от требований заказчика, вам, скорее всего, понадобятся такие итоговые материалы:
- Final Mix (Printmaster) – финальный микс дубляжа. Если работали в 5.1, это 6-канальный WAV (L, R, C, LFE, Ls, Rs) 24-bit, 48 kHz. Если стерео – то 2-канальный WAV. В названиях обычно пишут языковой суффикс (например, FilmTitle_RU_51.wav). Если нужен LtRt, его тоже можно закодировать (через тот же Neyrinck) и выдать как 2-канальный файл с пометкой LtRt. Всегда уточняйте формат у принимающей стороны.
- Dialog Stem (DX Stem) – иногда просят отдельным файлом все диалоги (уже сведенные, с эффектами, но без M&E). Это полезно, если вдруг потом нужно будет немного уровень поменять или перемикшировать. DX Stem – обычно тоже многоканал. Его можно сделать просто экспортировав вашу группу VO до соединения с M&E.
- Atmos ADM/BWF – если вы делали Atmos, финал – это .wav файл ADM с BWF метаданными (или .iab). Его получают либо через экспорт из Atmos Production Suite, либо через DaVinci. В DIY условиях маловероятно, но знать стоит.
- Отчет EBU R128 (Mode B). Это документ (PDF или текст), содержащий измеренные параметры громкости финального материала: Интегрированная громкость в LUFS, Loudness Range, Maximum True Peak, и проч. Обычно генерируется программой типа Dolby Meter или Nugen VisLM. Многие вещательные требования включают такой отчет. Например, европейские телеканалы требуют EBU документ, подтверждающий, что микс −23 LUFS ±0.5, LRA <= 18 LU и TP < -1.0 dBTP. Netflix, хоть и не требует отдельного PDF, но по сути делает то же самое на приемке. Так что лучше самому убедиться – сохранить скриншот показаний или отчет.
- Технический паспорт. Помимо громкости, в сопроводительном письме указывают формат файла, длительность, название проекта, использованный стандарт (R128 Mode A или B, Dialog-gated BS.1770-1 или -3 и т.п.). Также версии: если есть несколько миксов (5.1, 2.0), их характеризуют (Downmix, LtRt encoded или LoRo). Стоит упомянуть, что диалоги смешаны под референсный уровень X dB SPL, Dialnorm эквивалент примерно Y (для Dolby Atmos домашнего обычно Dialnorm = -27). Это уже детали бюрократии, но лучше предоставить больше информации, чем меньше.
Перед отправкой финала, обязательно проверьте весь фильм целиком: не пропустили ли вы какую-то реплику (тихую или вовсе без звука), нет ли рассинхронов под конец (иногда при рендере видео могут быть задержки). Сравните несколькоминутные отрезки оригинал vs ваш дубляж – если они близки по тональности и динамике, можно вздохнуть спокойно.
Типовые ошибки и как их избежать
Напоследок перечислим несколько распространенных ошибок при сведении дубляжа и способы их исправления:
- «Насос» компрессора – когда при каждой реплике фон сцены как бы «вздувается» и спадает, создавая эффект качания. Это случается, если слишком агрессивно настроена компрессия на диалоге вместе с M&E (например, если вы всё на мастер положили компрессор). Решение: не компрессируйте полный микс сильно, лучше отдельно диалоги. Либо используйте более долгий релиз, чтобы компрессор не успевал поднять шум между фразами. В идеале вообще избегайте компрессии мастер-баса в дубляже – громкость и так контролируется R128, а компрессор только испортит транзиенты SFX.
- «Губы улетают» (рассинхрон) – кажется, что все смачно сделали, а при просмотре видно, что некоторые слова не четко попадают в рот актеру. Такое бывает, если актер озвучки чуть иначе тянул слова, и простое растяжение/сжатие по концам не помогло. Решение: используйте микро-варпинг. В Pro Tools – Elastic Audio в режиме монополифоник: ставите маркеры внутри слова и юстируете их по движению губ. В Reaper – Stretch markers: например, середину слова подвинуть. Это помогает особенно на длинных фразах, где внутри может уплывать. Еще прием – разбить фразу на больше частей и чуть сместить вторую половину. В общем, постарайтесь индивидуально подогнать проблемные места. Если губы отстают – либо ускорить аудио, либо сдвинуть вперед. Если обгоняют – растянуть или сдвинуть назад. В крайнем случае, когда вообще никак, можно попробовать пересинхронить картинку – на кадр вперед/назад, но лучше так не делать.
- Разный тембр у дублеров. Частая ситуация: один актер звучит басовито и бархатно, другой – тонко и резко. В одной сцене их голоса сильно различимы по окраске, что выдает дубляж. Решение: применить тональный матч – либо через match EQ, либо хотя бы эквалайзером сблизить АЧХ. Например, тонкому голосу чуть добавить низких 120 Гц, а басовитому – убрать бубнящих 200 Гц, чтобы они стремились к общему нейтральному тону. Также можно использовать групповой bus-EQ: свести обоих на общий aux и там одним эквалайзером править общую тональность, чтобы интегрировать. Еще хитрость: добавить обоим чуть одинакового искусственного «зала» – если реверб и эквализация наложены идентично, голоса уже будут восприниматься ближе друг к другу по характеру.
- Диалог «поверх» сцены (не в ней). Бывает, голос вроде чистый, но ощущается, что он наложен как комментарий, а не живет в пространстве фильма. Причины могут быть: слишком сухой или слишком близкий голос относительно окружающего звука, или несоответствие громкости. Решение: убедитесь, что реверберация соответствует плану съемки. Если герой вдали на экране, а голос записан шепотом на близкий микрофон – будет диссонанс. Тут возможно надо даже эквалайзером ограничить полосу (меньше низов и верхов, имитируя дистанцию) и добавить больше реверберации. Для близких планов – наоборот, почти сухо, но тогда осторожно с громкостью, не слишком громко выдвигать. В общем, представьте, где находится источник звука, и воспроизведите это. Иногда панорамирование помогает: если персонаж слева в кадре, а вы держите голос по центру – зритель может подсознательно чувствовать несовпадение. Панорамируйте немного влево его реплику (на 10–20% в стерео или соответствующий спикер в Surround). Так он «встанет» на свое место. И, конечно, уровень: слишком громкий дубляж всегда будет ощущаться не из сцены, а наложенным. Лучше чуть тише, но с субтитрами, чем громче и «отдельно».
- Проблемы с фазой и переворотами каналов. В многоканальном дубляже можно столкнуться с техническими ошибками: перепутаны каналы (например, центр не там), полярность обратная у какого-то микрофона (и тогда в сумме с M&E может давать отмену). Поэтому нужно строго следовать channel order (для 5.1 порядок L, R, C, LFE, Ls, Rs – убедитесь, что при экспорте DAW его соблюдает). Проверить распайку можно, загрузив экспорт обратно и прослушав по каналам. Фазу проверять как описано – сложением каналов, моно. Особенно LFE – он не должен содержать голос (в дубляже все должно быть в центре, LFE – только на эффекты низкие). Бывает, неопытные инженеры кладут копию диалога на LFE «для веса» – этого делать не стоит, система воспроизведения может не правильно интерпретировать. LFE вообще можно оставлять пустым в дубляже.
Конечно, каждый проект уникален, и могут всплыть свои нюансы. Но перечисленные – наиболее универсальны.
Сведение и мастеринг дубляжа в студийном масштабе
Последний раздел посвятим сравнению: чем отличается подход DIY, который мы описали, от студийного масштабного сведения дубляжа, и каким получился звук дубляжа в разные эпохи на конкретных примерах.
Размещение диалогов vs. M&E-stem
В профессиональной студии, получив M&E и исходный микс, часто есть возможность изучить, как были сведены оригинальные диалоги. К примеру, оригинальный диалог-стем может содержать уже какую-то мастеринг-обработку: эквализацию, компрессию, automation на каждой реплике. Задача дубляжа – в точности повторить микро-баланс. Поэтому студийный миксер обычно сначала выслушивает оригинал (если доступен DME – Dialog, Music, Effects по отдельности), смотрит уровни. Затем, накладывая дубляж, стремится повторить уровни, панорамы, реверы. Расположение в панораме – да, бывают случаи, когда в оригинале диалог не по центру (например, в мультфильмах или артхаусных приемах). Локальный микс должен учитывать это. В домашнем же сведении, если у вас нет исходных проектов, вы полагаетесь на слух и здравый смысл.
Пиковое ограничение, контроль TP и форматы поставки
На студии применяются более точные инструменты финального контроля. Например, могут использовать реальный Dolby DP570 декодер для проверки LtRt и Dialnorm. Также зачастую печатают несколько версий микса: полный динамический для кинотеатра и компрессированный для телевидения (с меньшим LRA). Разница может быть в применении многополосного компрессора или ручной регулировке диапазона. True-peak лимитеры используют высокого класса (Dolby LM100, Nugen ISL и др.), чтобы гарантийно ничего не вылезло. Что касается форматов: студия обычно передает полный пакет – помимо Printmaster 5.1, еще и октометровую версию (когда требуют 7.1), и Atmos если делали, и стерео Lo/Ro и Lt/Rt. То есть, на выходе у них набор файлов, покрывающих все нужды дистрибуции. В DIY-работе вы обычно делаете только то, что просят (часто стерео или 5.1).
Сравнительный анализ звучания дубляжа: 1990-е vs 2020-е
Интересно посмотреть, как изменился характер звука дубляжа за последние ~30 лет. В 1990-х дубляж (особенно в постсоветских странах) часто звучал сухо и ближнемикрофонно, на фоне моно-музыки и эффектов. Из-за ограничений оптики (Dolby Stereo SR) динамический диапазон был небольшим, голоса обычно были «всегда на одном уровне». Например, если взять локальный дубляж российского фильма 90-х, Integrated Loudness у него мог быть существенно выше оригинала – потому что тогда никто не нормировал, старались «чтоб разборчиво». Также шумопонижение еще не было таким продвинутым, поэтому иногда слышны были легкие шумы студии или помехи. Переход на цифровой 5.1 в 2000-х улучшил положение: дубляж стал объемным, голоса – чётко по центру, без помех. Пример глобального релиза 2000-х: «Властелин Колец» в дубляже имел практически студийное качество – тембра соблюдены, пространства добавлены (в Мории есть эхо у реплик и в оригинале, и в дубляже). К 2010-м, с введением R128, громкости дубляжа стали последовательно тише. Если включить Blu-ray с дубляжом 2019 года и старую VHS озвучку 1995 – вы удивитесь, насколько первая тише (но при этом разборчивее и приятнее). То есть отказ от «громкой смеси» пошел на пользу – теперь музыка и диалоги балансируются художественно, а не для максимальной читаемости. В 2020-х с Atmos появилась новая фишка: вертикальное измерение звука. В оригиналах персонажи, кричащие сверху кадра, могут звучать с потолочных колонок. Дубляж тоже стал туда помещаться. Это дает еще больше естественности – голос как бы действительно из точки в пространстве.
Конечно, сохраняется разница в актерской игре и в языке, но это уже вне рамок звуковой техники.
Выводы и рекомендации
Сведение и мастеринг дубляжа – это искусство, опирающееся на науку. За последние три десятилетия оно прошло путь от ремесла на аналоговой пленке до высокоточного цифрового производства с поддержкой искусственного интеллекта и пространственных форматов. Эволюция технологий (Dolby SR → Dolby Digital → Loudness standards → Dolby Atmos) дала звукорежиссеру дубляжа все инструменты для создания безупречного по качеству локального продукта, который не уступает оригиналу. Однако наличие инструментария – лишь половина дела. Не менее важно понимание принципов обработки голоса и умение применить их творчески, сохраняя эмоциональную правду персонажей. Техническая точность – обязательна: требуется следовать громкостным нормам, избегать артефактов обработки, обеспечивать совместимость со всеми форматами (от моно ТВ до Atmos-кинотеатра).
Для звукорежиссеров и руководителей пост-продакшна можно дать такие рекомендации:
- Планируйте дубляж с учетом финального микса. Еще на стадии записи старайтесь получить максимально близкий к конечному результат: подбирайте микрофоны и технику речи под оригинал, контролируйте шум и реверб на площадке (если запись удаленная).
- Используйте современные технологии, но критично. AI-шумоподавление, автоматические синк-алайнеры, match EQ – все это ускоряет работу, но человек остается главным арбитром качества. Всегда прослушивайте результат, не появилось ли «цифровых» артефактов или потерь живости.
- Калибруйте громкость и доверяйте измерениям. Настройте мониторы на референсный уровень и проверяйте LUFS/TP метрики. Это избавит от проблем при приемке и обеспечит сопоставимость с оригиналом.
- Обращайте внимание на детали синхронности. Даже идеальный по звуку дубляж провалится, если губы не в такт. Здесь нужно терпение и, при возможности, специальные инструменты (VocAlign, Elastic Audio).
- Обеспечьте «склеивание» дубляжа со сценой. Добейтесь, чтобы ухо не вычленяло дубляж отдельно. Для этого служат тонкое использование реверберации, room tone, соответствие панорамы и перспективы.
- Учитесь на оригинальных миксах. Анализируйте, как звучит оригинальный диалог: тембр, динамика, позиция. Это лучший ориентир для дубляжа. Если оригинал плох (такое бывает), все равно следует сохранять его характер, улучшая лишь технически (шум, разборчивость).
- Документируйте и сохраняйте версии. Держите резерв вашей сессии, экспортируйте стемы. Иногда спустя время просят мелкие правки – иметь стемы диалога и M&E облегчит работу, чем ремикс всего.
- Наконец, творческий подход. Помните, что дубляж – это не просто техническая копия. Это воссоздание художественного образа на другом языке. Поэтому, применяя все технологии, всегда слушайте эмоциональный результат. Если где-то стоит отойти от строгой нормы ради понятности или эмоционального акцента – обсудите с режиссером дубляжа и сделайте, как лучше для фильма.
В заключение, можно уверенно сказать: при соблюдении современных методов обработки и мастеринга, дубляжные версии фильмов могут достичь такого качества, что зритель будет полностью погружен в историю, не отвлекаясь ни на технические несоответствия, ни на чужой язык. Высшее признание для звукорежиссера дубляжа – когда его работу не заметили, потому что все звучало естественно и профессионально. Следуя приведенным рекомендациям и постоянно совершенствуясь, добиться этого вполне возможно.
В мире, где технологии стремительно развиваются, но суть хорошего звука остается прежней – служить истории – компетентный и внимательный к деталям специалист по сведению дубляжа всегда будет востребован. Пусть ваш следующий дубляж зазвучит на самом высоком уровне!