Перейти к содержимомуЗвук AI-Shorts 2026: -14 LUFS, ducking и +20% retention
WWelder AI

Звук AI-Shorts 2026: -14 LUFS, ducking и +20% retention

Гайды8 минWelder AI

Звук AI-Shorts 2026: -14 LUFS, ducking и +20% retention

FFmpeg loudnorm, sidechain, де-эссер — пошагово. Почему -16 LUFS уносит вас в тишину, а -8 — в клиппинг и shadowban.

Главное за 30 секунд

Большинство AI-Shorts проигрывают retention не из-за слабого хука, а из-за звука. Голос ElevenLabs идёт на -19 LUFS, а трендовая музыка из CapCut — на -7 LUFS. На колонке смартфона голос пропадает после первого бита.

YouTube нормализует громкое содержимое до -14 LUFS, но не подтягивает тихое (данные Critical Listening Lab). TikTok и Reels неофициально стремятся к -10 ÷ -12 LUFS — зритель в шумной среде, требуются более высокие пики (разбор apu.software).

Цели для AI-Shorts на 2026:

  • YouTube Shorts: integrated -13 ÷ -14 LUFS, true peak -1 dBTP.
  • TikTok / Reels: integrated -10 ÷ -11 LUFS, true peak -1 dBTP.
  • VK Клипы / RUTUBE: -12 ÷ -14 LUFS (публичного стандарта нет, держим средний YouTube).

Под капотом — три приёма: loudnorm (нормализация общего уровня), ducking (приглушение музыки под голос), де-эссер (срез шипения «с-ш» в TTS). Делается за 5 минут на ролик через FFmpeg или одним проходом в Adobe Audition / DaVinci Fairlight. Ниже — полная цепочка с командами, чек-листом и сравнением 6 инструментов.

Почему звук решает retention

Тест на канале с 80K подписчиков (faceless, история, голос ElevenLabs v3): один и тот же 45-секундный AI-Short залит в двух версиях. Первая — без обработки звука, integrated -18 LUFS. Вторая — с loudnorm + ducking, integrated -13 LUFS. Через 7 дней:

  • Без обработки: average view duration 21 сек, completion 24%.
  • С обработкой: average view duration 29 сек, completion 38%.

+8 секунд просмотра и +14 п.п. completion из одного прохода loudnorm. Это больше, чем даёт большинство правок монтажа.

Что происходит на стороне зрителя. Когда голос тише фоновой музыки, мозг прерывает «активное слушание» — переключает контент на «фоновый». Если зритель уже не вслушивается, он свайпает. Дополнительный эффект: TikTok feed чередует ваш ролик с пользовательскими, у которых громкость нормирована. Ваш тихий Short воспринимается как «плохо снято» ещё до того, как кадр успевает что-то рассказать.

Для AI-каналов это критичнее, чем для людей в кадре. У живого блогера микрофон близко к рту, транзиенты дыхания и согласных «пробивают» музыку даже без обработки. У TTS-голоса транзиентов почти нет — он гладкий, и если уровень провален, его не вытащит ни один алгоритм.

Шаг 1. Целевые уровни и нормализация (loudnorm)

Сначала — куда целиться по платформам:

ПлатформаIntegrated LUFSTrue peakЧто делает с тихим
YouTube Shorts-13 ÷ -14-1 dBTPНе подтягивает
TikTok-10 ÷ -11-1 dBTPНе подтягивает
Instagram Reels-10 ÷ -12-1 dBTPНе подтягивает
VK Клипы-12 ÷ -14-1 dBTPНет данных
RUTUBE-12 ÷ -14-1 dBTPНет данных
YouTube long-14-1 dBTPНе подтягивает

Практическое правило для кросс-постинга: мастерите один раз на -11 LUFS, true peak -1 dBTP. Это безопасный общий знаменатель для TikTok / Reels / VK / RUTUBE; YouTube Shorts чуть подкрутит вниз, потери на слух не заметны.

Не путайте integrated и momentary. Integrated — средняя громкость за весь ролик. Momentary — мгновенная (пики на конкретной секунде). Платформы нормируют по integrated, но клиппинг на пиках даёт обрезанный звук в наушниках. Отсюда требование к true peak ≤ -1 dBTP: запас на пересжатие в AAC/Opus при загрузке.

Сам loudnorm — самый дешёвый и обязательный шаг. Бесплатно — FFmpeg loudnorm filter в два прохода (первый анализирует, второй применяет). Первый проход:

ffmpeg -i input.mp4 -af "loudnorm=I=-11:TP=-1:LRA=11:print_format=json" -f null -

Из вывода берёте input_i, input_tp, input_lra, input_thresh, target_offset — подставляете во второй проход:

ffmpeg -i input.mp4 -af "loudnorm=I=-11:TP=-1:LRA=11:measured_I=...:measured_TP=...:measured_LRA=...:measured_thresh=...:offset=...:linear=true" -c:v copy output.mp4

linear=true — критично: иначе FFmpeg применит динамическую обработку и звук поплывёт между сценами. С linear=true это gain-only коррекция, без артефактов.

Готовые альтернативы без командной строки:

  • Auphonic — облако, $11/мес за 5 часов аудио, делает loudnorm + де-эссер автоматом.
  • Adobe Audition CC 2026 — Match Loudness Panel, $20.99/мес в составе Creative Cloud.
  • DaVinci Resolve 19 / Fairlight — встроенный normalizer, бесплатно (Studio-версия $295 единоразово).
  • LANDR Mastering — облачный AI-мастеринг от $4/трек, но заточен под музыку, для голоса хуже.

На батче из 30+ роликов FFmpeg выигрывает на порядок — ставится в for f in *.mp4; do ... ; done и крутится ночью. Если у вас batch-продакшн на 30 Shorts за выходные — берите FFmpeg, иначе утонете в очереди облака.

Шаг 2. Ducking (приглушение музыки под голос)

Ducking — автоматическое приглушение фоновой музыки, когда говорит голос. Без него музыка перекрывает речь на пиках, особенно на бит-дропах. На AI-Shorts с TTS это слышно резче, чем на живых людях: у TTS нет дыхательных транзиентов, которые «прорезают» микс естественно.

Параметры по умолчанию для AI-Shorts:

  • Threshold: -20 dB (когда голос громче этого порога — давим музыку).
  • Ratio: 4:1.
  • Attack: 5 ms (быстро схватывает начало слова).
  • Release: 200 ms (плавно отпускает после фразы).
  • Sidechain source: дорожка голоса.
  • Reduction: 6-9 dB (этого достаточно, чтобы голос «вышел вперёд»).

Где это делать:

  • DaVinci Resolve Fairlight: compressor с sidechain input → routing с голосовой дорожки. 30 секунд настройки, есть пресет «Vocal Duck».
  • Adobe Audition Multitrack: Sidechain Compressor preset «Music Duck».
  • CapCut Pro: автоматический «Speech enhance + duck» в bulk edit. Качество среднее, но нулевой порог входа.
  • FFmpeg: фильтр sidechaincompress. Команда (для отдельных дорожек voice.wav и music.wav):
ffmpeg -i voice.wav -i music.wav -filter_complex \
"[1:a][0:a]sidechaincompress=threshold=0.1:ratio=4:attack=5:release=200[ducked]; \
 [0:a][ducked]amix=inputs=2:weights=1 0.6" \
 -c:a aac output.m4a

Без ducking TTS-голос звучит «зажато» между битами музыки. С ducking он на первом плане всё время речи, музыка пробивает только в паузах. Это разница 7-10 п.п. в completion rate.

Тонкость: если ваш контент — клипы под музыку без речи (например, AI-музыка из Suno под кадр), ducking не нужен. Подробнее об источниках музыки и лицензиях — в гайде по Suno / Udio / Stable Audio / Mubert.

Шаг 3. Де-эссер (срез «с-ш» в TTS)

Голос ElevenLabs v3, особенно мужские пресеты, иногда даёт жёсткие сибилянты на «с», «ш», «щ», «ц» в RU. На колонке телефона это вылезает как короткое цыканье. Зрители его не идентифицируют сознательно, но мозг помечает звук как «неприятный» — retention падает на 2-4 п.п. за один щёлкающий ролик.

Де-эссер — узкополосный компрессор на 6-9 кГц. Параметры:

  • Frequency: 7000 Hz (для RU TTS — 6500-7500).
  • Range: -8 dB.
  • Threshold: -20 dB.

Инструменты:

  • iZotope RX 11 De-ess — стандарт студии, $399 (есть пробная версия).
  • FabFilter Pro-DS — $179, лучший UI на рынке.
  • Adobe Audition DeEsser — бесплатно с подпиской CC.
  • DaVinci Fairlight DeEsser — встроенный, бесплатно.
  • FFmpeg highshelf + sidechain — workaround для bash, грубый, но рабочий.

Если вы клонируете голос — записывайте материал в студии без сибилянтов, иначе клон унаследует проблему. Это упомянуто в гайде по клонированию голоса в ElevenLabs. После клонирования починить «шипящий» голос можно только пост-обработкой каждого ролика — и это в разы дороже, чем потратить полчаса на исходные сэмплы.

Сравнение 6 инструментов мастеринга

ИнструментЦенаLoudnormDuckingДе-эссерЛучший use-case
FFmpeg$0дадапримитивныйBatch 30+ роликов
Auphonic$11/месда, автодадаСоло, 5 ч/мес, нулевой порог
DaVinci Resolve$0 / $295дададаПолный монтаж + звук
Adobe Audition CC$20.99/месдададаСтудия на CC подписке
CapCut Pro$9.99/месбазовоавтомат, среднеенетСоло, без техзаморочек
iZotope RX 11$399нетнетэталонныйЦифровой клин-ап на старом материале

Если выбираете один — это либо FFmpeg (бесплатно, batch), либо Auphonic ($11/мес, всё в облаке, drag-and-drop).

FFmpeg не имеет UI, но обрабатывает 100 роликов за 15 минут. Auphonic делает то же с одним перетаскиванием файла, но 5+ минут на ролик через очередь.

DaVinci Resolve — компромисс: бесплатно, есть всё, но требует, чтобы вы уже монтировали в нём (переход с CapCut болезненный). Adobe Audition имеет смысл только в составе подписки CC — отдельно за неё $20.99 переплата против Auphonic.

Где Welder это уже делает за вас

Welder выкатывает финальный MP4 с TTS-голосом ElevenLabs v3 и встроенным саундтреком, если выбран трек из библиотеки. На выходе — трек, нормализованный по целевой громкости. Если вы экспортируете и сразу заливаете в TikTok / YouTube — мастеринг сделан.

Если же:

  • докручиваете в CapCut / Resolve и добавляете свои звуки;
  • меняете трендовую музыку на пост-продакшене;
  • собираете compilation из нескольких Welder-роликов в один длинный материал —

нормализация поплыла. Прогоните финал через FFmpeg loudnorm с целевыми параметрами из §3. На батче из 30 роликов на выходные — это разница между ровным каналом и хаотичной громкостью от ролика к ролику.

Текущие тарифы — на странице цен. На Pro доступен экспорт WAV-стэмов (голос + музыка отдельно), что упрощает финальный мастеринг для тех, кто хочет полный контроль.

Чек-лист и что сделать сегодня

Прежде чем грузить AI-Short на платформу, прогоните 6 пунктов:

  1. Integrated LUFS в диапазоне -10 ÷ -14 (зависит от целевой платформы).
  2. True peak ≤ -1 dBTP. Клиппинг на пиках даёт шипение в наушниках.
  3. Голос громче музыки на 6-9 дБ в моментах ducking.
  4. Сибилянты сглажены — послушайте ролик в наушниках, не в колонке ноутбука.
  5. Тишина в первые 100 мс и последние 200 мс — иначе платформа может срезать начало или конец на ре-кодинге.
  6. Файл AAC, не MP3. MP3 теряет высокие частоты, особенно болезненно для TTS-голоса с тонкой артикуляцией.

Все 6 пунктов галочка — заливайте.

Дальше — план на ближайший час:

  1. Откройте последний залитый Short, скачайте обратно из платформы (TikTok / YouTube отдают MP4 через сторонние download-сервисы).
  2. Прогоните через первый проход FFmpeg: ffmpeg -i input.mp4 -af "loudnorm=I=-11:TP=-1:LRA=11:print_format=json" -f null - и посмотрите текущий integrated LUFS.
  3. Если он -16 ÷ -20 (типично для AI-Shorts без обработки) — переделайте мастер по схеме выше и перезалейте.
  4. Сравните retention следующего ролика с прошлыми за 7 дней. Если +5 п.п. completion — внедрите шаг в постоянный пайплайн (FFmpeg-скрипт на ночь или Auphonic-очередь по API).
  5. Если у вас ещё нет первого ролика — начните с генерации в Welder, мастеринг добавите следующим шагом.

Сделать первый AI-Short в Welder →

#guide#звук#lufs#ducking#ffmpeg#ии-видео#retention#welder