Главное за 30 секунд
В мае 2026 у вас четыре рабочих источника звука для AI-Shorts: генерация по тексту через ElevenLabs Sound Effects (40 кредитов за секунду, до 30 секунд за раз), Freesound.org (десятки тысяч CC-сэмплов, бесплатно, часть с атрибуцией), Pixabay Sound Effects (120 000+ файлов, без атрибуции, коммерческое использование), Epidemic Sound ($9.99/мес при годовой оплате, YouTube Content ID pre-clearance) и Splice / Artlist как тяжёлая артиллерия для агентств.
Генеративные модели Veo 3, Veo 3.1 и Sora 2 возвращают видео без звука или с очень слабым ambient. Хорошие SFX — это +10–15% к удержанию, потому что около 80% зрителей в feed смотрят без звука только первые 1–2 секунды, а затем включают звук, если на превью что-то цепляет глаз. Если в этот момент звука нет — зритель свайпает.
Дальше — анатомия звука в шортсе, цены, лицензии и конкретный пайплайн для одного ролика на Veo 3 и Welder AI.
Почему звук — главный недооценённый рычаг в 2026
Прошлый год индустрия училась делать кадр: Veo 3 закрыл lip-sync, Sora 2 — физику, Kling 3 — динамику камеры. В 2026 у всех есть доступ к видео уровня «снято на телефон с операторской группой», и кадр перестал быть точкой дифференциации.
Точка дифференциации — звук. Конкретно:
- 73% удержание на YouTube Shorts против 65% на Reels объясняется не только алгоритмом, а тем, что Shorts чаще смотрят с включённым звуком (полноэкранный mode), а Reels — в ленте на mute.
- TikTok и Reels авто-включают звук на 2-й секунде, если предыдущее видео было со звуком. Это окно, в которое попадает ваш SFX.
- Платформы повышают вес видео с «audio engagement» (использование оригинального аудио другими креаторами). Хороший mix sfx + музыка + голос → выше шанс remix.
И при этом в 90% AI-Shorts, которые я смотрел в последние две недели, звуковая дорожка — это голос ElevenLabs + один loop из YouTube Audio Library + ничего больше. Зритель чувствует пустоту, даже если не может её сформулировать.
Анти-AI-look в Shorts 2026 — отдельный пост о визуальных приёмах, которые маскируют ИИ. Звук — половина этой задачи.
Шесть слоёв звука в AI-Shorts
Если разложить хороший шортс на слои, получится примерно так:
- Голос — TTS (ElevenLabs v3, OpenAI Voice, Yandex SpeechKit, Murf) или собственная запись.
- Музыка — фоновый трек (Suno v5.5, Udio, Epidemic, библиотека YouTube).
- Ambient / атмосфера — фон сцены: улица, лес, кафе, тёмный коридор. Часто длится весь ролик на –18 dB.
- Foley — точечные звуки действий: шаги, шелест одежды, удар кружки о стол.
- SFX-акценты — whoosh при смене кадра, ding при появлении текста, drop при кульминации.
- UI / mnemonic — короткий брендовый «джингл» канала на финале (1–2 секунды).
AI-видео из Veo и Sora содержит только #1 (если включён audio-режим Veo 3) и иногда слабый #3. Всё остальное докладывается на монтаже. Минимум, который заметен зрителю — слои 1, 2, 3 и 5. Foley и UI — для каналов с серьёзным retention-фокусом.
Для раскладки звука по сценам полезно держать раскадровку в 6 кадров — там сразу видно, где нужен whoosh, где Foley, где брейк музыки.
Сравнение: 5 источников SFX для ИИ-креатора
| Источник | Тип | Цена 2026 | Лицензия | Сильная сторона | Слабая сторона |
|---|---|---|---|---|---|
| ElevenLabs Sound Effects | Генерация по тексту | 40 кредитов / сек (≈$0.04 на Pro) | Коммерческая на платных тарифах | Уникальный sfx за 5 сек по русскому промпту | Качество скачет, длина до 30 сек |
| Freesound.org | CC-библиотека | Бесплатно | CC0 / CC-BY (атрибуция) | Огромная база (700K+ файлов), полевые записи | Качество разное, нужна проверка лицензии |
| Pixabay Sound Effects | Бесплатная библиотека | Бесплатно | Pixabay License (без атрибуции, коммерческое) | 120 000+ файлов, mp3/wav | База уже Freesound, меньше «редких» звуков |
| Epidemic Sound | Подписка | $9.99/мес (год), $17.99 (месяц) | Коммерческая + YouTube Content ID safe | Curated 90 000+ sfx, не ловит copyright-strike | Платно, нет генерации |
| Splice Sounds | Подписка для продакшна | $7.99/мес (Creator) — $19.99 (Pro) | Royalty-free | Огромная база музыкальных сэмплов и one-shots | Заточен под продюсеров, не под видео |
По умолчанию для AI-канала на старте достаточно связки Pixabay + ElevenLabs Sound Effects на платном тарифе. Когда канал начнёт зарабатывать $500+ в месяц — стоит подключить Epidemic ради YouTube Content ID safety и более чистой ambient-библиотеки.
ElevenLabs Sound Effects: когда генерация лучше библиотеки
ElevenLabs выкатил sound-effects-эндпоинт ещё в начале 2024, но к 2026 модель сильно подтянулась: длина выросла с 22 до 30 секунд за один запрос, а качество ambient-сцен подошло вплотную к лучшим записям Freesound. Цена — 40 кредитов за секунду при фиксированной длительности или 200 кредитов за «авто-длину».
Генерация бьёт библиотеку в трёх сценариях:
- Точно под действие. «Шорох туники римского легионера по гравию, шаг 2 раза» — в Freesound вы будете час подбирать пресет, в ElevenLabs получите ровно то, что нужно, за 15 секунд. Для каналов про античность, средневековье, фэнтези — это game changer.
- Брендовый звук. Уникальный whoosh или sting под канал, который никто не использовал. Зритель привыкает к сигнатуре и распознаёт ваш контент в ленте.
- Ambient под промпт сцены. Вы пишете промпт для Veo 3: «ночной мегаполис, дождь, неон». В ElevenLabs тот же промпт даёт идеально совпадающий ambient. В Freesound нужно вручную собрать из 3 файлов.
Где проигрывает: короткие точечные foley (стук кружки, щелчок выключателя). Они лучше звучат, когда записаны вживую — там Pixabay и Freesound сильнее. И конечно, музыкальные ритмические биты лучше брать в Suno или Epidemic — об этом подробно в посте про музыку для AI-Shorts 2026.
Известные конкуренты ElevenLabs в нише генеративных SFX: Stable Audio 2.5 (Stability AI, до 90 секунд, $11.99/мес), Meta AudioCraft (open-source, бесплатно но возиться с локальной установкой), Suno Sound Effects-режим (в бете на момент мая 2026). Для большинства креаторов проще остаться на ElevenLabs, у которого уже есть и голос, и музыка, и sfx в одной подписке.
Пайплайн добавления звука к одному AI-ролику
Конкретный workflow на примере вертикального ролика длиной 45 секунд про «3 ошибки в питании в зале». Промпт под Veo 3, голос — русский на ElevenLabs.
Шаг 1. Сценарий и раскадровка (10 минут)
Разбиваем 45 секунд на 6–8 сцен. Под каждой пишем в скобках: какой sfx нужен. Например: [сцена 3: рывок штанги — whoosh + удар диск].
Шаг 2. Генерация видео (15 минут на 6 сцен)
Veo 3 / Veo 3.1 рендерит 6–8 клипов по 5–8 сек. Если используете Welder AI — это один запрос «6-сценная серия про ошибки в зале» и сборка автоматическая. На выходе — собранный мастер-клип без foley, с базовым ambient.
Шаг 3. Голос (5 минут)
ElevenLabs v3, голос «Bella» или «Alexei», русский. Лучше нарезать на короткие фразы (1 предложение = 1 файл) — потом удобно подгонять под кадр в монтаже.
Шаг 4. Музыка (3 минуты)
Suno v5.5 — промпт «modern fitness, light percussion, no vocals, energy 7/10», длина 60 сек. Или один трек из Epidemic Sound по тегам «motivational fitness».
Шаг 5. SFX слой (15 минут — самое важное)
- 2 whoosh для смены кадров → Pixabay (тег
whoosh transition). - 1 удар штанги → ElevenLabs Sound Effects, промпт
barbell drop on gym floor, heavy weight. - 1 click на появление текста с цифрой → Freesound, тег
ui click sharp. - 1 финальный «sting» под call-to-action → ElevenLabs, промпт
branded sting, uplifting, 1.5s.
Шаг 6. Mixing (5 минут в CapCut или DaVinci Resolve)
Голос: 0 dB. Музыка: –18 dB во время голоса, –10 dB в паузах (дакинг). Ambient: –22 dB фоном. SFX-акценты: –6 dB пик, чтобы выделяться, но не глушить голос.
Шаг 7. Экспорт + проверка на телефоне
Экспортируем в 9:16 H.264, проверяем на телефоне в наушниках и через динамик. Часто звук, идеально звучащий в студии, проваливается на встроенном динамике iPhone. Это финальный QA.
Итого: 53 минуты на один шортс с полным звуковым слоем. Если делать без foley и ambient — 30 минут, но удержание просядет на 8–12%.
Самые частые ошибки звука в AI-Shorts
За последний месяц я разобрал около 200 AI-Shorts с российских и зарубежных каналов. Самые повторяющиеся проблемы:
1. Музыка громче голоса. Креатор берёт энергичный трек на 0 dB и кладёт сверху TTS на –6 dB. На динамике телефона голос превращается в кашу. Решение — всегда понижать музыку на 12–18 dB во время речи (audio ducking, есть автоматический в CapCut и Premiere).
2. Ноль ambient. Сцена в кафе, в кадре чашки и официант, а в звуке только голос. Зритель подсознательно чувствует подмену. ElevenLabs Sound Effects по промпту café ambience, dishes clinking, soft chatter, 20s решает это за 2 минуты.
3. SFX из старых TikTok-meme-паков. Тот самый «pop» из 2019 и whoosh из стартового пака CapCut. Зритель в 2026 опознаёт их моментально как «новичок без бюджета». Используйте свежие записи или генерацию.
4. Слишком много SFX. Каждый кадр — whoosh, каждое слово — ding. Получается шумовая каша. Правило: не больше 1 точечного SFX на 3 секунды видео, кроме сцен «битва / монтаж тренировки».
5. Один и тот же стинг во всех роликах. Канал использует одинаковый «бренд-звук» из YouTube Audio Library, который параллельно крутят 50 000 других каналов. Это анти-брендинг. Сгенерируйте уникальный sting в ElevenLabs или Suno один раз и используйте только его.
6. Лицензионные ловушки. Скачанный из Telegram «бесплатный пак звуков» половиной файлов — украденный Epidemic. Через 30 дней YouTube ловит match и кладёт ролик. Используйте только Pixabay, Freesound (с проверкой лицензии каждого файла), Epidemic/Splice по подписке, или генеративные модели.
Что Welder AI делает со звуком из коробки
Welder AI — это пайплайн поверх Veo 3.1 / Veo 2 / Kling 3, который собирает 6–10 вертикальных роликов из одного промпта. По умолчанию он:
- генерирует голос через ElevenLabs v3 (русский + 5 других языков);
- подбирает фоновый трек под настроение из встроенной библиотеки 1500+ треков (royalty-free);
- добавляет базовый ambient под жанр сцены (история, наука, бизнес, едa);
- кладёт sting перед CTA-кадром;
- автоматически делает ducking музыки во время голоса.
Этого достаточно для большинства каналов на старте. Для канала уровня «топ-1000 в нише» рекомендую после рендера Welder выгружать ролик в CapCut и докладывать слой SFX вручную по схеме выше — это 10–15 минут на ролик, но retention растёт ощутимо.
Если вы только начинаете и не знаете, что такое retention и почему он важнее просмотров, отдельный пост про hook первой секунды — там про мгновенный аудио-визуальный hook, который держит зрителя в первые 800 миллисекунд.
Чек-лист звука перед публикацией
Перед загрузкой проверьте:
- Голос разборчив на встроенном динамике телефона (не только в наушниках).
- Музыка приглушена под голосом (ducking).
- Есть ambient под визуальной сценой (даже тихий, –22 dB).
- Минимум 2 SFX-акцента в первых 10 секундах (помогает hook).
- Финальный sting перед CTA-кадром.
- Все источники звука с проверенной коммерческой лицензией.
- Пиковый уровень не превышает –1 dB (защита от клиппинга).
- LUFS около –14 для YouTube Shorts, –16 для TikTok / Reels.
Если проходит — публикуйте. Если нет — 10 минут на чистку звука дадут больше, чем час на правки видео.
Что делать прямо сейчас
Два пути в зависимости от бюджета:
Бесплатный старт. Pixabay Sound Effects + Freesound.org + бесплатный тариф ElevenLabs (10 000 кредитов / мес = ≈250 секунд sfx). Этого хватит на 20–25 шортсов в месяц с полным звуковым слоем. Музыку берите в YouTube Audio Library — для Shorts там приличный пул.
Серьёзный канал ($30/мес на аудио). ElevenLabs Creator $22/мес (100 000 кредитов = ≈40 минут sfx + голос) + Epidemic Sound Creator $9.99/мес (Content ID safe). За $32/мес у вас полностью закрыт аудио-стек для канала на 100–150 роликов в месяц.
Когда инфраструктура звука настроена, узкое место уходит в видео. Если ещё не пробовали собирать ролики автоматически — заведите Welder AI и сделайте первую серию из 6 шортсов за 15 минут. Один промпт → 6 роликов с голосом, музыкой и базовым sfx-слоем. Дальше — дотачиваете звук вручную по схеме выше.
Запустить первую серию в Welder — бесплатно, без карты, тарифы и пакеты тут.