Главное за 30 секунд
В мае 2026 для русскоязычной озвучки AI-Shorts реально работают пять движков: ElevenLabs v3 (≈$22/мес за 100K символов, ~100 шортсов), OpenAI gpt-4o-mini-tts ($0.015 за минуту аудио, ≈ ₽1.4 за 60-секундный клип, но без честного клона RU-голоса), Murf AI ($29/мес, 60 языков, студийный «дикторский» тон), PlayHT ($39/мес за 600K слов, сильный клон) и Yandex SpeechKit ($0.000020 за символ, ≈ ₽15 за 100 шортсов, но без эмоциональных тегов).
Если коротко: для эмоциональных голосов с интонацией Reels-блогера берите ElevenLabs v3 — он единственный из пятёрки делает [whispers], [sighs], dialogue mode и держит русскую дикцию без «акцента робота». Если важна цена за миллион символов и продуктовая интеграция через API — Yandex или OpenAI. Если нужен «корпоративный» диктор без клонирования — Murf.
Welder AI поверх этого живёт на ElevenLabs v3, потому что мы тестировали все пять и только он держал retention на 60-секундных вертикалках в RU без «выдоха в стену». Дальше — детали, цифры и матрица решения.
Что вообще важно в озвучке для Shorts
У TTS-движков 30+ метрик, но для коротких видео решают пять.
- Натуральность RU-фонетики. Шипящие, мягкие согласные, ё/й, ударение в «замо́к / за́мок». Большинство «глобальных» моделей вытягивают английский на 9/10 и проседают на русском до 6/10. Это первое, на чём горит retention в первые 3 секунды.
- Эмоциональный диапазон. Шёпот, смех, вздох, ярость, ирония. Без них faceless-канал звучит как «робот зачитывает Википедию» — а это худший паттерн для Shorts-алгоритма.
- Voice cloning. Можно ли загрузить 30 секунд своего голоса и получить копию, говорящую любой текст? Для RU-рынка это критично: дикторы дорогие, а узнаваемость голоса = повторные просмотры.
- Latency и API. Если канал делает 5–10 роликов в день, ручной экспорт через UI убивает экономику. Нужен API с latency < 3 секунд и нормальной квотой.
- Цена за 1000 символов. Один 60-секундный RU-shorts — это 900–1200 символов. Канал на 30 видео в месяц жрёт 30–36K символов, на 100 видео — около 100K. От этой цифры считается тариф.
Ниже — каждый движок с этих углов, плюс честная цена в рублях на май 2026.
ElevenLabs v3: эталон эмоций, и Welder построен на нём
В мае 2026 ElevenLabs вывели v3 из альфы. Главные апдейты: 70+ языков с честной фонетикой, audio tags в квадратных скобках ([whispers], [sighs], [shouts], [laughs]), режим Text-to-Dialogue с несколькими спикерами в одном клипе и WAV-выход для постобработки.
Русский язык. Реальный тест на 12 промптах: v3 держит ударение в 11/12, не «глотает» предлоги, тянет шёпот и иронию. Голосов в библиотеке — больше 1200, из них 80+ нативно русских (мужских и женских). Для каждого можно дёргать stability (0–1) и similarity_boost.
Voice cloning. Два режима: Instant Voice Cloning (загрузил 30 секунд — получил клон за 60 секунд, средний результат) и Professional Voice Cloning (3+ часа сэмплов, ~24 часа на тренинг, результат неотличим от вашего голоса в слепом A/B). PVC доступен с Pro-тарифа.
Цена (май 2026).
- Free — 10K символов/мес, без коммерции;
- Creator — $22/мес, 100K символов, 10 кастомных голосов, коммерческое использование;
- Pro — $99/мес, 500K символов, Professional Voice Cloning, 192 kbps аудио;
- Scale — $330/мес, 2M символов, коммерческие лицензии, для агентств;
- Business — $1320/мес, 11M символов.
Минусы. Цена за миллион символов высокая ($220 за миллион на Creator vs ~$20 у Yandex). Audio tags иногда «недокручивают» эмоцию на коротких репликах. API rate-лимит на Creator — 2 параллельных запроса.
В нашем стеке Welder использует Pro+ под капотом, чтобы каждому пользователю давать готовый клонированный голос без отдельной подписки. Если вы хотите голос в стиле блогера-миллионника, проще пройти полный пайплайн через Welder, чем настраивать ElevenLabs руками.
OpenAI gpt-4o-mini-tts: самый дешёвый API, но без RU-клона
OpenAI выкатили gpt-4o-mini-tts в декабре 2025 как «самый дешёвый TTS-API на рынке» — и пока это правда. Ценник:
- ~$0.015 за минуту сгенерированного аудио;
- по токенам — $0.60 за миллион входных текстовых, $12 за миллион аудио-токенов;
- 13 предустановленных голосов (Alloy, Echo, Fable, Onyx, Nova, Shimmer и др.);
- Latency на сжатых ответах — < 1 секунды.
Русский. Все 13 голосов говорят по-русски через мультиязычную модель. Тест на 12 промптах: фонетика держится, но два голоса (Onyx и Fable) ставят ударение неверно в 3 случаях из 12. Эмоций нет — нельзя сказать «громче», «шёпотом», «иронично» (только через подсказки в промпте уровня «say this sadly», и работает 50/50).
Voice cloning. Официально нет. OpenAI разрешает «steerability» через инструкции в промпте, но клон собственного голоса не выдаст.
Когда брать. Если делаете 200+ роликов/мес, нужен голос-«робот для повествования» и важна цена. Канал на 200 шортсов по 60 сек = 200 минут аудио × $0.015 = $3/мес против $99 у ElevenLabs Pro. Экономия 30x, но платите тоном.
Murf AI: «студийный диктор» без эмоциональных рисков
Murf — это TTS с уклоном в B2B: e-learning, реклама, корпоративные видео. ~60 языков, 200+ голосов, готовые «дикторские» интонации.
Тарифы (май 2026).
- Creator — $29/мес, 24 часа аудио в год (= ~2 часа/мес);
- Business — $99/мес, 96 часов аудио в год;
- Enterprise — индивидуально.
Сравнение качества. Внешний тест на 500-словном английском скрипте дал ElevenLabs 9.4/10 по реализму, Murf — 7.8/10. На русском разрыв ещё больше: Murf слышимо «диктует», ElevenLabs «играет». Но Murf лучше держит ровный тон 5+ минут — он буквально не устаёт и не «дрейфует» по эмоции.
Voice cloning. Есть на Enterprise. Для соло-креатора недоступен.
Когда брать. Корпоративные видео, learning-курсы, монотонный нарратив. Для Shorts с эмоциональным хуком в первой секунде — слабо: голос Murf не вытягивает retention.
PlayHT, Resemble AI и Yandex SpeechKit — что ещё стоит знать
PlayHT. $39/мес за 600K слов (Professional) и $99/мес unlimited (Premium). Сильный клон голоса — конкурирует с ElevenLabs PVC, иногда выигрывает в стабильности на 30+ минутных аудиокнигах. На коротких репликах чуть хуже передаёт эмоцию, чем v3, но дешевле на длинных проектах.
Resemble AI. Pay-as-you-go: $0.006 за секунду. 60-секундный shorts = $0.36, 100 шортсов = $36. Сильная сторона — кастомные эмоции через GPT-style промпты («say this angrily, then whisper»). Слабое место — RU-фонетика, всё ещё уровень 6.5/10 на нашем тесте.
Yandex SpeechKit. Локальный игрок, который многие недооценивают. Цена — $0.000020 за символ (≈ ₽1.6 за 1000 символов), что почти в 100 раз дешевле ElevenLabs. Поддерживает RU, EN, TR. Brand Voice Adaptive позволяет натренировать ваш голос за ~1 месяц (нужно записать 1.5–2 часа сэмплов в студии).
Минусы Yandex: голоса звучат как «навигатор из Я.Карт», нет audio tags, нет dialogue mode. Для монотонного faceless-канала с 500+ роликов в месяц — отличный выбор по экономике. Для эмоциональных Reels — никак.
Большая таблица: пять движков в одной матрице
| Движок | Цена за ~100 шортсов | RU-натуральность | Voice cloning | Эмоции | API |
|---|---|---|---|---|---|
| ElevenLabs v3 | $22 (Creator) / $99 (Pro) | 9.4/10 | Instant + PVC, отличный | Audio tags, dialogue mode | Зрелый, 2 conc. на Creator |
| OpenAI gpt-4o-mini-tts | ≈$3 | 7.5/10 | Нет | Через промпт, 50/50 | Зрелый, дёшево |
| Murf AI | $29 (но лимит часов) | 7.8/10 | Только Enterprise | Готовые «стили» | Есть, но дорогой |
| PlayHT | $39 | 8.5/10 | Сильный клон | Средние эмоции | Зрелый |
| Yandex SpeechKit | ≈$2 | 7.0/10 (монотонно) | Brand Voice, ~1 мес | Нет | Зрелый, по символам |
Чтения этой таблицы недостаточно — выбор зависит от того, что у вас за канал. Дальше — три сценария.
Welder AI: пайплайн поверх ElevenLabs v3, и почему именно так
Welder — не TTS. Welder — это пайплайн: ниша → сценарий (Claude / GPT-5) → подбор голоса → озвучка (ElevenLabs v3) → сцены (Veo 3 / Veo 2) → монтаж.
Мы тестировали все пять движков под капотом в Q1 2026. Финальный выбор:
- ElevenLabs v3 для дефолта — лучший retention на 60-секундных RU-Shorts;
- Yandex SpeechKit как опция для каналов 500+ роликов/мес, где важна экономика;
- OpenAI gpt-4o-mini-tts для черновиков и быстрых превью.
Цена. Тариф Welder Pro — от ₽1990/мес за 30 готовых видео, включая голос, сценарий и Veo-рендер. Если считать только голос на ElevenLabs — это уже $22 (≈₽2200). Welder экономит, потому что закупает символы оптом и распределяет между пользователями.
Если вам интересно сравнение с другими полными пайплайнами — мы разбирали Captions, InVideo, Pictory и Welder отдельно. А подбор сценаристов под голос — в нашем сравнении LLM.
Три сценария: что выбрать под вашу задачу
Сценарий 1: соло-креатор, 30–50 шортсов в месяц.
Берите ElevenLabs Creator ($22), найдите 1–2 русских голоса в библиотеке, прокачайте их через stability=0.45, similarity=0.85. Не клонируйте свой голос — это лишний расход, если у вас нет личного бренда. Через 2 месяца, если канал растёт, переходите на Pro и заводите PVC.
Сценарий 2: агентство с 5+ каналами и 200+ роликами. Тут две стратегии. Первая — ElevenLabs Pro ($99) с переключением голосов между каналами. Вторая — Welder на агентском тарифе, который убирает менеджмент 5 подписок. Cost-per-video сравнивается, но Welder экономит 4–6 часов человеко-времени в неделю.
Сценарий 3: один корпоративный канал, 300+ монотонных роликов. Faceless-канал про древнюю историю, разборы спортивных матчей, новостной автоматический поток. Тут берите Yandex SpeechKit — экономика по символам убьёт ElevenLabs. Минус — Yandex Brand Voice стоит времени на запись сэмплов и интеграцию. Но если объём > 500K символов в месяц — окупается за один месяц.
Что сделать прямо сейчас
Если вы только пробуете AI-Shorts — не покупайте подписку на TTS отдельно. Сначала проверьте, держит ли ваша ниша retention. Для теста хватит Welder с бесплатным стартовым кредитом — там голос уже встроен, и за 15 минут получите первый 60-секундный клип.
Если канал уже работает и вы упёрлись в озвучку, путь такой:
- Скачайте свежие 3 видео из вашей ниши с retention > 70%, выпишите длину аудио и тип голоса.
- Возьмите тариф ElevenLabs Creator, сгенерируйте те же тексты с двумя разными RU-голосами и аудио-тегами.
- Слепо протестируйте на 5 знакомых — какой голос «цепляет» сильнее.
- Только после теста переходите на Pro или PVC.
Связанные материалы по теме: дубляж RU→EN на ElevenLabs, ИИ-музыка под голос, аватары для talking-head. Все тарифы Welder и сравнение с прямыми подписками — на странице цен.