Главное за 30 секунд
В 2026 году голос — это 40% удержания AI-Shorts за первую секунду. Кадр можно прогнать через Veo 3.1 за полминуты, но если тембр звучит роботом из 2018, зритель вылетает раньше, чем досмотрит хук. Качество голоса перебивает качество кадра, и эту истину чаще всего недооценивают начинающие AI-каналы.
В этом сравнении мы прогнали один и тот же 60-секундный RU-скрипт через пять движков: ElevenLabs Multilingual v2 и v3, OpenAI gpt-4o-mini-tts и tts-1-hd, Yandex SpeechKit, PlayHT 4.0 и Resemble AI. Замеряли цену за минуту, RU-фонетику, эмоциональный диапазон и задержку API.
Короткий вывод: ElevenLabs v3 выигрывает по живости подачи, Yandex — по цене и нативной RU-просодии, OpenAI — по соотношению «качество/цена в долларах», PlayHT и Resemble имеют смысл, если нужно клонирование голоса. Ниже — детали, цифры и где какой движок сыпется на русском языке.
Параметры теста
Тестовый скрипт — 850 знаков RU (около 60 секунд проговора в темпе AI-Shorts, темп 155 слов в минуту):
«Заметили, как в этом году все каналы про космос выглядят одинаково? Один монотонный голос, один шаблон. А теперь представьте: тот же сценарий, но рассказчик говорит как живой человек — с паузой, вздохом, удивлением. Разница в удержании — 20 секунд против 6.»
Прогнали каждый движок дважды: нейтральная подача (новостной диктор) и эмоциональная (документалист с вздохами и паузой). Голоса — один мужской, один женский, чтобы исключить «случайно удачный голос».
Замеряли четыре параметра:
- субъективное качество RU-фонетики (правильные ё, твёрдые согласные, ударения в редких словах);
- эмоциональный диапазон (понимает ли движок выдох, раздумье, удивление);
- цену за минуту в едином пересчёте (1 USD ≈ 79 ₽ по июнь 2026);
- латентность от запроса до готового MP3 на стандартном API без оптимизации.
ElevenLabs v3 и Multilingual v2 — золотой стандарт RU
ElevenLabs — движок, на котором держится бóльшая часть AI-Shorts-индустрии в 2026, включая Welder. Их новый Eleven v3 (на момент июня 2026 всё ещё в alpha) поддерживает русский наряду с другими языками и работает с тегами эмоций прямо в тексте: [laughs], [whispers], [sigh], [excited].
В нашем тесте v3 — единственный движок, который правильно интонирует RU-вопрос с подъёмом в середине фразы. Все остальные читают вопрос как утверждение и теряют 0.3 секунды внимания. Минус v3: alpha-доступ нестабилен, лимиты ниже, и для длинных видео (>10 минут) лучше остаться на Multilingual v2.
Цены ElevenLabs в июне 2026:
- Free: 10 000 знаков в месяц, около 10 минут аудио — для пробников ОК, для канала бесполезно.
- Creator: $11/мес, 100 000 кредитов, около 100 минут Multilingual v2.
- Overage Creator: $0.30 за 1 000 знаков (примерно $0.30 за минуту, около 24 ₽/мин).
- Pro: $99/мес, 500 000 кредитов, overage $0.24/1 000 знаков (около $0.24/мин).
ElevenLabs ограничивает каждый запрос 5 000 знаков на платных тарифах и 2 500 на free — для Shorts (60 секунд это 800–1 100 знаков) хватает с запасом. Если делаете 8-минутные подкаст-Shorts или длинные сторителлинги, придётся бить на чанки и сшивать.
Где сыпется ElevenLabs: русские слова с двойными согласными вроде «полночь», «гость», «съёмка» иногда читаются как один звук вместо двух. Лечится переписыванием фразы или вручную через SSML.
OpenAI gpt-4o-mini-tts — дёшево и почти везде
OpenAI обновили линейку TTS в мае 2026, и теперь у них три модели на разном уровне качества и цены:
- tts-1-hd — старая высококачественная модель, $30 за 1 миллион знаков (около $0.024 за минуту);
- gpt-4o-mini-tts — новый дешёвый стандарт, токен-биллинг, около $0.015 за минуту аудио;
- gpt-realtime-2 и gpt-realtime-whisper ($0.017/мин) — для голосовых агентов, не для записанных Shorts.
Русский язык поддерживается во всех трёх, но не одинаково. tts-1-hd звучит чисто, но эмоции плоские — диктор без выражения. gpt-4o-mini-tts лучше с интонацией, дешевле, и его можно «прокачать» промптом: «озвучь как documentary narrator со вдохом перед ключевой фразой». Это единственный TTS, который понимает свободную текст-инструкцию о манере подачи.
Минус OpenAI для RU: ударения иногда плавают, особенно в редких словах — топонимы, имена, исторические термины. Прогон того же текста через ElevenLabs или Yandex даёт меньше ошибок такого рода. Зато OpenAI безумно дёшев: за $5 вы озвучите 333 минуты аудио на gpt-4o-mini-tts. Полный прайс — на странице цен OpenAI API.
Yandex SpeechKit — RU нативный и платим в рублях
Yandex SpeechKit — главная локальная альтернатива в 2026 году. Особенности:
- нативный RU-биллинг в рублях, без проблем с подключённой картой РФ;
- около 932 ₽ за 21 час 25 минут синтеза через API v3 (примерно 0.72 ₽ за минуту, около $0.009/мин);
- 15+ языков, но фишка именно в RU-просодии;
- доступ через AI Studio Yandex или Yandex Cloud API.
В нашем тесте Yandex — единственный движок, который правильно расставил ударения в фразе «дворы́ девяно́стых». ElevenLabs и OpenAI промахнулись на втором слове. Для нишевых RU-каналов про историю, ностальгию, фольклор это сильное преимущество — и это, кстати, ровно та механика, на которой канал «Дворы 90-х» сделал ₽475K MRR за 70 дней.
Минус Yandex: эмоциональный диапазон уже, чем у ElevenLabs v3. У SpeechKit есть «настроения» через SSML-теги, но это не уровень [whispers] или [sigh]. Также нет голосового клонирования в публичном API — Brand Voice доступен только для B2B-клиентов через Yandex Cloud sales.
PlayHT 4.0 и Resemble AI — клонирование как опция
Эти два движка — нишевые. Они НЕ оптимальны для массового AI-Shorts (там ElevenLabs, Yandex и OpenAI справляются лучше), но имеют смысл, если вам нужно клонировать конкретный голос — свой или лицензированный.
PlayHT поддерживает 140+ языков, включая RU. Цены в 2026:
- Creator: $31.20/мес;
- Unlimited: $49/мес;
- голосовое клонирование требует около 30 секунд reference-аудио.
Resemble AI работает по pay-per-use: $0.0005 за секунду TTS (около $0.03 за минуту), что дороже OpenAI, но даёт более тонкий emotional control. Минимум данных для клонирования — 10 секунд аудио, что в 3 раза меньше PlayHT.
Когда выбирать клонирование: если вы — фигура с уже узнаваемым голосом (блогер, владелец бизнеса, актёр) и хотите масштабироваться через AI-Shorts без записи каждого ролика. Или если у вас лицензия на голос исторической персоны — без лицензии не клонируйте, в России 2026 года это уже подпадает под защиту биометрии (152-ФЗ и правки 2026).
Сравнительная таблица
| Движок | Цена за минуту RU | RU-фонетика | Эмоции | Клонирование | Латентность |
|---|---|---|---|---|---|
| ElevenLabs v3 | ~$0.30 | 9/10 | 10/10 | да, от 60 сек | 2–4 сек |
| ElevenLabs Multilingual v2 | ~$0.30 | 8.5/10 | 7/10 | да | 1–2 сек |
| OpenAI gpt-4o-mini-tts | ~$0.015 | 7/10 | 7/10 (через промпт) | нет | <1 сек |
| OpenAI tts-1-hd | ~$0.024 | 7.5/10 | 5/10 | нет | <1 сек |
| Yandex SpeechKit | ~$0.009 (~0.72 ₽) | 9.5/10 | 6/10 | B2B Brand Voice | 0.5–1 сек |
| PlayHT 4.0 | ~$0.13 (Unlimited) | 7/10 | 7/10 | да, от 30 сек | 2–3 сек |
| Resemble AI | ~$0.03 | 6.5/10 | 8/10 | да, от 10 сек | 1–2 сек |
Цена за минуту считалась по примерному темпу 1 000 знаков RU = 1 минута на скорости AI-Shorts (155 слов в минуту). Цифры округлены до второго знака — реальная цена будет плюс-минус 10% в зависимости от тарифа.
Как Welder выбирает голос автоматически
Welder поверх Veo 3.1, Veo 2 и Sora 2 использует ElevenLabs Multilingual v2 в продакшене для всех voiceover-каналов. Логика выбора голоса трёхступенчатая:
- Под нишу подбирается характерный пресет — мужской документалист для космоса, женский диктор для ностальгии, нейтральный молодой голос для лайфхаков.
- Под серию из 10+ роликов закрепляется один и тот же ElevenLabs voice id, чтобы канал звучал узнаваемо и зритель привыкал к тембру.
- На длинные сценарии выбирается Multilingual v2 (стабильность важнее эмоций), на короткие хуки — v3 alpha, когда доступен.
Вы не выбираете голос вручную — Welder делает это за вас, исходя из ниши и формата. Если хочется кастомного клонирования, экспортируете скрипт из Welder, прогоняете через PlayHT или Resemble и подкладываете в композит. Но 95% каналов в этом не нуждаются.
Параллельно с голосом — звук в канале не должен звучать «с улицы»: фоновый шум, эхо и сибиланты убивают то же удержание, что и плохой TTS. Если интересно почистить звук готовых AI-Shorts, см. подборку инструментов AI-чистки звука. И не забывайте про субтитры — половина зрителей смотрит без звука; сравнение Submagic, CapCut, Captions и Welder — рядом.
Подробные тарифы Welder и пакеты для агентств — на странице цен.
Что выбрать в 2026: 4 сценария
Канал на RU-нише, до 20 видео в месяц. ElevenLabs Creator ($11) + Multilingual v2 — лучший баланс. Если бюджет жёсткий — Yandex SpeechKit за 30–50 ₽ в месяц. Минус Yandex здесь: менее живая подача на эмоциональных скриптах.
Канал в США и Европе, фокус на охват. ElevenLabs v3 — единственный движок, чьи эмоциональные теги дают тот самый подкаст-эффект. Дороже, но retention выше на 15–20% по внутренним метрикам Welder.
Агентство с 5+ каналами. ElevenLabs Pro ($99) с overage $0.24/1 000 знаков. На таких объёмах разница 30→24 цента отбивается уже за 200 000 знаков (около 200 минут аудио в месяц на агентство).
Личный бренд с клонированием голоса. Resemble AI (от 10 сек reference) или PlayHT 4.0 (от 30 сек). Прогоняйте через них только хуки и подписи; основной нарратив — ElevenLabs, чтобы не сжечь бюджет на клонировании длинного скрипта.
Голос в AI-Shorts — это та часть пайплайна, на которой нельзя экономить. Зритель простит вам шаблонную картинку и средний монтаж, но не «голос из колл-центра». Поэтому даже если вы только начинаете и кадры рендерите через Veo 2 вместо 3.1, на голос денег не жалейте.
Что делать сегодня
- Откройте Welder и запустите тестовое видео — ElevenLabs Multilingual v2 включён по умолчанию, оцените звучание под вашу нишу за один прогон.
- Если уверены, что нужен свой стек, заведите Creator-аккаунт на ElevenLabs ($11/мес), прогоните 5 одинаковых хуков на разных голосах и оставьте топ-2 голоса для серии.
- Под RU-каналы про историю, ностальгию или редкие топонимы параллельно тестируйте Yandex SpeechKit — на «дворах», «вокзалах» и старых именах он часто точнее.
- Не клонируйте чужой голос без письменного согласия — в России 2026 года это уже подпадает под защиту биометрических данных, штрафы серьёзные.
Голос либо звучит человеком, либо нет. Тестировать выбор на канале с 100 подписчиками — ОК, тестировать на канале с 50 000 — поздно: зритель уже привык к одному тембру и любая замена воспринимается как «канал украли».
Сделать первое видео в Welder → — голос подбирается под нишу автоматически, без подписки на ElevenLabs и без настройки SSML.