AI-голос для Shorts 2026: ElevenLabs v3, OpenAI, Yandex

Цены, RU-натуральность, эмоции и скорость рендера — сравнение 5 движков AI-голоса на одном скрипте Shorts.

Главное за 30 секунд

В 2026 году голос — это 40% удержания AI-Shorts за первую секунду. Кадр можно прогнать через Veo 3.1 за полминуты, но если тембр звучит роботом из 2018, зритель вылетает раньше, чем досмотрит хук. Качество голоса перебивает качество кадра, и эту истину чаще всего недооценивают начинающие AI-каналы.

В этом сравнении мы прогнали один и тот же 60-секундный RU-скрипт через пять движков: ElevenLabs Multilingual v2 и v3, OpenAI gpt-4o-mini-tts и tts-1-hd, Yandex SpeechKit, PlayHT 4.0 и Resemble AI. Замеряли цену за минуту, RU-фонетику, эмоциональный диапазон и задержку API.

Короткий вывод: ElevenLabs v3 выигрывает по живости подачи, Yandex — по цене и нативной RU-просодии, OpenAI — по соотношению «качество/цена в долларах», PlayHT и Resemble имеют смысл, если нужно клонирование голоса. Ниже — детали, цифры и где какой движок сыпется на русском языке.

Параметры теста

Тестовый скрипт — 850 знаков RU (около 60 секунд проговора в темпе AI-Shorts, темп 155 слов в минуту):

«Заметили, как в этом году все каналы про космос выглядят одинаково? Один монотонный голос, один шаблон. А теперь представьте: тот же сценарий, но рассказчик говорит как живой человек — с паузой, вздохом, удивлением. Разница в удержании — 20 секунд против 6.»

Прогнали каждый движок дважды: нейтральная подача (новостной диктор) и эмоциональная (документалист с вздохами и паузой). Голоса — один мужской, один женский, чтобы исключить «случайно удачный голос».

Замеряли четыре параметра:

субъективное качество RU-фонетики (правильные ё, твёрдые согласные, ударения в редких словах);
эмоциональный диапазон (понимает ли движок выдох, раздумье, удивление);
цену за минуту в едином пересчёте (1 USD ≈ 79 ₽ по июнь 2026);
латентность от запроса до готового MP3 на стандартном API без оптимизации.

ElevenLabs v3 и Multilingual v2 — золотой стандарт RU

ElevenLabs — движок, на котором держится бóльшая часть AI-Shorts-индустрии в 2026, включая Welder. Их новый Eleven v3 (на момент июня 2026 всё ещё в alpha) поддерживает русский наряду с другими языками и работает с тегами эмоций прямо в тексте: [laughs], [whispers], [sigh], [excited].

В нашем тесте v3 — единственный движок, который правильно интонирует RU-вопрос с подъёмом в середине фразы. Все остальные читают вопрос как утверждение и теряют 0.3 секунды внимания. Минус v3: alpha-доступ нестабилен, лимиты ниже, и для длинных видео (>10 минут) лучше остаться на Multilingual v2.

Цены ElevenLabs в июне 2026:

Free: 10 000 знаков в месяц, около 10 минут аудио — для пробников ОК, для канала бесполезно.
Creator: $11/мес, 100 000 кредитов, около 100 минут Multilingual v2.
Overage Creator: $0.30 за 1 000 знаков (примерно $0.30 за минуту, около 24 ₽/мин).
Pro: $99/мес, 500 000 кредитов, overage $0.24/1 000 знаков (около $0.24/мин).

ElevenLabs ограничивает каждый запрос 5 000 знаков на платных тарифах и 2 500 на free — для Shorts (60 секунд это 800–1 100 знаков) хватает с запасом. Если делаете 8-минутные подкаст-Shorts или длинные сторителлинги, придётся бить на чанки и сшивать.

Где сыпется ElevenLabs: русские слова с двойными согласными вроде «полночь», «гость», «съёмка» иногда читаются как один звук вместо двух. Лечится переписыванием фразы или вручную через SSML.

OpenAI gpt-4o-mini-tts — дёшево и почти везде

OpenAI обновили линейку TTS в мае 2026, и теперь у них три модели на разном уровне качества и цены:

tts-1-hd — старая высококачественная модель, $30 за 1 миллион знаков (около $0.024 за минуту);
gpt-4o-mini-tts — новый дешёвый стандарт, токен-биллинг, около $0.015 за минуту аудио;
gpt-realtime-2 и gpt-realtime-whisper ($0.017/мин) — для голосовых агентов, не для записанных Shorts.

Русский язык поддерживается во всех трёх, но не одинаково. tts-1-hd звучит чисто, но эмоции плоские — диктор без выражения. gpt-4o-mini-tts лучше с интонацией, дешевле, и его можно «прокачать» промптом: «озвучь как documentary narrator со вдохом перед ключевой фразой». Это единственный TTS, который понимает свободную текст-инструкцию о манере подачи.

Минус OpenAI для RU: ударения иногда плавают, особенно в редких словах — топонимы, имена, исторические термины. Прогон того же текста через ElevenLabs или Yandex даёт меньше ошибок такого рода. Зато OpenAI безумно дёшев: за $5 вы озвучите 333 минуты аудио на gpt-4o-mini-tts. Полный прайс — на странице цен OpenAI API.

Yandex SpeechKit — RU нативный и платим в рублях

Yandex SpeechKit — главная локальная альтернатива в 2026 году. Особенности:

нативный RU-биллинг в рублях, без проблем с подключённой картой РФ;
около 932 ₽ за 21 час 25 минут синтеза через API v3 (примерно 0.72 ₽ за минуту, около $0.009/мин);
15+ языков, но фишка именно в RU-просодии;
доступ через AI Studio Yandex или Yandex Cloud API.

В нашем тесте Yandex — единственный движок, который правильно расставил ударения в фразе «дворы́ девяно́стых». ElevenLabs и OpenAI промахнулись на втором слове. Для нишевых RU-каналов про историю, ностальгию, фольклор это сильное преимущество — и это, кстати, ровно та механика, на которой канал «Дворы 90-х» сделал ₽475K MRR за 70 дней.

Минус Yandex: эмоциональный диапазон уже, чем у ElevenLabs v3. У SpeechKit есть «настроения» через SSML-теги, но это не уровень [whispers] или [sigh]. Также нет голосового клонирования в публичном API — Brand Voice доступен только для B2B-клиентов через Yandex Cloud sales.

PlayHT 4.0 и Resemble AI — клонирование как опция

Эти два движка — нишевые. Они НЕ оптимальны для массового AI-Shorts (там ElevenLabs, Yandex и OpenAI справляются лучше), но имеют смысл, если вам нужно клонировать конкретный голос — свой или лицензированный.

PlayHT поддерживает 140+ языков, включая RU. Цены в 2026:

Creator: $31.20/мес;
Unlimited: $49/мес;
голосовое клонирование требует около 30 секунд reference-аудио.

Resemble AI работает по pay-per-use: $0.0005 за секунду TTS (около $0.03 за минуту), что дороже OpenAI, но даёт более тонкий emotional control. Минимум данных для клонирования — 10 секунд аудио, что в 3 раза меньше PlayHT.

Когда выбирать клонирование: если вы — фигура с уже узнаваемым голосом (блогер, владелец бизнеса, актёр) и хотите масштабироваться через AI-Shorts без записи каждого ролика. Или если у вас лицензия на голос исторической персоны — без лицензии не клонируйте, в России 2026 года это уже подпадает под защиту биометрии (152-ФЗ и правки 2026).

Сравнительная таблица

Движок	Цена за минуту RU	RU-фонетика	Эмоции	Клонирование	Латентность
ElevenLabs v3	~$0.30	9/10	10/10	да, от 60 сек	2–4 сек
ElevenLabs Multilingual v2	~$0.30	8.5/10	7/10	да	1–2 сек
OpenAI gpt-4o-mini-tts	~$0.015	7/10	7/10 (через промпт)	нет	<1 сек
OpenAI tts-1-hd	~$0.024	7.5/10	5/10	нет	<1 сек
Yandex SpeechKit	~$0.009 (~0.72 ₽)	9.5/10	6/10	B2B Brand Voice	0.5–1 сек
PlayHT 4.0	~$0.13 (Unlimited)	7/10	7/10	да, от 30 сек	2–3 сек
Resemble AI	~$0.03	6.5/10	8/10	да, от 10 сек	1–2 сек

Цена за минуту считалась по примерному темпу 1 000 знаков RU = 1 минута на скорости AI-Shorts (155 слов в минуту). Цифры округлены до второго знака — реальная цена будет плюс-минус 10% в зависимости от тарифа.

Как Welder выбирает голос автоматически

Welder поверх Veo 3.1, Veo 2 и Sora 2 использует ElevenLabs Multilingual v2 в продакшене для всех voiceover-каналов. Логика выбора голоса трёхступенчатая:

Под нишу подбирается характерный пресет — мужской документалист для космоса, женский диктор для ностальгии, нейтральный молодой голос для лайфхаков.
Под серию из 10+ роликов закрепляется один и тот же ElevenLabs voice id, чтобы канал звучал узнаваемо и зритель привыкал к тембру.
На длинные сценарии выбирается Multilingual v2 (стабильность важнее эмоций), на короткие хуки — v3 alpha, когда доступен.

Вы не выбираете голос вручную — Welder делает это за вас, исходя из ниши и формата. Если хочется кастомного клонирования, экспортируете скрипт из Welder, прогоняете через PlayHT или Resemble и подкладываете в композит. Но 95% каналов в этом не нуждаются.

Параллельно с голосом — звук в канале не должен звучать «с улицы»: фоновый шум, эхо и сибиланты убивают то же удержание, что и плохой TTS. Если интересно почистить звук готовых AI-Shorts, см. подборку инструментов AI-чистки звука. И не забывайте про субтитры — половина зрителей смотрит без звука; сравнение Submagic, CapCut, Captions и Welder — рядом.

Подробные тарифы Welder и пакеты для агентств — на странице цен.

Что выбрать в 2026: 4 сценария

Канал на RU-нише, до 20 видео в месяц. ElevenLabs Creator ($11) + Multilingual v2 — лучший баланс. Если бюджет жёсткий — Yandex SpeechKit за 30–50 ₽ в месяц. Минус Yandex здесь: менее живая подача на эмоциональных скриптах.

Канал в США и Европе, фокус на охват. ElevenLabs v3 — единственный движок, чьи эмоциональные теги дают тот самый подкаст-эффект. Дороже, но retention выше на 15–20% по внутренним метрикам Welder.

Агентство с 5+ каналами. ElevenLabs Pro ($99) с overage $0.24/1 000 знаков. На таких объёмах разница 30→24 цента отбивается уже за 200 000 знаков (около 200 минут аудио в месяц на агентство).

Личный бренд с клонированием голоса. Resemble AI (от 10 сек reference) или PlayHT 4.0 (от 30 сек). Прогоняйте через них только хуки и подписи; основной нарратив — ElevenLabs, чтобы не сжечь бюджет на клонировании длинного скрипта.

Голос в AI-Shorts — это та часть пайплайна, на которой нельзя экономить. Зритель простит вам шаблонную картинку и средний монтаж, но не «голос из колл-центра». Поэтому даже если вы только начинаете и кадры рендерите через Veo 2 вместо 3.1, на голос денег не жалейте.

Что делать сегодня

Откройте Welder и запустите тестовое видео — ElevenLabs Multilingual v2 включён по умолчанию, оцените звучание под вашу нишу за один прогон.
Если уверены, что нужен свой стек, заведите Creator-аккаунт на ElevenLabs ($11/мес), прогоните 5 одинаковых хуков на разных голосах и оставьте топ-2 голоса для серии.
Под RU-каналы про историю, ностальгию или редкие топонимы параллельно тестируйте Yandex SpeechKit — на «дворах», «вокзалах» и старых именах он часто точнее.
Не клонируйте чужой голос без письменного согласия — в России 2026 года это уже подпадает под защиту биометрических данных, штрафы серьёзные.

Голос либо звучит человеком, либо нет. Тестировать выбор на канале с 100 подписчиками — ОК, тестировать на канале с 50 000 — поздно: зритель уже привык к одному тембру и любая замена воспринимается как «канал украли».

Сделать первое видео в Welder → — голос подбирается под нишу автоматически, без подписки на ElevenLabs и без настройки SSML.