Главное за 30 секунд
В мае 2026 мы выпустили серию апдейтов под одно ремесло: сделать так, чтобы пайплайн Welder не ронялся на длинных диалоговых роликах. Главное — VOICE LOCK: теперь два-три персонажа говорят в одной сцене с одним и тем же голосом во всех чанках, а не «перевоплощаются» при каждой 8-секундной нарезке Veo 3. Это была боль всей индустрии — Veo 3.1 требует 3–5 регенераций на сложные звуковые сцены, и Sora 2 рекомендует «полировать в посте». Мы переложили эту работу на пайплайн.
Помимо голоса — три точки:
- Chunk-продолжения (ITER-078 → 086): теперь любой ролик длиннее 8 секунд это связанная цепочка, а не рваная склейка. Parent-keyframe тянется в каждый следующий чанк.
- Self-heal пайплайна (ITER-084): если задача застряла в
refs_chars_runningилиrefs_scenes_running—/run-полл сам её разлочивает, а не ждёт человека. - Бандлированный ffmpeg + harden veo settle (ITER-086): MP4 пользователя теперь не теряется, даже если последний кадр от Veo пришёл без
actual_last.
Что это значит на серии видео в месяц — ниже, с цифрами.
Контекст: где мы стоим в мае 2026
Рынок коротких ИИ-видео живёт между двумя «эталонами»: Sora 2 (OpenAI) с клипами 20–25 секунд в одном проходе и Veo 3.1 (Google DeepMind) с 8-секундными бёрстами в 4K@60fps. У обоих своя слабость — длина и качество звука. Подробнее мы разбирали это в Sora 2 и Veo 3.1: новый стандарт качества AI-Shorts 2026.
Welder поверх — это не отдельная модель, а оркестратор: ниша → сценарий → персонажи → сцены → озвучка → склейка. Базовая модель видео — Veo 3 / Veo 2 через KIE. Это значит, что наша работа в мае была не «обучить новую сеть», а снять с пользователя ручную возню, которую обычно требует Veo 3 — особенно на серийных каналах, где одна и та же история живёт через 6–8 роликов в неделю.
Голос: VOICE LOCK для диалоговых сцен (ITER-072)
Раньше, если у вас в чанке был диалог двух персонажей, Veo 3 мог дать на следующий чанк другие голоса — даже при одинаковом промпте. Это убивает faceless-каналы с одним нарратором, агентство с серией про античных богов, любой проект, где «герой опознаваем по голосу». По данным независимого теста на GLBGPT (январь 2026), сложные звуковые сцены в Veo 3.1 требуют в среднем 3–5 регенераций, чтобы получить желаемый результат.
Что мы изменили:
- Сценарий теперь идёт в Veo 3 структурированно — это multi-speaker turns в одном чанке: реплика, говорящий, эмоция, тон.
- Между чанками работает VOICE LOCK chain: ID голоса каждого персонажа фиксируется на первом чанке и пришивается ко всей цепочке.
- Авторитетный диалог инжектится в
renderPlanдо валидации (ITER-076) — это значит, что Veo получает «канон», а не парсит черновик сценария.
На практике: в наших тестах на нише «Античные мифы» (12 серий по 3 чанка) сходимость голоса по чанкам выросла с ~62% до ~95%. По нашим оценкам, это экономит 1–2 регенерации на серию — а это $0.5 за регенерацию на Veo 3, или около ₽45–90 за каждый сэкономленный прогон.
Если интересно, какой именно TTS-движок мы используем под капотом и почему ElevenLabs v3 для русского выигрывает у Murf и OpenAI Voice — у нас есть отдельный тест Озвучка AI-Shorts 2026: ElevenLabs v3 vs OpenAI vs Murf.
Длинные ролики: chunk-продолжения (ITER-078 → 086)
Простая правда: в мае 2026 ни одна публичная модель не делает 60-секундное видео одним проходом. Sora 2 — 20–25 секунд, Veo 3.1 — 8 секунд, Runway Gen-4 — около 10 секунд, Kling 1.6 — 5–10. Чтобы сделать 60-секундный шортс, нужна цепочка. Мы перепрошили шаги Step 8 → Step 10 под это.
- Step 8 (сценарий) теперь умеет переписывать ролик целиком через
fullScriptRewrite(бюджет 3 → 5 кредитов, ITER-071) — без необходимости править каждый чанк руками. - Step 9 стал чисто детерминированным (ITER-060 Phase 2): считает количество чанков, длину, переходы. Без LLM-разброса.
- Step 10 — отдельный chunk-producer LLM. Видит выбранного кандидата (ITER-060 Phase 1.1) и наследует контекст из писателя.
Связь между чанками держится на parent-keyframe: последний кадр предыдущего чанка идёт как референс в следующий. В UI это видно как tree-list со связями (ITER-079). Если вы запустили generation первого чанка через «firstOnly», теперь над оставшимися висит CTA «Сгенерировать оставшиеся» (ITER-078) — не нужно искать кнопку.
И отдельная hard-rule в продюсере (ITER-080/081): новый персонаж = новая сцена. Если в чанке появляется герой, которого не было в предыдущем — генерируется новая сцена с keyframe-склейкой, а не «впихнуть в кадр». Иначе Veo путается и убивает консистентность.
Self-heal пайплайна и стабильность рендера
Это менее эффектная, но более деньги-сохраняющая часть релиза. Сводка ниже.
| Что было сломано | Что починили | Iter |
|---|---|---|
Задача застревала в refs_chars_running / refs_scenes_running без таймаута | /run-полл сам перезапускает заглохший шаг | ITER-084 |
keyframe_last падал на continuation-чанках вместо «отложить» | Defer, а не fail | ITER-085 |
Если Veo не возвращал actual_last — терялся весь MP4 | Harden veo settle + резервный путь | ITER-086 |
| ffmpeg отсутствовал на serverless-инстансе → render failed | Бандл ffmpeg-binary в деплой | ITER-086 |
pollImage ловил CDN-кэш fra1 → flicker preview | Cache-bust + кэш подписанных URL | ITER-074 |
| OpenAI content-policy отклонял картинку → render dead | Fallback на nano-banana + санитайз пользовательского текста | ITER-077 |
| Шаги в боковой панели терялись на legacy-черновиках | Сервер инферит furthestStep из артефактов | ITER-082, 083 |
Главный эффект для пользователя: доля «потерянных» серий из-за инфраструктуры упала примерно в 4 раза (по логам Step 11 за последние 7 дней). Для тарифа Creator (₽2,075/мес, 5 000 ◈, ≈6 серий в месяц) это разница между «6 серий пришли» и «3 пришли, 3 надо реран». Если ещё не знакомы с тарифами — /pricing с разбором.
Сценарий: кросс-провайдерный fallback (ITER-064 → 066)
Тихая, но важная часть. Раньше, если Gemini 2.5 (наш основной script LLM) уходил в техобслуживание — серия вставала. Теперь:
- Первая попытка — Gemini 2.5. Дорогую Gemini 2.5 Pro мы убрали как fallback из стоимостных соображений (ITER-064).
- Падает — Anthropic Haiku 4.5.
- Падает Haiku — OpenAI gpt-5-4 (после правки slug и shape, ITER-064 followup 2).
Бюджет LLM-chain поднят с 120 → 165 секунд (ITER-063), чтобы fallback успевал отработать. И отдельная боль: Haiku обрезал русский JSON на дефолтных 4096 токенах — это правлено бампом до 8192 (ITER-066).
Что это значит на практике: за последнюю неделю мы видим 0 «упавших» серий из-за script-LLM, против ~12% до ITER-064. Подробное сравнение моделей для сценария — ChatGPT-5 vs Claude 4.7 vs Gemini 2.5 для AI-Shorts 2026.
Welder vs Veo 3 vs Sora 2: где мы стоим
Честный взгляд. Welder не выигрывает у Veo 3.1 в качестве отдельного кадра — мы работаем поверх Veo. И не выигрывает у Sora 2 в длине одного клипа — Sora 2 рисует 20–25 секунд, мы зависим от 8-секундных бёрстов Veo 3.
| Параметр | Welder AI (май 2026) | Veo 3.1 (raw) | Sora 2 (raw) |
|---|---|---|---|
| Длина непрерывного клипа | 8 сек × N чанков с parent-keyframe | 8 сек | 20–25 сек |
| Разрешение | До 1080p (4K на Studio) | 4K @ 60fps | 1080p |
| Мульти-голос (RU) | VOICE LOCK chain + ElevenLabs v3 | 3–5 регенераций на сложный диалог | Рекомендуют доводить в посте |
| Сценарий → видео | Сквозной пайплайн с правкой на каждом шаге | Только промпт | Только промпт |
| Цена за серию (RU) | от ₽137 (Starter) до ₽271 (Studio) | ≈$0.5 за 8 сек × N | $20/мес в ChatGPT Plus |
| Карта РФ | Да, без VPN | Через прокси | Через прокси |
Где мы выигрываем: оркестрация (ниша → 10 готовых роликов), RU-голоса с lock'ом по серии, оплата с российской карты, прогнозируемая стоимость на ролик. Где проигрываем: качество одного кадра у Veo 3.1 raw + длина одного клипа у Sora 2. Если вам нужен один киношный 25-секундный кусок — берите Sora 2 напрямую. Если вам нужно 6 серий по 60 секунд каждую неделю — Welder снимет с вас половину рутины.
Что планируем дальше
Без обещаний, но прозрачно. Приоритеты на июнь 2026:
- Голосовое клонирование (Phase 2 тарифа Creator) — собственный голос за 30 секунд через ElevenLabs Voice Lab, с автоматической привязкой к персонажам серии.
- 4K-экспорт на Creator — пока 4K доступен только на Studio. Это требует пересборки рендер-этапа, но 1080p уже стало индустриальным минимумом.
- API-доступ для Studio — пока в Phase 2, движемся по этапам.
- Repurpose-режим: Reels → TikTok → Shorts → VK Клипы → Dzen → Telegram-канал одной кнопкой, с под-форматным ресайзом и перетипкой подписей. Конкуренты вроде Opus Clip и Submagic делают это с готового long-form; мы — с native short-form.
- Локализация RU→EN на одной кнопке: переписать сценарий + сгенерировать EN-голос ElevenLabs + ремэп подписей.
Если что-то из этого критично для вашего канала — ответьте на этот пост (или напишите в саппорт), мы приоритизируем по запросам, а не по «как удобнее команде».
Что делать прямо сейчас
Если вы уже на Welder — ничего перенастраивать не нужно: все апдейты применены автоматически. Просто попробуйте серию с диалогом двух персонажей — увидите VOICE LOCK на практике. На сложной нише (например, исторические диалоги или подкаст-фрагменты) разница ощутима с первого прогона.
Если ещё не запускали — пробная серия без карты на 1 500 ◈ (хватает примерно на 2 короткие серии). Этого достаточно, чтобы понять, подходит ли пайплайн под вашу нишу. Если планируете faceless-канал с нуля — наш свежий гайд Faceless канал на ИИ за выходные 2026: план 48 часов объясняет, что делать в первые 48 часов после регистрации.
Откройте dashboard и сделайте первую серию — это пять кликов и одно описание ниши. Дальше пайплайн отработает сам.