Главное за 30 секунд
В мае 2026 у вас четыре рабочих способа сохранить лицо героя через серию AI-Shorts: Veo 3.1 «Ingredients to Video» (до 4 reference-картинок, релиз января 2026), Sora 2 Characters (бывшие Cameos, 95%+ консистентности, но OpenAI объявила deprecation API на 24 сентября 2026), Kling 3.0 Element Binding + Motion Brush и Hailuo S2V-01: один кадр и герой держится на 8-секундной сцене.
Кто на стиле и на западном бюджете — Sora 2 до сентября, потом миграция на Veo 3.1. Кто на TikTok-объёме и RU-карте — Veo 3.1 через Vertex AI плюс Kling 3.0 для motion-сцен. Дальше — что выбрать под ваш канал, цена за секунду, реальные подводные камни и как собрать серию из 10 видео с одним лицом в Welder.
Почему «лицо в серии» — главный фильтр на AI-канал в 2026
Faceless-канал на 50K подписчиков ломается ровно в момент, когда герой во втором шорте превращается в другого человека. Алгоритм YouTube Shorts и TikTok с конца 2025 года активно режет охваты каналам, где «персонаж» прыгает — это сигнал «AI-мусора» для классификатора, а зрителю — повод свайпнуть на третьей секунде.
Три года назад «герой» решался через MidJourney + img2img, потом — через img-to-video в Runway Gen-2. С приходом Veo 3.1 и Sora 2 появился отдельный класс инструментов — identity-aware video generation: модель внутри держит embedding лица и пересобирает его в каждом кадре с заданными позой, светом, фоном.
В этом тексте мы разбираем четыре главных способа на май 2026 года, считаем стоимость, говорим, где они врут, и показываем, какой стек реально работает для серии из 10+ шортсов на одну тему. О том, как этот же зоопарк моделей встал в нишу «без Sora 2», мы писали отдельно — здесь фокус именно на герое.
Veo 3.1 «Ingredients to Video»: до 4 референсов и 4K-аплинк
Google DeepMind выкатили Veo 3.1 в январе 2026 года с фичей под названием Ingredients to Video — модель принимает до 4 reference-изображений одновременно: герой, фон, объект, стилистический мудборд. Раньше было три.
Что это даёт на практике:
- Лицо. Загружаете один-два кадра героя в анфас и в три четверти — Veo 3.1 удерживает его через 8-секундную сцену с 92–96% точности (внутренние тесты Welder на 60 промптах в апреле 2026). Полный поворот головы на 180° модель ещё иногда «срывает» — лучше держать ракурс в пределах ±90°.
- Контролируемая поза и эмоция. Текстовый промпт «герой улыбается, смотрит вверх» теперь работает, даже когда промпт короче 30 слов — это новость апдейта.
- Вертикаль 1080×1920 нативно. Без crop'а и допрендеров под Shorts/Reels.
- 4K upscale встроенный — можно подавать в YouTube Shorts без отдельной апскейл-обработки в Topaz.
Цена. Veo 3.1 доступен:
- Через Gemini App — подписка Google AI Pro $19.99/мес (
₽2 000) или Ultra $249.99/мес (₽25 000, первые 3 мес со скидкой); - Через Vertex AI — $0.40–$0.75 за секунду видео (с аудио дороже);
- Через Gemini API — $0.75 за секунду с аудио.
Серия из 10 шортсов по 8 секунд = 80 сек видео = ~$60 на API, или $20 в Google AI Pro, если влезаете в квоту.
Подводные камни. Из РФ платить картой невозможно без посредника. Google AI Pro принимает только зарубежные карты (или Stripe через PayPal). Через Vertex AI — нужен корпоративный аккаунт GCP с подтверждённой компанией.
Sora 2 Characters: 95% консистентности, но часы тикают
OpenAI официально уведомили разработчиков 24 марта 2026 о deprecation API Sora 2: веб и мобильное приложение Sora уже закрыты с 26 апреля 2026, API будет работать до 24 сентября 2026, потом — финал.
Что осталось ценного:
- Sora 2 Cameos (теперь официально «Characters») — вы записываете 5–10-секундное self-video, OpenAI извлекает «character DNA» и далее любые промпты используют этот embedding. Заявленная точность — 95%+ через 25-секундный клип, что лучше любой публичной модели на конец мая 2026.
- Поддержка диалогов, синхронизированной аудио-дорожки, lip-sync — всё в одном проходе.
- 25-секундная длительность одного клипа против 8 секунд у Veo 3.1 — в 3× больше «эфирного времени» с одного запроса.
Цена. ChatGPT Plus $20/мес — обязательный минимум для доступа к Characters. Pro $200/мес даёт приоритет очереди и больше генераций в день.
Жёсткие ограничения (новые с февраля 2026):
- Загружать фото чужого лица запрещено — только self-recorded Cameo. То есть герой = вы лично или клиент, который записал референс-видео своими руками.
- Запрещены likeness знаменитостей и публичных персон.
- Запрещены логотипы и торговые марки в кадре.
Реалистичный совет. Если у вас есть лицо для канала (своё или клиента) — выжимайте Sora 2 до 24 сентября, потом мигрируйте на Veo 3.1 + reference-image. Не закладывайте Sora 2 в long-term стратегию канала, который вы запускаете сегодня — через 4 месяца API погаснет.
Kling 3.0 Element Binding + Motion Brush: рекорд по контролю позы
Китайская Kuaishou выпустила Kling 3.0 с двумя фичами, которые буквально перенесли границу возможного:
- Element Binding — индустриальный уровень привязки лица. Загружаете 3–6 close-up картинок героя, модель строит facial reference, который держится через динамическую композицию, длинные сцены и моменты, когда лицо частично перекрыто. Если у Veo 3.1 герой иногда «течёт» при резком повороте, у Kling 3.0 этого практически нет.
- Motion Brush 3.0 — кистью на стартовом кадре рисуете траектории движения для разных элементов. Зашёл в кадр, повернулся, поднял руку — всё контролируется без многократных перепрогонов. Уровень контроля близок к After Effects rotoscope, но за секунды, а не часы.
Стоимость. Kling Premium — $9.99/мес (~₽1 000), Pro — $26.99/мес. Принимает зарубежные карты, есть прокладки через Kuaishou-агентов для РФ-клиентов.
Минус. Скорость рендера — 90–180 секунд на 5-секундную сцену, заметно медленнее Veo 3.1. Для канала «10 шортсов в день» это узкое место. Берите Kling точечно — на сцены, где Veo не справился с motion (танец, бой, сложный экшен).
Hailuo MiniMax S2V-01: один кадр и герой держится
MiniMax (Шанхай) выкатили модель S2V-01 с акцентом на subject reference — один-единственный фронтальный кадр героя, и модель удерживает идентичность через каждый кадр генерации.
- Скорость рендера — 30–60 секунд на 6-секундный клип. Самая быстрая из четвёрки.
- Цена — $0.15–$0.30 за клип, дешевле всех.
- Качество face-lock — субъективно 85–90%, чуть ниже Veo 3.1 и заметно ниже Sora 2.
- Длительность клипа — до 10 секунд за один проход (новая Hailuo 02 ветка).
Hailuo берут, когда нужен дешёвый объём — серия из 30+ шортсов или пилотный тест ниши, где качество face-lock некритично, а важна скорость и количество вариаций.
Сравнительная таблица: четыре модели на май 2026
| Параметр | Veo 3.1 | Sora 2 | Kling 3.0 | Hailuo S2V-01 |
|---|---|---|---|---|
| Длина клипа | 8 сек | 25 сек | 10 сек | 6–10 сек |
| Reference-источник | до 4 картинок | self-video (не фото) | 3–6 close-up | 1 фронт. кадр |
| Face-lock (наш тест) | 92–96% | 95–98% | 90–95% | 85–90% |
| Цена за секунду | $0.40–$0.75 | внутри Plus $20/мес | $0.15–$0.25 | $0.03–$0.05 |
| 8-сек клип, время | 60–120 сек | 90–180 сек | 90–180 сек | 30–60 сек |
| Audio + lip-sync | ✅ | ✅ нативно | через add-on | ❌ |
| Платёж из РФ | через GCP | ChatGPT Plus | через агента | через агента |
| Доступность | стабильно | до 24.09.2026 | стабильно | стабильно |
| Лучше всего для | премиум-канал | максимум 25 сек | сложная поза | объёмный faceless |
Где здесь Welder — и почему мы не «обёртка над Sora 2»
Welder AI собирает поверх Veo 3.1 и Veo 2 полный пайплайн «ниша → голос → сценарий → герой → 10 шортсов» — вы получаете не один клип, а готовую серию вертикальных видео с RU-голосом ElevenLabs v3, бёрнут-сабтайтлами и обложками за один заход. Цена старта — от 290 ₽ за серию (детали на странице тарифов).
Чего мы не делаем — это не «ещё одна обёртка над Sora 2». В мае 2026 это сознательная развилка: мы держим Veo 3.1 как основной видеогенератор именно потому, что Sora 2 уходит в сентябре, а наши клиенты строят каналы на 6–12-месячный горизонт. Видеть, как канал ломается ровно в момент API-шатдауна — слишком дорогой класс ошибок, чтобы рисковать.
В Welder вы загружаете один фронтальный кадр героя — он же используется как Veo 3.1 reference во всех 10 сценах серии. Аудио, монтаж, обложки, текстовые оверлеи — на нашей стороне. О том, как правильно собрать раскадровку под Veo 3.1, мы писали отдельным гайдом — там же конкретные техники против «срыва лица» при резких перепадах сцен.
Воркфлоу: серия из 10 шортсов с одним лицом за вечер
Реальный пошаговый план, который мы рекомендуем нашим клиентам для нового канала в 2026:
- Фиксируем героя. Снимите или сгенерируйте 2 кадра — анфас и три четверти, 1024×1024+, мягкий студийный свет, нейтральный фон. Не используйте художественные ракурсы — модель должна выучить лицо, а не атмосферу.
- Тестовый клип. Прогон 1 сцены через Veo 3.1 + ваши 2 референса. Цена ≈ $4. Смотрим: лицо держится? Если нет — переснимаем референс.
- Сценарий 10 шортсов. Один тематический столб, 10 ракурсов одной истории. Каждый шортс — 8 секунд, ровно один cut на 4-й секунде, иначе face-lock рвётся.
- Батч в Veo 3.1. 10 клипов × 8 сек × $0.75 = $60. Через Vertex AI это 25–40 минут wall-time на батч.
- Голос — ElevenLabs v3. Один voice ID для всей серии (на канале должен быть «голос диктора», а не каждый раз новый — иначе бренд не клеится).
- Captions + обложка. Burnt-in subtitles, единый стиль обложки. О подходе мы писали в гайде по подписям AI-Shorts.
- Публикация серии веером — 1 шортс в день × 10 дней, или сериями по 3 в трёх социалках за раз.
Тот же воркфлоу в Welder — это 3 экрана и 12 минут wall-time вместо 4 часов ручной сборки.
Что делать на следующей неделе
Если вы только запускаете AI-канал в РФ в 2026 — ваш стек на горизонте 12 месяцев выглядит так: Veo 3.1 для основной генерации + ElevenLabs v3 для голоса + Kling 3.0 для отдельных «motion-heavy» сцен. Sora 2 в этой картине не участвует — слишком короткий горизонт. Hailuo используем для пилотных каналов под тестирование ниш, где цена за клип важнее face-lock.
Точка входа — собрать одну тестовую серию и посмотреть, держится ли герой в ваших промптах. Открыть дашборд Welder и собрать первую серию из 10 шортсов занимает 12 минут — потом разбираете результат и принимаете решение по стеку на квартал.