Главное за 30 секунд
В 2026 в шортсах редко рендерят кадры с нуля. Чаще берут готовую картинку — мудборд из Midjourney, мем, обложку Suno, скриншот игры, архивное фото — и оживляют её через image-to-video (i2v). Шесть моделей делают это на промышленном уровне: Kling 3 Pro, Hailuo 02 от MiniMax, Runway Gen-4 Aleph, Veo 3.1 от Google DeepMind, Pika 2.2 и Luma Ray2.
Самая дешёвая — Hailuo 02 на 768p: $0.045 за секунду через fal.ai. Самая управляемая (точная камера + текстовая команда поверх) — Runway Gen-4 Aleph: $0.15–$0.18 за секунду. Самая близкая к Veo 3 по физике — Veo 3.1 Fast за $0.10/сек без аудио. Welder AI использует Veo 3.1 / 3.1 Fast в i2v-режиме и автоматически добавляет голос (ElevenLabs v3) и сборку в 9:16.
Ниже — тест на 12 промптах, разбор по сценариям и решение, какую модель брать под ваш канал.
Зачем i2v отдельно от text-to-video
Text-to-video звучит проще: «напиши промпт, получи ролик». На практике у text-to-video три проблемы для шортс-каналов.
Стиль скачет от ролика к ролику. Veo 3.1 при одном и том же seed-е даёт два разных лица героя, две разных кухни на фоне. Для серии из 30 видео это убийственно — зритель не верит в персонажа.
Кадр редко совпадает с обложкой. Если вы уже сделали thumbnail в Midjourney или Recraft, text-to-video не вернёт тот же кадр. А зритель тапнул именно из-за обложки.
Сценарий приходится переписывать под капризы модели. Veo любит «солнечный кафе с тёплым светом», но банит «герой держит нож у горла». i2v не имеет таких ограничений по контексту, только по самой картинке.
i2v решает все три проблемы: стиль фиксируется на референсе, thumbnail = первый кадр ролика, сюжет управляется текстовой подсказкой к модели, а не prompt-инженерией визуала.
i2v экономит до 60% бюджета на провалившихся генерациях — потому что вы не «крутите» модель, пока она не родит нужный кадр. Кадр у вас уже есть.
Параметры теста
Тестировали 6 моделей на 12 промптах: 4 жанра по 3 промпта.
- Faceless-история: статичная сцена + камера-движение (зум, dolly-in, pan).
- Talking-meme: оживить кадр с человеком до речи в кадре (без губ).
- B-roll: природа, текстуры, абстрактный движок.
- Action: динамика — взрыв, падение, погоня.
Метрики:
- цена за 5-секундный клип в долларах (через fal.ai или официальный API, ставка май 2026);
- контроль камеры (есть/нет/частично);
- держит ли модель идентичность героя (лицо, одежда) — оценка 1–5;
- артефакты на 6-й секунде (флуктуации, морфинг);
- максимальная длина одного клипа.
Картинки-референсы — 1024×1024, JPEG, без водяных знаков, в стиле «cinematic, soft light». Промпты на английском, потому что Hailuo и Kling всё ещё ниже понимают русский.
Сравнительная таблица: i2v-модели 2026
| Модель | Цена за 5 сек | Длина | Контроль камеры | Идентичность | Лучшая сцена | API |
|---|---|---|---|---|---|---|
| Kling 3 Pro | $0.56 | до 10 сек | да (motion brush + camera) | 4/5 | talking-meme, лица | fal.ai, KIE |
| Hailuo 02 (768p) | $0.23 | до 6 сек | частично (preset) | 3/5 | b-roll, природа | fal.ai, MiniMax |
| Runway Gen-4 Aleph | $0.75–$0.90 | до 10 сек | да (полный) + текст-патч | 4/5 | action, монтаж | runwayml.com, WaveSpeedAI |
| Veo 3.1 Fast | $0.50 (без аудио) | 8 сек | частично (camera path) | 5/5 | faceless-история | Vertex AI, KIE |
| Veo 3.1 Standard | $2.00+ | 8 сек | да (полный) | 5/5 | premium-сюжет | Vertex AI |
| Pika 2.2 | $0.20 (5s 720p) | до 5 сек | минимум (preset) | 3/5 | мемы, шортс-вставки | pika.art, fal.ai |
| Luma Ray2 | $0.50 | до 9 сек | да (камера + motion) | 4/5 | стильный B-roll | lumalabs.ai, fal.ai |
Цены валидированы costgoat.com (Google Veo, май 2026) и evolink.ai (Kling 3 vs O3 API, апрель 2026). По данным MiniMax на 2026 год, Hailuo 02 — действительно самая дешёвая модель в своём классе. Через российские KIE-обвязки цены ≈ 1.4–1.6× к доллару (комиссия посредника + конвертация).
Покадрово: где какая модель сильна
Kling 3 Pro — лица и эмоции
Kling 3 — единственная модель, которая стабильно держит лицо на 8–10 секундах. Если ваш канал про «эксперт без лица, но с одним устойчивым аватаром», Kling 3 рендерит ваш статичный аватар в живую сцену почти без морфинга. На talking-meme сцене (тип «фото знаменитости, у которого якобы появляется выражение лица») Kling уделывает Pika и Hailuo по чистоте морфа.
Минусы: самые скучные движения камеры по умолчанию. Если не задать motion brush вручную, получите статичный медленный зум. Английский промпт сильно лучше русского.
Hailuo 02 — рабочая лошадка для B-roll
$0.045/сек на 768p — это рекордно дёшево в 2026 году. Качество на природе, текстурах, абстрактном движке — на уровне Veo 3.0 год назад и хуже Veo 3.1 примерно на 20%. Но за разницу в цене 5×.
Используем Hailuo 02 для:
- врезок-B-roll между основными кадрами;
- статика → лёгкое движение (флаг колышется, дождь идёт);
- массовой прогонки 200 сцен под канал-эксперимент, где качество вторично.
Hailuo не справится с лицами крупным планом — будет морфинг рта и глаз.
Runway Gen-4 Aleph — для editor-mind креаторов
Это не «модель», это редактор поверх модели. Aleph умеет принимать видео + текст и переделывать кадр: сменить погоду, добавить персонажа, продлить план, перецветить.
Для i2v-задачи: вы кормите картинку, получаете 5–10 сек, потом тем же запросом меняете направление камеры или добавляете огонь в кадр. Идеально для action-сцен и боевых шортсов, где нужен резкий монтаж.
Минусы: цена. $0.75–$0.90 за клип — это $25–$30 за один 30-секундный финальный шортс с пятью склейками. Для канала с 90 видео/мес это $2.5–$2.7K в месяц только на видеогенерации.
Veo 3.1 — стандарт качества и физики
Veo 3.1 в i2v-режиме (доступен через Vertex AI и KIE) — это нынешний бенчмарк по физике и продолжительности движения. Зум-камера в Veo не «срывается» на 5-й секунде, как у Kling, а плавно доезжает.
Веб-доступ через российскую карту напрямую не получится — Google не принимает РФ-биллинг на Vertex AI. Работают только KIE-обвязки и продуктовые надстройки вроде Welder AI.
Цены: Veo 3.1 Fast — $0.10/сек без аудио ($0.50 за 5 сек), Standard ≈ $0.40/сек, Lite ≈ $0.05/сек. Детальный разбор тарифов — в нашей статье Veo 3.1 Lite vs Fast vs Standard: выбор тарифа 2026. 8 секунд — максимум одного клипа, дальше — extension или сборка из нескольких клипов.
Pika 2.2 — для мемов и тестов
Pika дешевле в подписке ($28/мес за 2,300 кредитов в Pro-плане), но в API уступает Hailuo по цене и качеству. Используем её только для:
- быстрых мемов в формате «фото знаменитости + промпт взрывается»;
- A/B-тестов разных сцен до выбора финальной модели для серии.
Pika 2.2 не подходит для серий из 30+ роликов — слишком много артефактов на крупных планах после 4-й секунды.
Luma Ray2 — стильный B-roll и трейлеры
Ray2 даёт самые «кинематографичные» движения камеры из дешёвой лиги. Стоит так же, как Veo 3.1 Fast ($0.50 за 5 сек), но качество ближе к Runway Gen-3.
Берём Luma Ray2 для:
- трейлеров каналу (выложить как закреп);
- эстетичных переходов между кадрами в монтаже;
- B-roll под эзотерику, true-crime, ASMR-каналы, где стиль важнее физики.
Не существует «лучшей» i2v-модели. Есть лучшая под жанр.
Как встроить i2v в пайплайн AI-канала
Базовая раскладка для канала, который выпускает 3 шортса в день.
1. Mood-board в Midjourney / Recraft / Flux. 1–2 ключевых кадра, которые задают стиль серии.
2. Сценарий под кадр. Пишем текст так, чтобы кадр был первым/последним, а середина рассказывает историю. Подойдёт любой из ИИ-сценаристов (см. наш разбор: ИИ-сценаристы для Shorts 2026: GPT-5, Claude, Gemini, Welder).
3. i2v-генерация — оживляем кадр через одну из 6 моделей. Выбор зависит от жанра (см. шпаргалку в финале).
4. B-roll врезки — короткие 3–5-секундные кадры через Hailuo 02 для дешёвых разбавлений. Подробнее в гайде B-roll для AI-Shorts 2026: 10 источников футажей.
5. Сборка — монтаж, субтитры, голос (ElevenLabs v3), музыка из лицензионных библиотек.
Самая частая ошибка — рендерить весь шортс одним кликом в одной модели. Серьёзные каналы дробят на 4–7 коротких кадров, потому что 6-секундная сцена в Veo стоит столько же, сколько 6-секундная в Hailuo, но Hailuo даёт сравнимое качество на статичных планах за 4–5× меньшую цену.
Welder и i2v: где это в пайплайне
Welder AI берёт нишу + статичный референс + сценарий и возвращает 10 готовых вертикальных роликов с озвучкой и обложками. Под капотом — Veo 3.1 / Veo 3.1 Fast в i2v-режиме для ключевых кадров плюс Hailuo 02 для B-roll.
Что это даёт креатору:
- один тариф вместо трёх биллингов (Vertex AI + MiniMax + ElevenLabs). От 290 ₽ за серию на старте против $15–$20 при ручной сборке через fal.ai;
- голос ElevenLabs v3 включён, не нужно отдельно платить $22/мес за Creator-план;
- сборка 9:16 с сейф-зонами TikTok, Reels и YouTube Shorts;
- русский интерфейс и оплата картой РФ. Тарифы — на странице /pricing.
Честно: Welder не выиграет у Runway Gen-4 Aleph по контролю кадра и у Veo 3.1 Standard по качеству премиум-сцены. Зато даёт нормальное качество × объём × отсутствие монтажа на коленке. Для канала, который выпускает 60–90 роликов в месяц, это решает.
Что выбрать под ваш сценарий
Короткая шпаргалка:
- Эксперт без лица, 1 герой в кадре — Kling 3 Pro для лица + Hailuo 02 для B-roll.
- Faceless-канал на 3–5 шортсов в день — Welder AI (Veo 3.1 Fast + Hailuo) или прямо Veo 3.1 Fast через KIE.
- Action / true-crime / news — Runway Gen-4 Aleph + Hailuo 02.
- B-roll only (ASMR, природа, текстуры) — Hailuo 02 чистый.
- Premium-сюжет, 1–2 видео в неделю — Veo 3.1 Standard.
- Мемы и быстрые тесты — Pika 2.2.
- Трейлеры и переходы — Luma Ray2.
Не залипайте на «лучшей» модели — залипайте на стабильности пайплайна. Канал, который выпускает 3 средних шортса в день, всегда обгонит канал с 1 идеальным шортсом в неделю.
Соберите свою серию сегодня
i2v — это инструмент, а не цель. Цель — серия из 30–50 шортсов с одинаковым стилем, голосом и темпом, которая за 60 дней набирает первые 100K подписчиков. Все 6 моделей в этой статье — кубики Lego. Welder собирает их в готовый пайплайн без аккаунта Vertex AI, без MiniMax-биллинга и без зарубежной карты.
Запустите свой первый ролик из статичного референса за 5 минут — войдите в дашборд и загрузите свою картинку.