Главное за 30 секунд
В мае 2026 image-to-video впервые стал серьёзной альтернативой text-to-video для коротких роликов. Причина простая: в этих моделях персонаж не «плывёт» между сценами, потому что вы сами задаёте стартовый кадр.
Лидеры по разным параметрам разошлись:
- Kling 3.0 (Kuaishou, релиз 5 февраля 2026) — нативное 4K, фича Elements с референсами для серий с одним героем. Цена около $10–15 на стандартном плане.
- Hailuo 02 (MiniMax) — второе место в i2v-арене Artificial Analysis выше Veo 3, лучшая физика воды/огня/ткани. $0.49 за 6 секунд 1080p.
- Luma Ray2 — пиксельная тарификация $0.32 за миллион пикселей, удобна для production-pipeline и продления существующих клипов.
- Runway Gen-4 — Motion Brush 3.0 и единая подписка от $12/мес, через которую идут также Veo, Kling, Seedance, FLUX и Seedream.
- Veo 3.1 от Google DeepMind — image-to-video с нативной вертикалью под Shorts, с 2 апреля 2026 — бесплатно для всех личных Google-аккаунтов (10 клипов/мес через Google Vids).
Sora 2 в списке нет: приложение OpenAI закрыли 26 апреля 2026, API планово отключают 24 сентября — миграцию мы разобрали в плане перехода с Sora на Veo 3.1.
Дальше — конкретика по 12 промптам, где каждая модель сильна, где слабее и как это выглядит в пайплайне Welder.
Зачем image-to-video, если есть text-to-video
Генерация по тексту почти бесплатно даёт композицию, но не даёт контроль над лицом и стилем. Любая серия из 5–10 Shorts, в которой нужен один и тот же персонаж, на чистом text-to-video разваливается: волосы меняют цвет, нос плывёт, фон скачет.
Image-to-video решает это в лоб: вы один раз делаете аватара в Midjourney v7, Recraft v3 или Ideogram 3.0 — и потом каждая сцена начинается ровно с этого кадра. Модель не «придумывает» героя заново, а оживляет картинку, которую вы согласовали.
Для каналов-faceless про древние цивилизации, мифологию, science-popularization, ASMR-истории и обучающие шортсы это экономит 30–40% времени монтажа: меньше отбраковки, меньше «склеек» через жёсткий cut, меньше попыток повторить старый промпт.
Не панацея. Image-to-video проигрывает text-to-video там, где нужно динамическое расширение мира — погоня по 4 локациям, толпа, экшен-сцена. Там вернее писать сцену с нуля. О том, как формулировать промпты для обоих режимов, мы писали в гайде по паттернам Veo 3.
Параметры теста
Чтобы сравнить честно, мы взяли одну стартовую картинку (портрет вымышленного «римского центуриона», 1024×1792, сгенерирован в Midjourney v7) и 12 промптов на одной и той же английской формулировке:
- камера медленно отъезжает, центурион поднимает гладиус;
- ветер треплет плащ, в кадре листья;
- крупный план: моргает, наклоняет голову;
- шаг к камере, dust particles;
- поворот на 180°, фон сменяется на форум;
- вода — стоит в реке по щиколотку, рябь;
- ночь, факел в руке, искры;
- говорит фразу — нужен нативный lip-sync;
- бой со вторым воином (без референса второго лица);
- лошадь подходит сбоку, гладит её;
- диалог с двумя камерами — реверс-шот;
- цикл в 5 секунд (loop-able).
Для каждого промпта фиксировали: время рендера, сохранение лица (subjective 1–5), физику движения (1–5), стоимость, возможность экспорта в 9:16 без апскейла.
Kling 3.0 — лидер для серий с одним героем
Kuaishou выкатили Kling 3.0 5 февраля 2026 (официальная страница: klingai.com). Главное новшество для нашей задачи — функция Elements, унаследованная из Kling 2.6 и доведённая до 6 референсов: вы загружаете до шести изображений (лицо, фон, костюм, объект, поза, освещение), и модель сшивает их в одну сцену.
Что получилось на тесте:
- Лицо: 5/5 на 11 из 12 промптов. Сломалось только на промпте 9 (бой со вторым воином) — лицо центуриона в полёте кулака размылось.
- Физика: 4/5. Вода (промпт 6) — отличная, ткань плаща (промпт 2) — естественная, искры от факела (промпт 7) — лучшие в выборке.
- Цена: на стандартном плане Klingai $10–15/мес даёт ~660 кредитов, чего хватает на 60–80 коротких i2v-генераций. На API через fal.ai — $0.07 за секунду без аудио и $0.14 с нативным звуком.
- 9:16: нативный вертикальный вывод появился в 2.6, в 3.0 работает без апскейла.
Где проигрывает: Kling медленнее всех в выборке — средние 90–120 секунд на 6-секундный 1080p-клип против 40–60 у Hailuo. Если рендерите 30 Shorts за вечер, разница в 30 минут чистого ожидания.
Hailuo 02 — лучшая физика и движение
Hailuo 02 от MiniMax обошёл Veo 3 в пользовательском бенчмарке Artificial Analysis Video Arena по категории image-to-video и встал на второе место глобально (выше — только Seedance 2.0 от ByteDance).
Что получилось:
- Физика: 5/5 на всех промптах с динамикой. Вода реалистично огибает ноги (промпт 6), плащ ложится по ветру с правильной инерцией. Это сильнее Kling, заметно сильнее Veo 3.1.
- Лицо: 4/5. Чуть слабее Kling на длинных 10-секундных клипах — к 8-й секунде глаза слегка «уезжают». Но на 6-секундных — на одном уровне с лидером.
- Скорость: 40–60 секунд на клип — самая быстрая в выборке.
- Цена: $0.49 за 6 секунд 1080p, $0.27 за 768p×6s. На long-form (10-сек 1080p) — около $0.85.
- Камера: команды pan, dolly, tracking, overhead понимаются буквально, без «спора» промпта с моделью.
Где слабее: нативный lip-sync есть, но качество звука уступает Veo 3.1 и Kling 3.0 — для говорящих сцен (промпт 8) MiniMax придётся озвучивать через ElevenLabs отдельно. Что, впрочем, мы и так делаем в пайплайне Welder.
Luma Ray2 — гибкая модель для production-pipeline
Ray2 от Luma Labs живёт в нише между Kling и Runway: меньше «вау-эффекта» в одном клипе, но удобнее в pipeline-сценариях.
- Цена: $0.50 за 5 секунд на fal.ai. На прямом API Luma — $0.32 за миллион пикселей, то есть 720p×5s ≈ $1.75 за генерацию. Дороже Hailuo, но дешевле Veo 3.1 на пиксель.
- Качество: 3.5/5 по лицу, 4/5 по движению. Хорошо «дорисовывает» motion, но иногда добавляет лишних объектов в фон.
- Сильная сторона: Extend Video — можно взять готовый 5-секундный клип от Veo или Kling и продлить его ещё на 5 секунд, сохранив героя. Это критично для 30-секундных сценариев AI-Shorts, которые подробно разобраны в нашей статье про 7 структур на 60 секунд.
- 9:16: есть, но качество в вертикали чуть ниже, чем в горизонтали.
Luma не возьмёт первое место ни по одному параметру, но это единственная модель в выборке, которая нормально дорабатывает уже сгенерированный другим движком клип.
Runway Gen-4 — швейцарский нож с агрегатором
Runway в 2026 пошёл интересной дорогой: одна подписка от $12/мес даёт доступ не только к Gen-4, но и к Veo, Kling, Seedance, FLUX и Seedream. Для нашей задачи это значит, что Runway часто оказывается дешевле «прямого» доступа к каждой модели по отдельности.
- Motion Brush 3.0: красишь область на стартовой картинке и говоришь, в какую сторону её двигать. На промпте 3 (моргание + наклон) это даёт хирургическую точность.
- Camera Control: zoom, pan, dolly, arc — работает уровня кинематографа.
- Цена: Standard $15/мес — 625 кредитов (~30 клипов), Pro $35/мес — 2 250 кредитов (~100 клипов), Unlimited без лимита по count, но с rate-limit.
- Качество лица: 4/5 на «своих» Gen-4 моделях, до 4.5/5 если внутри подписки рендерить через Kling.
Где проигрывает: интерфейс Runway не заточен под серии. Чтобы сделать 30 Shorts с одним героем, придётся вручную загружать стартовый кадр в каждое задание. У Kling Elements это решено лучше.
Veo 3.1 — бесплатный i2v для тех, кто внутри Google
Google DeepMind в январском релизе Veo 3.1 сделал две важные вещи: добавил Ingredients to Video (несколько референсов + промпт = клип) и нативный вертикальный вывод под Shorts/Reels.
С 2 апреля 2026 Veo 3.1 бесплатен для любого личного Google-аккаунта — 10 клипов в месяц через Google Vids, плюс ежедневные кредиты в Google Flow. Для российского креатора, у которого нет проблем с доступом к Google, это самый дешёвый вход в i2v. Если проблемы есть — у нас собрана отдельная посадочная про Veo 3 в Telegram без VPN.
Что на тесте:
- Лип-синк: 5/5 — лучший в выборке. На промпте 8 (говорит фразу) Veo выдал самый чистый sync с нативной озвучкой.
- Лицо: 4/5 — стабильное, но слегка «гладит» текстуры (морщины, бороды теряют детализацию).
- Физика: 4/5 — уступает Hailuo, паритет с Kling.
- Скорость: 60–80 секунд через Vertex AI, 90–120 через Google Vids.
- Цена API: ~$0.50 за 8-секундный клип через Vertex AI (платный путь). Через Google Vids бесплатно до лимита.
Sora 2 — почему её больше нет в этой подборке
Для полноты: OpenAI объявили о закрытии Sora 2 — приложение остановлено 26 апреля 2026, API уходит 24 сентября. Image-to-video в Sora 2 был силён в физике (Олимпийские трюки, рикошет мяча от щита), но строить под него pipeline сейчас рискованно: через 4 месяца модели не будет.
Если у вас остались активные сценарии под Sora 2 — пора мигрировать. Мы собрали пошаговый план миграции с Sora на Veo 3.1: что переносится автоматически, где нужны новые промпты, как сохранить голос.
Сравнительная таблица
| Модель | Цена за 6с 1080p | Лицо | Физика | Lip-sync | Скорость | 9:16 нативно |
|---|---|---|---|---|---|---|
| Kling 3.0 | $0.42 | 5/5 | 4/5 | 4/5 | 90–120с | да |
| Hailuo 02 | $0.49 | 4/5 | 5/5 | 3/5 | 40–60с | да |
| Luma Ray2 | ~$2.10 (720p) | 3.5/5 | 4/5 | нет | 60–90с | да |
| Runway Gen-4 | от $0.36 (пакеты) | 4/5 | 4/5 | 3/5 | 50–80с | да |
| Veo 3.1 | ~$0.38 (Vertex) | 4/5 | 4/5 | 5/5 | 60–80с | да |
| Sora 2 | API уходит 24.09.26 | — | — | — | — | — |
Данные на 10 мая 2026. Цена пересчитана к одному формату 6с×1080p для сравнения; реальные тарифы зависят от плана и платформы доступа (fal.ai, Replicate, прямой API). Детальный разбор экономики секунды — в статье «Цена секунды AI-видео 2026».
Как Welder вписан в эту картину
Welder — не отдельная i2v-модель и не пытается ей быть. Это пайплайн поверх Veo 3 / Veo 2: вы описываете нишу, голос и стиль, а сервис собирает целую серию шортсов с озвучкой ElevenLabs, обложками и склейкой.
Где Welder выигрывает у голых i2v-моделей: серия из 10 роликов с одним героем собирается за один заход, без ручного копирования стартового кадра в каждый запрос. Если задача — «сделать канал», Welder экономит часы; если задача — «один зрелищный клип для рекламы», честнее идти прямо в Hailuo 02 или Kling 3.0.
Где проигрывает: меньше тонкого контроля над каждой сценой. Если вам нужен Motion Brush из Runway или 6 референсов в Elements от Kling — это вне Welder. Pipeline-логика не для одиночных шедевров.
Ценник в Welder начинается от 290 ₽ за стартовую серию шортсов, что в пересчёте на секунду готового вертикального ролика (с озвучкой, монтажом, обложкой) часто дешевле, чем собирать то же руками через i2v + ElevenLabs + CapCut. Детальные тарифы — на странице /pricing.
Что выбрать под ваш сценарий
- Серия Shorts с одним героем, бюджет ограничен → Kling 3.0 на стандартном плане. Лучшая консистентность, нативный 9:16, разумная цена.
- Одиночный клип с акцентом на движение или физику → Hailuo 02. Быстро, дёшево, физика лучше всех.
- Talking-head ролики с lip-sync на русском → Veo 3.1 + ElevenLabs. Через Google Vids бесплатно, через Vertex AI — ~$0.50/клип.
- Production-pipeline с продлением клипов → Luma Ray2 (Extend Video) + любая первичная модель для генерации.
- Эксперимент с разными моделями → Runway Gen-4 с агрегатором в одной подписке.
- Канал-фабрика, серия за серией, минимум рук → Welder (под капотом Veo) — экономия времени важнее доступа к Motion Brush.
Комбинировать тоже нормально: у клиентов мы часто видим стек «Midjourney v7 на стартовый кадр → Kling 3.0 на основные сцены → Luma Ray2 на extend → ElevenLabs v3 на голос → CapCut на финальную сборку». Это даёт ту же экономику, что прямой пайплайн в Welder, но требует 2–3 часов настройки на новый канал.
Сделайте первый i2v-ролик сегодня
Лучший способ понять разницу — сгенерировать одну сцену с одним героем в двух моделях. Возьмите портрет (Midjourney, Ideogram, ваше фото), задайте промпт «персонаж смотрит в кадр, медленно поворачивает голову, фон в фокусе» и сравните Kling 3.0 с Hailuo 02 по двум критериям: насколько узнаваемо лицо и как ощущается движение.
Если результат подходит, а собирать пайплайн вручную не хочется — Welder сделает то же самое для всей серии. Один промпт → 10 готовых вертикальных шортсов с озвучкой и обложками за вечер.