Image-to-Video 2026: Kling 3, Hailuo, Luma vs Veo 3.1

Сравнили 5 моделей оживления картинок в мае 2026: цена за секунду, движение, лицо персонажа и кому это нужно для Shorts.

Главное за 30 секунд

В мае 2026 image-to-video впервые стал серьёзной альтернативой text-to-video для коротких роликов. Причина простая: в этих моделях персонаж не «плывёт» между сценами, потому что вы сами задаёте стартовый кадр.

Лидеры по разным параметрам разошлись:

Kling 3.0 (Kuaishou, релиз 5 февраля 2026) — нативное 4K, фича Elements с референсами для серий с одним героем. Цена около $10–15 на стандартном плане.
Hailuo 02 (MiniMax) — второе место в i2v-арене Artificial Analysis выше Veo 3, лучшая физика воды/огня/ткани. $0.49 за 6 секунд 1080p.
Luma Ray2 — пиксельная тарификация $0.32 за миллион пикселей, удобна для production-pipeline и продления существующих клипов.
Runway Gen-4 — Motion Brush 3.0 и единая подписка от $12/мес, через которую идут также Veo, Kling, Seedance, FLUX и Seedream.
Veo 3.1 от Google DeepMind — image-to-video с нативной вертикалью под Shorts, с 2 апреля 2026 — бесплатно для всех личных Google-аккаунтов (10 клипов/мес через Google Vids).

Sora 2 в списке нет: приложение OpenAI закрыли 26 апреля 2026, API планово отключают 24 сентября — миграцию мы разобрали в плане перехода с Sora на Veo 3.1.

Дальше — конкретика по 12 промптам, где каждая модель сильна, где слабее и как это выглядит в пайплайне Welder.

Зачем image-to-video, если есть text-to-video

Генерация по тексту почти бесплатно даёт композицию, но не даёт контроль над лицом и стилем. Любая серия из 5–10 Shorts, в которой нужен один и тот же персонаж, на чистом text-to-video разваливается: волосы меняют цвет, нос плывёт, фон скачет.

Image-to-video решает это в лоб: вы один раз делаете аватара в Midjourney v7, Recraft v3 или Ideogram 3.0 — и потом каждая сцена начинается ровно с этого кадра. Модель не «придумывает» героя заново, а оживляет картинку, которую вы согласовали.

Для каналов-faceless про древние цивилизации, мифологию, science-popularization, ASMR-истории и обучающие шортсы это экономит 30–40% времени монтажа: меньше отбраковки, меньше «склеек» через жёсткий cut, меньше попыток повторить старый промпт.

Не панацея. Image-to-video проигрывает text-to-video там, где нужно динамическое расширение мира — погоня по 4 локациям, толпа, экшен-сцена. Там вернее писать сцену с нуля. О том, как формулировать промпты для обоих режимов, мы писали в гайде по паттернам Veo 3.

Параметры теста

Чтобы сравнить честно, мы взяли одну стартовую картинку (портрет вымышленного «римского центуриона», 1024×1792, сгенерирован в Midjourney v7) и 12 промптов на одной и той же английской формулировке:

камера медленно отъезжает, центурион поднимает гладиус;
ветер треплет плащ, в кадре листья;
крупный план: моргает, наклоняет голову;
шаг к камере, dust particles;
поворот на 180°, фон сменяется на форум;
вода — стоит в реке по щиколотку, рябь;
ночь, факел в руке, искры;
говорит фразу — нужен нативный lip-sync;
бой со вторым воином (без референса второго лица);
лошадь подходит сбоку, гладит её;
диалог с двумя камерами — реверс-шот;
цикл в 5 секунд (loop-able).

Для каждого промпта фиксировали: время рендера, сохранение лица (subjective 1–5), физику движения (1–5), стоимость, возможность экспорта в 9:16 без апскейла.

Kling 3.0 — лидер для серий с одним героем

Kuaishou выкатили Kling 3.0 5 февраля 2026 (официальная страница: klingai.com). Главное новшество для нашей задачи — функция Elements, унаследованная из Kling 2.6 и доведённая до 6 референсов: вы загружаете до шести изображений (лицо, фон, костюм, объект, поза, освещение), и модель сшивает их в одну сцену.

Что получилось на тесте:

Лицо: 5/5 на 11 из 12 промптов. Сломалось только на промпте 9 (бой со вторым воином) — лицо центуриона в полёте кулака размылось.
Физика: 4/5. Вода (промпт 6) — отличная, ткань плаща (промпт 2) — естественная, искры от факела (промпт 7) — лучшие в выборке.
Цена: на стандартном плане Klingai $10–15/мес даёт ~660 кредитов, чего хватает на 60–80 коротких i2v-генераций. На API через fal.ai — $0.07 за секунду без аудио и $0.14 с нативным звуком.
9:16: нативный вертикальный вывод появился в 2.6, в 3.0 работает без апскейла.

Где проигрывает: Kling медленнее всех в выборке — средние 90–120 секунд на 6-секундный 1080p-клип против 40–60 у Hailuo. Если рендерите 30 Shorts за вечер, разница в 30 минут чистого ожидания.

Hailuo 02 — лучшая физика и движение

Hailuo 02 от MiniMax обошёл Veo 3 в пользовательском бенчмарке Artificial Analysis Video Arena по категории image-to-video и встал на второе место глобально (выше — только Seedance 2.0 от ByteDance).

Что получилось:

Физика: 5/5 на всех промптах с динамикой. Вода реалистично огибает ноги (промпт 6), плащ ложится по ветру с правильной инерцией. Это сильнее Kling, заметно сильнее Veo 3.1.
Лицо: 4/5. Чуть слабее Kling на длинных 10-секундных клипах — к 8-й секунде глаза слегка «уезжают». Но на 6-секундных — на одном уровне с лидером.
Скорость: 40–60 секунд на клип — самая быстрая в выборке.
Цена: $0.49 за 6 секунд 1080p, $0.27 за 768p×6s. На long-form (10-сек 1080p) — около $0.85.
Камера: команды pan, dolly, tracking, overhead понимаются буквально, без «спора» промпта с моделью.

Где слабее: нативный lip-sync есть, но качество звука уступает Veo 3.1 и Kling 3.0 — для говорящих сцен (промпт 8) MiniMax придётся озвучивать через ElevenLabs отдельно. Что, впрочем, мы и так делаем в пайплайне Welder.

Luma Ray2 — гибкая модель для production-pipeline

Ray2 от Luma Labs живёт в нише между Kling и Runway: меньше «вау-эффекта» в одном клипе, но удобнее в pipeline-сценариях.

Цена: $0.50 за 5 секунд на fal.ai. На прямом API Luma — $0.32 за миллион пикселей, то есть 720p×5s ≈ $1.75 за генерацию. Дороже Hailuo, но дешевле Veo 3.1 на пиксель.
Качество: 3.5/5 по лицу, 4/5 по движению. Хорошо «дорисовывает» motion, но иногда добавляет лишних объектов в фон.
Сильная сторона: Extend Video — можно взять готовый 5-секундный клип от Veo или Kling и продлить его ещё на 5 секунд, сохранив героя. Это критично для 30-секундных сценариев AI-Shorts, которые подробно разобраны в нашей статье про 7 структур на 60 секунд.
9:16: есть, но качество в вертикали чуть ниже, чем в горизонтали.

Luma не возьмёт первое место ни по одному параметру, но это единственная модель в выборке, которая нормально дорабатывает уже сгенерированный другим движком клип.

Runway Gen-4 — швейцарский нож с агрегатором

Runway в 2026 пошёл интересной дорогой: одна подписка от $12/мес даёт доступ не только к Gen-4, но и к Veo, Kling, Seedance, FLUX и Seedream. Для нашей задачи это значит, что Runway часто оказывается дешевле «прямого» доступа к каждой модели по отдельности.

Motion Brush 3.0: красишь область на стартовой картинке и говоришь, в какую сторону её двигать. На промпте 3 (моргание + наклон) это даёт хирургическую точность.
Camera Control: zoom, pan, dolly, arc — работает уровня кинематографа.
Цена: Standard $15/мес — 625 кредитов (~30 клипов), Pro $35/мес — 2 250 кредитов (~100 клипов), Unlimited без лимита по count, но с rate-limit.
Качество лица: 4/5 на «своих» Gen-4 моделях, до 4.5/5 если внутри подписки рендерить через Kling.

Где проигрывает: интерфейс Runway не заточен под серии. Чтобы сделать 30 Shorts с одним героем, придётся вручную загружать стартовый кадр в каждое задание. У Kling Elements это решено лучше.

Veo 3.1 — бесплатный i2v для тех, кто внутри Google

Google DeepMind в январском релизе Veo 3.1 сделал две важные вещи: добавил Ingredients to Video (несколько референсов + промпт = клип) и нативный вертикальный вывод под Shorts/Reels.

С 2 апреля 2026 Veo 3.1 бесплатен для любого личного Google-аккаунта — 10 клипов в месяц через Google Vids, плюс ежедневные кредиты в Google Flow. Для российского креатора, у которого нет проблем с доступом к Google, это самый дешёвый вход в i2v. Если проблемы есть — у нас собрана отдельная посадочная про Veo 3 в Telegram без VPN.

Что на тесте:

Лип-синк: 5/5 — лучший в выборке. На промпте 8 (говорит фразу) Veo выдал самый чистый sync с нативной озвучкой.
Лицо: 4/5 — стабильное, но слегка «гладит» текстуры (морщины, бороды теряют детализацию).
Физика: 4/5 — уступает Hailuo, паритет с Kling.
Скорость: 60–80 секунд через Vertex AI, 90–120 через Google Vids.
Цена API: ~$0.50 за 8-секундный клип через Vertex AI (платный путь). Через Google Vids бесплатно до лимита.

Sora 2 — почему её больше нет в этой подборке

Для полноты: OpenAI объявили о закрытии Sora 2 — приложение остановлено 26 апреля 2026, API уходит 24 сентября. Image-to-video в Sora 2 был силён в физике (Олимпийские трюки, рикошет мяча от щита), но строить под него pipeline сейчас рискованно: через 4 месяца модели не будет.

Если у вас остались активные сценарии под Sora 2 — пора мигрировать. Мы собрали пошаговый план миграции с Sora на Veo 3.1: что переносится автоматически, где нужны новые промпты, как сохранить голос.

Сравнительная таблица

Модель	Цена за 6с 1080p	Лицо	Физика	Lip-sync	Скорость	9:16 нативно
Kling 3.0	$0.42	5/5	4/5	4/5	90–120с	да
Hailuo 02	$0.49	4/5	5/5	3/5	40–60с	да
Luma Ray2	~$2.10 (720p)	3.5/5	4/5	нет	60–90с	да
Runway Gen-4	от $0.36 (пакеты)	4/5	4/5	3/5	50–80с	да
Veo 3.1	~$0.38 (Vertex)	4/5	4/5	5/5	60–80с	да
Sora 2	API уходит 24.09.26	—	—	—	—	—

Данные на 10 мая 2026. Цена пересчитана к одному формату 6с×1080p для сравнения; реальные тарифы зависят от плана и платформы доступа (fal.ai, Replicate, прямой API). Детальный разбор экономики секунды — в статье «Цена секунды AI-видео 2026».

Как Welder вписан в эту картину

Welder — не отдельная i2v-модель и не пытается ей быть. Это пайплайн поверх Veo 3 / Veo 2: вы описываете нишу, голос и стиль, а сервис собирает целую серию шортсов с озвучкой ElevenLabs, обложками и склейкой.

Где Welder выигрывает у голых i2v-моделей: серия из 10 роликов с одним героем собирается за один заход, без ручного копирования стартового кадра в каждый запрос. Если задача — «сделать канал», Welder экономит часы; если задача — «один зрелищный клип для рекламы», честнее идти прямо в Hailuo 02 или Kling 3.0.

Где проигрывает: меньше тонкого контроля над каждой сценой. Если вам нужен Motion Brush из Runway или 6 референсов в Elements от Kling — это вне Welder. Pipeline-логика не для одиночных шедевров.

Ценник в Welder начинается от 290 ₽ за стартовую серию шортсов, что в пересчёте на секунду готового вертикального ролика (с озвучкой, монтажом, обложкой) часто дешевле, чем собирать то же руками через i2v + ElevenLabs + CapCut. Детальные тарифы — на странице /pricing.

Что выбрать под ваш сценарий

Серия Shorts с одним героем, бюджет ограничен → Kling 3.0 на стандартном плане. Лучшая консистентность, нативный 9:16, разумная цена.
Одиночный клип с акцентом на движение или физику → Hailuo 02. Быстро, дёшево, физика лучше всех.
Talking-head ролики с lip-sync на русском → Veo 3.1 + ElevenLabs. Через Google Vids бесплатно, через Vertex AI — ~$0.50/клип.
Production-pipeline с продлением клипов → Luma Ray2 (Extend Video) + любая первичная модель для генерации.
Эксперимент с разными моделями → Runway Gen-4 с агрегатором в одной подписке.
Канал-фабрика, серия за серией, минимум рук → Welder (под капотом Veo) — экономия времени важнее доступа к Motion Brush.

Комбинировать тоже нормально: у клиентов мы часто видим стек «Midjourney v7 на стартовый кадр → Kling 3.0 на основные сцены → Luma Ray2 на extend → ElevenLabs v3 на голос → CapCut на финальную сборку». Это даёт ту же экономику, что прямой пайплайн в Welder, но требует 2–3 часов настройки на новый канал.

Сделайте первый i2v-ролик сегодня

Лучший способ понять разницу — сгенерировать одну сцену с одним героем в двух моделях. Возьмите портрет (Midjourney, Ideogram, ваше фото), задайте промпт «персонаж смотрит в кадр, медленно поворачивает голову, фон в фокусе» и сравните Kling 3.0 с Hailuo 02 по двум критериям: насколько узнаваемо лицо и как ощущается движение.

Если результат подходит, а собирать пайплайн вручную не хочется — Welder сделает то же самое для всей серии. Один промпт → 10 готовых вертикальных шортсов с озвучкой и обложками за вечер.

Запустить первую серию →