Главное за 30 секунд
В мае 2026 четыре модели всерьёз бьются за слот image-to-video для коротких видео: Kling 3.0 (релиз 5 февраля 2026, нативное 4K и кросс-кадровый lip-sync), Runway Gen-4.5 (Elo 1247 в лидерборде Artificial Analysis — выше всех), Hailuo 02 (MiniMax, $0.045 за секунду 768p — экономичный «китаец»), Pika 2.5 с Pikaframes и Luma Ray 3 (4K HDR, лучшая физика мягких объектов). Sora 2 здесь намеренно вне теста — она пока сильнее в text-to-video, чем в image-driven.
Welder AI поверх этого стека делает то, чего не делает ни одна из перечисленных: берёт промпт уровня «10 шортсов про античные мифы под TikTok», сам режет на сцены, передаёт ключевые кадры в Veo 3.1 или Veo 2, озвучивает голосом ElevenLabs v3 и собирает вертикалку с обложкой. Дальше — детальный тест.
Зачем image-to-video нужен для Shorts
Полностью text-to-video в 2026 проигрывает image-to-video по двум параметрам: контроль персонажа и стоимость итераций. Text-to-video каждый раз генерирует новое лицо, новую одежду, новые цвета — для канала с повторяющимся героем (Aitana Lopez, Lil Miquela, ваш собственный faceless-аватар) это смерть retention. Image-to-video стартует с зафиксированного кадра из Midjourney v7 / Flux 1.2 Pro / Ideogram 3 и крутит из него движение.
Второе — деньги. Один кадр в Midjourney стоит около ₽3–5. Десять секунд видео в Hailuo 02 — ₽35–45. Десять секунд в Runway Gen-4.5 — ₽120–180. Это значит: 30 шортсов в месяц на одном лице героя обходятся в 4–5 раз дешевле, чем чистый text-to-video с теми же требованиями к узнаваемости.
Под обложки и первый кадр у нас уже был подробный разбор связки Midjourney + Flux + Ideogram — статья ниже исходит из того, что стартовый кадр у вас уже есть.
Параметры теста
Прогнал 8 одинаковых сценариев через каждую модель в первую неделю мая 2026. Сценарии:
- Портрет девушки → лёгкий поворот головы и моргание (talking-head без речи).
- Античная статуя → панорама камеры справа налево.
- Кадр из 90-х (винтаж) → герой делает шаг к камере.
- Стилизованный аниме-кадр → ветер развевает волосы.
- Кулинарное фото (тарелка) → дым/пар поднимается.
- Городской пейзаж ночью → проезд камеры, машины двигаются.
- Спортивный момент (статика) → продолжение движения 2 секунды.
- Продуктовое фото бутылки → разворот 360°.
Для каждой модели: один и тот же промпт, одно и то же стартовое изображение 1024×1024. Считал три вещи: качество (по шкале 1–10, субъективно), время генерации в секундах, цену в рублях по курсу 90 ₽ за доллар на 14 мая 2026.
Сводная таблица: цена, длина, контроль
| Модель | Цена/10 сек (₽) | Макс. длина | Разрешение | Контроль камеры | Lip-sync |
|---|---|---|---|---|---|
| Kling 3.0 (Pro) | ≈ ₽110 | 10 сек, склейка до 2 мин | 4K | Storyboard tool, native | Встроенный |
| Runway Gen-4.5 | ≈ ₽160 | 16 сек | 1080p | Camera Control: orbit/dolly/pan | Через Act-Two |
| Hailuo 02 (Standard) | ≈ ₽40 | 10 сек | 768p | Базовый, через motion strength | Нет |
| Pika 2.5 | ≈ ₽70 | 10 сек (Pikaframes до 25) | 1080p | Pikaframes start/end | Нет нативно |
| Luma Ray 3 | ≈ ₽90 | 10 сек | 4K HDR | Camera Motion presets | Нет |
Цифры — оценочные по публичным тарифам моделей и курсу на 14 мая 2026, ваши счета могут отличаться на 10–20% в зависимости от платформы (fal.ai, replicate, atlascloud) и резолюции. Сводные цены подтверждаются открытыми бенчмарками от Atlas Cloud и Build MVP Fast.
Kling 3.0 — победитель по «китайскому» соотношению цена/качество
Релиз 5 февраля 2026 принёс в Kling три тяжёлых апгрейда: нативное 4K без апскейла, storyboard tool, в котором вы покадрово размечаете движение камеры и темп, и встроенный lip-sync — раньше за него надо было платить отдельно D-ID или Lemon Slice. Подписка Kling AI Standard стоит $6.99/мес (около ₽630), Pro — $25.99 (≈ ₽2 340) с доступом к Kling 2.6 audio.
В моих тестах Kling 3.0 уверенно выиграл сценарии 2 и 4: античная статуя получилась с естественной панорамой без «morphing-эффекта», аниме-волосы развевались в естественной ампере (не как у Pika, где они «таяли»). Подвёл на сценарии 6 (городской ночной пейзаж): машины двигались, но фары жили своей жизнью и оставляли странные шлейфы.
Главный минус — скорость на бесплатном тарифе. В пиковые часы 10-секундный ролик 1080p генерится 12–18 минут. На Pro — 2–4 минуты. Если вам нужно 30 шортсов в месяц, Kling Pro окупится уже на 12-й генерации, поэтому Standard для серийной работы не подходит.
Runway Gen-4.5 — лучшее качество, худшая экономика
Runway держит первое место в лидерборде Artificial Analysis с Elo 1247 и не зря: на сценарии 7 (продолжение спортивного движения) только Runway сохранил анатомию рук и не сломал перспективу. На сценарии 1 (talking-head) тоже без претензий: микро-движения лица читаются как живые, а не как «AI-кивок».
Тарифы: Standard $12–15/мес, Pro $28 за пользователя с 2 250 кредитами, Unlimited $76/мес. Через Unlimited «Explore» режим даёт безлимитные генерации (но без апскейла и водяного знака). Кредитов хватает примерно на 15 роликов по 10 секунд Gen-4.5 в Pro — этого мало для серийной работы.
Image-to-video с reference image — мощный режим: даёте до 3 опорных кадров (стиль, персонаж, окружение), и модель держит консистентность. У Kling и Hailuo такого нет, у Pika есть только start/end frame. Это объясняет, почему агентства всё ещё берут Runway, несмотря на цену.
Лип-синк отдельно через Act-Two: $0.05 за секунду губ поверх стоимости видео. Если делаете talking-head AI-канал, экономика рушится — Welder в этом случае дешевле раз в пять, потому что мы маршрутизируем через Veo 3.1 lip-sync (см. гайд по континуити сцен).
Hailuo 02 — value pick для серийного шортс-производства
MiniMax Hailuo 02 в 2026-м стал «русским тестировщиком no.1» — за $0.045/сек 768p вы получаете качество, которое визуально между Pika и Runway. В моих тестах Hailuo неожиданно выиграл сценарий 5 (тарелка с поднимающимся паром): физика дыма получилась естественной, без артефактов в верхней части кадра. На сценарии 3 (винтажный кадр 90-х) тоже хорошо — модель не «вытащила» цвета в современную палитру.
Главный минус — отсутствие нативного контроля камеры. У вас есть «motion strength» (силу движения), и всё. Если нужен орбитальный пан вокруг продукта (сценарий 8), Hailuo даёт вам случайный результат, и итерация стоит ещё ₽40 за прогон. У Runway и Kling этот контроль встроен.
Скорость — 30–90 секунд на ролик через fal.ai. Это лучше, чем Kling Standard, и сравнимо с Runway Pro. Лимит длины — 10 секунд. Чтобы получить минуту, нужно склеивать 6 клипов и решать проблемы консистентности — Welder автоматизирует ровно этот шаг.
Pika 2.5 — Pikaframes как уникальная фича
Pika 2.5 (релиз 26 января 2026) сделала ставку на Pikaframes: вы загружаете начальный и конечный кадры, модель генерит транзишен между ними длиной 1–10 секунд (с расширенным режимом — до 20–25 секунд). Для шортсов это эталонный инструмент монтажа: вы получаете контроль над тем, чем кадр заканчивается, что критично, если за ним идёт следующая сцена.
Тарифы — от $8/мес (Standard). Pika 2.5 запускается через примерно 42-секундный рендер — самая быстрая модель в этом тесте по среднему времени.
Слабая сторона — физика на сложных сценах. Сценарий 7 (спорт) у Pika получился худшим: рука героя теряла пальцы на четвёртой секунде. Сценарий 6 (городская ночь) — машины «прыгали» по координатной сетке. По физике Pika заметно проигрывает Runway и Luma.
Зачем тогда Pika? Если вы делаете эстетический канал (мода, искусство, путешествия), где важна не реалистичная физика, а атмосфера и кинематографичные переходы — Pikaframes решает 80% задач за треть цены Runway.
Luma Ray 3 — атмосферные кадры и 4K HDR
Luma Ray 3 в 2026-м держит нишу «атмосферы и физики мягких объектов»: вода, ткань, дым, листья, длинные волосы. На сценарии 1 (портрет с морганием) и сценарии 4 (волосы на ветру) Luma выдала лучший результат: микро-движения кожи и волос читаются как съёмочные. 4K HDR из коробки — никто из остальных моделей этого нативно не даёт.
Тариф — от $7.99/мес. Камера-контроль через пресеты (orbit, dolly, push-in, pull-out), но нет storyboard-разметки, как у Kling.
Минусы: средненькая работа с продуктовой графикой (сценарий 8 — бутылка крутилась с искажениями текста на этикетке) и более длительный рендер на больших разрешениях. Если ваш канал — путешествия, природа, мода, food-эстетика — Luma в топе. Если продакт-обзоры — пропускайте.
А что Sora 2 и Veo 3.1
Эти модели сильны в первую очередь как text-to-video. Sora 2 в image-to-video режиме часто ломает референс (особенно лица): OpenAI оптимизирует её под полную генерацию из промпта, а не под точное оживление вашего исходного кадра. Veo 3.1 умеет image-driven, но через API в Vertex AI это ≈$0.5 за 8-секундный клип — в моменте дороже Runway и сильно дороже Hailuo.
Поэтому в чистом image-to-video чемпионате эти двое играют как «тяжёлая артиллерия для отдельных шотов», а не как ежедневный инструмент серии. Подробнее про новый стандарт качества — в нашем разборе Sora 2 и Veo 3.1.
Кейс: канал «античные мифы» на 30 шортсов в месяц
Конкретный сценарий: вы ведёте faceless-канал про античность. Стартовый кадр — статуя/фрагмент храма из Midjourney v7 (₽3–5 за изображение). 30 шортсов по 30 секунд = около 6 минут видео в месяц в склейке из 10-секундных клипов.
Расчёт месяца:
| Модель | Цена 6 мин видео | + lip-sync (если нужен) | Итого |
|---|---|---|---|
| Kling 3.0 Pro | ≈ ₽3 960 | встроен | ≈ ₽3 960 |
| Runway Gen-4.5 Pro | ≈ ₽5 760 | + ₽2 700 (Act-Two) | ≈ ₽8 460 |
| Hailuo 02 | ≈ ₽1 440 | + ₽1 800 (внешний D-ID) | ≈ ₽3 240 |
| Pika 2.5 | ≈ ₽2 520 | + ₽1 800 (внешний) | ≈ ₽4 320 |
| Luma Ray 3 | ≈ ₽3 240 | + ₽1 800 (внешний) | ≈ ₽5 040 |
| Welder AI | от ₽290 (стартовая серия 10 роликов) до ₽1 990/мес | встроен | ≈ ₽1 990 |
Цифры по Welder — для тарифа на 30 шортсов в месяц со встроенным голосом ElevenLabs v3 и склейкой, см. страницу тарифов. Сравните это с голым Hailuo + внешним lip-sync (≈ ₽3 240) или Runway Pro (≈ ₽8 460) — и поймёте, почему мы строим пайплайн, а не просто врапаем чью-то API.
Когда вообще не нужен image-to-video
Не каждая ниша требует оживления статичных кадров. Если ваш канал — talking-head AI-аватар (например, эксперт говорит на камеру), вам в первую очередь нужны HeyGen Avatar IV или Synthesia — там image-to-video роль играют только в B-roll вставках. Если у вас чисто tutorial-канал с экраном (CapCut-туториалы, разборы интерфейсов), вообще оставайтесь на скринкастах + AI-озвучке.
И отдельно — про AI-fatigue: рынок устал от типичных «AI-кадров без души». Если вы заливаете 30 шортсов в месяц генеративным потоком без редактуры, retention падает уже после 3-й недели. Об этом писали в разборе AI-slop и fatigue 2026 — image-to-video не спасёт сам по себе, если контент не зацеплен сценарием.
Рекомендации под задачу
- Эстетический канал (мода, искусство, путешествия): Luma Ray 3 + Pika 2.5 (для переходов). Под бюджет ≈ ₽4 000–5 000/мес.
- Faceless серия с одним героем (мифы, истории, факты): Kling 3.0 Pro. ≈ ₽3 000–4 000/мес. Один тариф закрывает 90% задач.
- Бренд-контент / агентство для клиентов: Runway Gen-4.5 — только из-за reference image controls и premium-восприятия выхода. Цена окупается на ставке клиента.
- Серийное производство 30+ шортсов/мес: Hailuo 02 через API + Welder для пайплайна. Минимальная себестоимость секунды.
- Talking-head AI-канал: ничего из этой пятёрки в одиночку. Связка Welder + Veo 3.1 lip-sync.
Что делать прямо сейчас
Возьмите одно изображение из вашего архива (или нагенерите быстро в Midjourney) и прогоните его через 2–3 модели из этого теста за выходные. Главный вопрос: стоит ли цена секунды того прироста узнаваемости, который даёт зафиксированный герой. Если делаете больше 20 шортсов в месяц — почти наверняка стоит.
Если хотите пропустить ручной выбор модели и сразу получить серию, запустите первое видео в Welder — мы автоматически маршрутизируем кадр в подходящую модель (Kling для динамики, Hailuo для серии, Veo 3.1 для lip-sync) и собираем готовый вертикальный ролик с озвучкой.