Главное за 30 секунд
В мае 2026 у image-to-video четыре сильных игрока для коротких видео. Runway Gen-4.5 берёт первое место в Artificial Analysis по физике и стоит около $0.20 за секунду. Kling 3.0 от Kuaishou отдаёт нативные 4K и 15-секундные клипы по ~$0.10/сек. Hailuo 02 от MiniMax — value-пик: $0.045 за секунду 768p и второе место в глобальном бенчмарке. Pika 2.2 дешевле всех ($0.06–0.23 за клип) и единственная даёт точный контроль первого и последнего кадра через Pikaframes.
Sora 2 от OpenAI и Veo 3.1 от Google в режиме image-to-video мощнее по чистому качеству, но дороже и хуже подходят под массовый Shorts-конвейер: Sora 2 закрыта за ChatGPT Plus ($20/мес) и Pro ($200/мес), Veo 3.1 Standard стоит $0.35/сек. Ниже — детальный тест 4 моделей на одной обложке, восьми промптах и одинаковом раскладе сцен.
Зачем вообще image-to-video, если есть text-to-video
Большинство гайдов в 2026 фокусируется на text-to-video. Но для faceless-каналов i2v чаще выигрывает по трём причинам.
Контроль первого кадра. Вы рисуете обложку в Midjourney v7 или Flux 2, выбираете точный цвет, композицию, шрифт, лицо персонажа — и отдаёте этот кадр модели. Никакой «моя бабушка снова в очках, хотя промпт говорил иначе». Это особенно важно для серий: 30 видео одного канала должны выглядеть единым брендом.
Консистентность персонажа. Text-to-video каждый раз генерит немного другое лицо. С i2v вы кладёте утверждённое лицо и просите только движение. Подробнее об этой задаче — в гайде по консистентным персонажам в AI-Shorts.
Скорость итераций. Перегенерить обложку в Midjourney стоит ~$0.01 и занимает 30 секунд. Перегенерить 8-секундный t2v на Veo 3.1 Standard — $2.80 и 90 секунд. На массовом канале это умножается на десятки.
Минусы тоже честно: i2v отдаёт более «стерильное» движение, физика часто проще, и без хорошего исходника модель ничего не вытянет. Ниже — кто из четвёрки умеет вытаскивать максимум.
Условия теста
Мы взяли одну исходную картинку — портрет средневекового монаха в библиотеке, формат 9:16, разрешение 1080×1920 (Midjourney v7, single image). На каждой модели прогнали восемь типовых для Shorts промптов:
- Медленный наезд камеры (slow push-in).
- Поворот головы и взгляд в камеру.
- Раскрытие книги, перелистывание страниц.
- Свеча мерцает, тени двигаются.
- Камера облетает персонажа на 180°.
- Шёпот губами без озвучки (lip-motion only).
- Удар молнии в окно (физика частиц).
- Time-lapse: персонаж стареет за 5 секунд.
Каждый промпт — три прогонки, итого 96 клипов. Считали попадание в промпт (1–5), количество артефактов, время рендера, итоговую цену. Без черри-пикинга: каждый клип засчитан, даже когда модель выдавала глупость.
Runway Gen-4.5 — лидер физики и студийных кадров
Runway Gen-4.5 в 2026 занимает первое место в Artificial Analysis по text-to-video (1247 Elo) и в i2v показывает то же лидерство по физике: ткани двигаются с весом, волосы держат форму между кадрами, жидкость льётся естественно. На промпте с молнией Gen-4.5 единственный из четвёрки нарисовал отражение вспышки в зрачках и динамические тени без рассинхрона.
Цена. Gen-4 Turbo — 5 кредитов в секунду, Gen-4.5 (полная) — 12 кредитов в секунду. На Standard-плане ($15/мес, 625 кредитов) это ~125 секунд Turbo или ~52 секунды полной Gen-4.5 в месяц. Pro даёт 2 250 кредитов за $35/мес.
Лимиты. Длина клипа — до 10 секунд, 720p в Turbo, 4K в Gen-4.5 (нативный рендер, не апскейл). Director Mode позволяет сшивать несколько шотов с консистентным персонажем — фича близка к Veo 3.1 Scene Extension.
Слабые места. Lip-sync на русском работает заметно хуже, чем у Kling 3.0 или Veo 3.1. Если в кадре открываются губы — лучше отключить аудио или гонять через ElevenLabs дубляж постфактум. Стиль «голливудский», иногда чрезмерно — для бытовых сцен может казаться искусственным.
Кому подходит. Премиум-каналы, реклама, кинематографические шорты, где физика и свет важнее цены.
Kling 3.0 — победитель по контролю шотов и цене за качество
Kling 3.0 (Kuaishou, релиз 5 февраля 2026) добавил несколько фич, которых ждали все: нативный 4K, storyboard-инструмент для пошагового контроля камеры и темпа, native lip-sync с многоязычным аудио в одной пайплайн-цепочке, и клипы до 15 секунд (против 8 у Veo 3.1).
Цена через подписку. Pro: $37/мес, 3 000 кредитов = ~150 стандартных видео или 75 видео в 1080p. Ultra: $92/мес, 8 000 кредитов. Через API — около $0.10/сек, что вдвое дешевле Veo 3.1 Standard.
В нашем тесте Kling 3.0 чисто отработал поворот головы, lip-motion и облёт камеры на 180°. Storyboard оказался настоящим хитом: для серии «персонаж стареет за 5 секунд» он позволил задать ключевые точки по таймлайну, что обычно требует After Effects.
Слабые места. Хранение и обработка под китайским правом — Kuaishou по ToS получает royalty-free лицензию на ваш контент для обучения моделей. Для рекламы клиентов это серьёзный юридический риск; для личных каналов — некритично, но имейте в виду.
Кому подходит. Каналы среднего бюджета, которым нужны длинные клипы (10–15 сек), мультиязычная озвучка и точный контроль шотов.
Hailuo 02 — value pick для массового продакшна
MiniMax выпустили Hailuo 02 в трёх версиях: 768p-6s, 768p-10s, 1080p-6s. В стандартном i2v на 768p — $0.045 за секунду, или $0.27 за клип на 6 секунд. Через fal.ai та же модель — $0.28 за клип. Pro-версия — $0.08/сек.
В Artificial Analysis Hailuo 02 занимает второе место в глобальном бенчмарке, обходя Google Veo 3 (но не Veo 3.1) и идёт близко за Seedance 1.0. На наших промптах модель хорошо отработала:
- наезд камеры — стабильный, без дрожи;
- поворот головы — естественная анимация шеи;
- мерцание свечи — плавная физика пламени.
Слабее показала себя на молнии: частицы выглядели «компьютерно», без бликов на металлических деталях интерьера.
Лимиты. Максимум 10 секунд на клипе 768p, 6 секунд на 1080p. Lip-sync есть, но менее точный, чем у Kling 3.0 или Veo 3.1.
Кому подходит. Каналы с массовым продакшном (≥20 видео в неделю), где цена побеждает, а 768p хватает для Shorts на TikTok и Reels.
Pika 2.2 — точечный контроль начала и конца клипа
Pika в 2026 не лидер по чистому качеству, но единственная даёт Pikaframes — фичу, которая решает фундаментальную проблему i2v: точное управление первым и последним кадром. Вы загружаете две картинки (старт и финиш), модель сама придумывает переход между ними.
Цена. Через подписку — 6–18 кредитов за i2v на 2.2 (раньше 35 кредитов на 2.1). Standard $15/мес даёт 700 кредитов, Pro $35/мес — 2 300, Fancy $76/мес — 6 000. Через fal API — $0.20 за 5-секундный клип в 720p.
В тесте Pika 2.2 хорошо отработала «time-lapse старения» (благодаря Pikaframes — мы дали молодое и старое лицо как два кадра) и «раскрытие книги, перелистывание страниц» (физика бумаги выглядит лучше Hailuo). Слабее в поворотах камеры — облёт на 180° получился рывками.
Лимиты. Длина клипа — до 10 секунд (на 2.2), разрешение 720p в стандарте, 1080p на Pro.
Кому подходит. Каналы с чёткой раскадровкой, превью-обложки, которые превращаются в живые анимации, переходы между кадрами в монтаже.
Сравнительная таблица: цена, длина, фичи
| Модель | Цена за 1 сек | Макс длина | Разрешение | Lip-sync | Главная фича |
|---|---|---|---|---|---|
| Runway Gen-4.5 | $0.20 | 10 сек | до 4K (нативный) | слабый на RU | физика, Director Mode |
| Runway Gen-4 Turbo | $0.083 | 10 сек | до 720p | слабый | скорость, дешевле |
| Kling 3.0 | $0.10 | 15 сек | до 4K | сильный, многоязычный | storyboard, длина |
| Hailuo 02 Std | $0.045 | 10 сек (768p) | до 1080p (6 сек) | средний | цена + физика |
| Pika 2.2 | $0.04 | 10 сек | до 1080p | базовый | Pikaframes (старт-финиш) |
| Veo 3.1 Standard | $0.35 | 8 сек | до 4K | лучший в индустрии | аудио + физика |
| Sora 2 Pro (API) | $0.24 | до 20 сек | до 1080p | сильный | камера и физика |
Цены — по данным провайдеров (Runway, Kuaishou, MiniMax, Pika, fal.ai, Google Vertex AI) на май 2026. Подписочные цены отличаются — на API дешевле на масштабе. Подробный разбор Veo 3.1 тарифов — в материале о Veo 3.1 Lite, Fast и Standard.
Как мы используем i2v внутри Welder
Welder AI — пайплайн поверх Veo 3.1 и Veo 3.1 Lite с RU-сценаристом и ElevenLabs-голосами. В 2026 мы добавили image-to-video режим для тех, кому нужен полный контроль над визуалом серии:
- Загружаете 1 эталонную картинку (или генерим встроенным Flux 2).
- Сценарист пишет 10 промптов под обложку.
- Каждый промпт прогоняется через i2v на Veo 3.1 Lite ($0.05/сек ≈ $0.40 за 8-сек клип, подробный разбор бюджета канала).
- Готовые ролики сшиваются с озвучкой, B-roll и обложками автоматически.
Честно: Welder не выигрывает по чистому качеству кадра у Runway Gen-4.5 или Kling 3.0. Зато выигрывает по композиции пайплайна — мы не отдаём 10 «голых» клипов, мы отдаём 10 готовых Shorts с RU-сценарием, голосом, монтажом и обложками. Стартовый тариф — 1 690 ₽/мес, см. полные тарифы.
Запомните три цифры как навигацию по рынку i2v в мае 2026: $0.045/сек — Hailuo 02 Standard, минимальная адекватная цена; $0.10/сек — Kling 3.0, лучший баланс цена/качество и 15-сек клипы; $0.20/сек — Runway Gen-4.5, премиум-качество и физика. Veo 3.1 Standard и Sora 2 Pro оставьте для рекламы и спецзаказов: дороже, но дают единичные кадры, на которые не стыдно повесить логотип бренда.
Если хотите попробовать готовый пайплайн с image-to-video режимом без сборки 4 разных подписок — сделайте первое видео и сравните со своими привычными моделями. Тест бесплатный, заплатите только за рендер от 290 ₽ за серию.