Главное за 30 секунд
К июню 2026 в нише image-to-video у нас шесть серьёзных моделей: Veo 3.1 (Google DeepMind, через Vertex AI, ≈$0.40 за 8-секундный клип), Sora 2 (OpenAI, $20/мес в ChatGPT Plus), Kling 3.0 (Kuaishou, релиз 4 февраля 2026, от $9.90/мес), Pika 2.5 ($8–58/мес), Luma Ray3 ($9.99–94/мес) и Runway Gen-4.5 ($12–76/мес).
Если коротко:
- Veo 3.1 — лучшая физика и нативный аудио-микс, лучший выбор когда в кадре оживают люди и нужен диалог.
- Sora 2 — самое тонкое качество кадра, но API запрещает людей в стартовом изображении.
- Kling 3.0 — лидер по длине клипа (15 секунд) и нативный 4K@60fps.
- Pika 2.5 Pikaframes — единственный способ задать конкретные стартовый и финальный кадры.
- Luma Ray3 — первая модель с нативным 16-бит HDR, цветовая глубина для эстетики.
- Runway Gen-4.5 — стандарт для агентств: API, командные тарифы, апскейл до 4K в одном UI.
И отдельно Welder AI (тариф «Старт» от 300 ₽/мес) — поверх Veo 3.1 / Veo 2 / Kling, забирает сценарий + фото-референс и возвращает 5–7 готовых вертикальных шортов с RU-озвучкой и сабами. То, что в Runway или Kling займёт три часа кликов, в Welder делается за 12 минут — под капотом те же модели.
Зачем image-to-video именно для AI-Shorts
Большинство AI-каналов 2026 года растут на «оживлении» статичной фактуры: ретро-фото машин (кейс канала на 205K), архивы СССР, исторические гравюры, кадры с НАСА и Wikimedia Commons, личные альбомы автора в travel-нише.
Эти фото уже несут историю. Задача image-to-video — добавить движение камеры, лёгкую анимацию персонажа, дыхание ветра в кадре, и собрать из одного фото 4–8 секунд видео. Дальше монтаж + RU-голос + сабы — и у вас Short.
Главный плюс этого подхода: вы снимаете у нейросети 80% задачи «придумать сцену с нуля». Композиция уже задана, остаётся анимировать. В каналах серий это даёт +25–40% completion rate против чистого text-to-video, потому что зритель видит «честное историческое фото», а не очередной AI-glitch.
Минус: нужно качественное исходное изображение. 480p-сканы из Telegram не оживают красиво ни в одной модели — апскейлите до 1080p+ через Topaz или Real-ESRGAN до того, как кормить.
Параметры теста
Мы прогнали четыре типа исходного фото через шесть моделей:
- Чёрно-белое фото 1958 года — Москвич-410, 3:4, 1280×1700 → запрос: «slow dolly zoom in, slight wind blowing trees in background, 9:16, 5 sec».
- Цветная гравюра XIX века — петербургский пейзаж, 1:1, 2000×2000 → запрос: «gentle camera push, snow falling in foreground, 9:16, 6 sec».
- Современный пейзаж Карелии — 16:9, 3840×2160 → запрос: «orbital camera right, sun rays through trees, 9:16, 8 sec».
- Портрет человека — мужчина в студии, 9:16, 1080×1920 → запрос: «subtle head turn, blink, neutral expression, 9:16, 5 sec».
Каждый прогон — три попытки в модели, выбирали лучшую. Оценивали по: сохранению лица/идентичности, отсутствию morphing-артефактов, естественности движения камеры, сохранению цвета и контраста оригинала, допустимой длине выходного клипа.
Veo 3.1: лидер для людей и аудио
Цена через Vertex AI Studio — ≈$0.40 за 8-секундный 1080p@24fps клип в режиме image-to-video. Через Google AI Studio есть лимитированный free tier для разовых тестов.
Что зашло:
- Лучшая работа с лицами. Чёрно-белый портрет — лёгкий поворот головы, моргание — без потери идентичности.
- Реалистичная физика: снег в гравюре падал по гравитации, а не «как стикер».
- Уникальная фича — «ingredients-to-video»: можно дать референс-картинку персонажа, и модель сохранит его внешность через три-четыре шота подряд. Для серий это золото.
- Нативное аудио. Просите «slight wind» — модель сгенерирует и звук ветра, и видео в одном файле.
Что не зашло:
- Sora 2 даёт чуть более «киношный» кадр (текстуры тоньше).
- 8-секундный потолок на одну генерацию. Для 21-секундного Short вам нужно три склейки.
- Vertex AI требует Google Cloud аккаунт + биллинг + квоты — из РФ через четыре пути обхода.
Когда брать Veo 3.1: канал с людьми (UGC-style, talking-head, серии «один герой через эпизоды»), особенно если нужен встроенный звук.
Sora 2: качество кадра, но не для людей
Sora 2 доступна в ChatGPT Plus ($20/мес) и через Sora API в OpenAI Developer Platform. Image-to-video — принимает одно стартовое изображение, длина 5–10 секунд, разрешение до 1080p, нативный аудио.
Что зашло:
- Лучшая фактура из всех шести моделей. Гравюра XIX века в Sora 2 ожила с правильным «винтажным» зерном, без замыливания.
- Физика природы — снег, дождь, листва — выглядит правдоподобнее, чем у Runway.
- Sora 2 хорошо «придумывает» движение камеры, если вы не задаёте направление явно. Плюс для генерации B-roll.
Что не зашло:
- API Sora 2 запрещает людей в стартовом изображении: для image-to-video с лицом модель либо отказывает, либо генерирует обобщённого нейтрального персонажа. Для портрета из нашего теста это означает: Veo 3.1 и Kling 3.0 — единственные рабочие варианты.
- Длина выхода через ChatGPT Plus — до 10 секунд; через API — выше, но цена быстро растёт.
- $20/мес даёт ограниченное число генераций. Для контент-конвейера нужен ChatGPT Pro ($200/мес) или API.
Когда брать Sora 2: ландшафты, натюрморты, абстрактная фактура, кадры без людей в первом фрейме.
Kling 3.0: длина и 4K за свои деньги
Kling 3.0 (Kuaishou, релиз 4 февраля 2026) — нативный 4K@60fps, 15-секундные клипы, многоязычный lip-sync в одном пайплайне. Цены: $9.90/мес базовый, $36.90/мес standard, $66.90/мес premier. Прямой доступ через kling.ai; в РФ — через WaveSpeed и Pollo AI как агрегаторы.
Что зашло:
- Самый длинный клип одним проходом — 15 секунд против 8 у Veo и 10 у Sora. Это критично для канала, который не хочет монтировать склейки.
- 4K@60fps нативно. Sora и Veo выдают 1080p@24fps. Для YouTube-Shorts 4K — overkill, но для VK Клипов и Дзена с экспортом на десктоп — преимущество.
- Встроенный multilingual lip-sync. Фото говорящего человека + текст реплики — Kling сделает анимацию рта без отдельного шага через Sync.so или Hedra.
- Хорошо держит исходную цветопередачу гравюр и ретро-фото.
Что не зашло:
- Хуже Veo 3.1 в физике лица — моргание иногда «дёрганое».
- Интерфейс kling.ai раньше глючил с оплатой по российским картам; сейчас работает через USDT (Tron) или зарубежную карту.
- Лучший результат — на Premier-тарифе; standard режет приоритет очереди в час пик.
Когда брать Kling 3.0: длинные шоты (12–15 сек) одним куском, lip-sync без After Effects, серии в полу-faceless подходе.
Pika 2.5 и Luma Ray3: нишевые победители
Pika 2.5 ($8–58/мес) — единственная модель с фичей Pikaframes: вы задаёте стартовый кадр И финальный кадр, Pika интерполирует транзишн длиной 1–10 секунд.
Это решает невыполнимую раньше задачу: «у меня есть фото молодого человека и фото того же человека пожилого — сделай transition между ними». Или: «фото города 1900 и фото города 2026, плавный переход». В тесте мы делали morphing 1958-Москвич → его современная реставрация — Pika справилась чище, чем любая попытка через text-prompt.
Минусы Pika: качество среднего кадра проигрывает Veo и Sora; для статичного фото без транзишна — overkill, Veo дешевле.
Когда брать Pika 2.5: transitions между двумя конкретными кадрами, before/after, time-lapse эстетика, эволюция объекта.
Luma Ray3 (релиз Ray3 ноябрь 2025, обновление Ray3.14 — 26 января 2026) — первая AI-видео модель с нативным 16-bit HDR. Цена: $9.99–94/мес. Image-to-video создаёт плавные «сноподобные» транзишны — хорошо для абстрактных эстетических кадров.
Luma Ray3 даёт цветовую глубину, которую остальные пять моделей просто не воспроизведут — для брендового аккаунта или арт-канала это разница уровня iPhone vs дешёвый Android по фото.
Минусы Luma: проигрывает Sora и Veo в физике реальных объектов; HDR-преимущество видно только на HDR-дисплеях (большая часть зрителей в Shorts смотрит с SDR-телефона).
Когда брать Luma Ray3: music-video эстетика, арт-канал, бренд с премиум-визуалом, fashion / luxury / автомобили.
Runway Gen-4.5: стандарт для агентств
Runway Gen-4.5 — Standard $12–15/мес (Gen-4.5 + Veo 3.1 + Kling 3.0 Pro в одном UI), Pro ≈$28/user/мес, Unlimited $76/мес. 625 кредитов на Standard = ~52 секунды Gen-4 видео. 16-секундный лимит на одну генерацию; через композицию — до 60 секунд.
Что зашло:
- Единый UI с несколькими движками — для агентства с шестью каналами это экономит логистику.
- API стабильный, есть SDK, биллинг по seat'ам — нормально подключить в production-пайплайн.
- Встроенный апскейл до 4K, удаление вотермарок, замена объектов одним кликом.
Что не зашло:
- Сам Gen-4 проигрывает Veo 3.1 и Sora 2 в качестве кадра; основная ценность Runway сейчас — оркестрация чужих моделей под единым счётом.
- $12 базовый — для активного канала маленький лимит кредитов.
- Часть фичей (4K-апскейл) — только на Unlimited за $76.
Когда брать Runway: агентство, команда, нужен audit trail и биллинг по seat'ам, важна интеграция в существующий ToolStack.
Сводная таблица
| Модель | Цена входа | Макс длина 1 клипа | Разрешение | Аудио | Люди в start-frame | Контроль кадров | Доступ из РФ |
|---|---|---|---|---|---|---|---|
| Veo 3.1 | $0.40/клип API | 8 сек | 1080p@24 | Нативный | Да | Reference image | Vertex AI + обход |
| Sora 2 | $20/мес | 10 сек (web) | 1080p | Нативный | Нет (API) | Только start | ChatGPT Plus + обход |
| Kling 3.0 | $9.90/мес | 15 сек | 4K@60 | Lip-sync | Да | Start + камера | kling.ai + USDT |
| Pika 2.5 | $8/мес | 10 сек | 1080p | Базовый | Да | Start + end | pika.art + карта |
| Luma Ray3 | $9.99/мес | 10 сек | 1080p HDR | Нет | Да | Start + камера | luma.ai + карта |
| Runway 4.5 | $12/мес | 16 сек | 4K (Unlim) | Базовый | Да | Start + объекты | runway.ml + карта |
| Welder AI | от 300 ₽/мес | До 30 сек серия | 1080p | RU-voice | Да | Сценарий + фото | RU-карта прямо |
Ни одна из шести зарубежных моделей не принимает карты МИР напрямую — нужен иностранный счёт, USDT или агрегатор. Welder AI — единственный из тестируемых, кто принимает российские карты и сразу даёт RU-голос ElevenLabs v3 в комплекте.
Выбор под нишу
- Канал ретро-фото / исторические серии → Veo 3.1 (за людей и идентичность) или Kling 3.0 (за длину). Бюджет $30–80/мес.
- Канал про город / архитектуру / природу → Sora 2 + Luma Ray3 для арт-кадров. Бюджет $30–50/мес.
- Time-lapse / before-after / эволюция объектов → Pika 2.5 Pikaframes. Бюджет $8–25/мес.
- Music-video / fashion / luxury-бренд → Luma Ray3 + Sora 2. Бюджет $30/мес.
- Агентство с четырьмя и более каналами → Runway Gen-4.5 Unlimited ($76/мес) или Welder Pro для RU-фокуса.
- Соло-креатор в РФ без VPN и USDT → Welder AI. От 290 ₽ за серию из пяти шортов, оплата российской картой.
Как это собирается в Welder
В Welder AI image-to-video — не отдельный шаг, а часть пайплайна. Вы загружаете 5–7 исходных фото (или они генерятся автоматически из сценария), система делает четыре вещи:
- Определяет каскад моделей под содержимое: Veo 3.1 как первичный для лиц, Kling 3.0 как fallback на длинные шоты, Veo 2 как третий уровень для бюджетных серий.
- Подбирает движение камеры под фото (портрет ≠ пейзаж — нельзя гонять orbital по плоскому портрету).
- Анимирует, добавляет RU-голос ElevenLabs v3, режет под 21/35/60 секунд (под формат алгоритма), накладывает сабы.
- Возвращает 5–7 готовых вертикальных шортов в один клик.
То, что в Runway или Kling займёт три часа кликов на пять шортов, в Welder делается за двенадцать минут. Под капотом — те же модели, что в этом обзоре; разница — в сборке.
Что делать сейчас
Если у вас уже есть архив фото под нишу (ретро, история, путешествия) и вы только думаете о канале — попробуйте Veo 3.1 через AI Studio на одном кадре, чтобы увидеть качество руками. Дальше выбирайте: либо собирать пайплайн самому из 2–3 моделей, либо запустить серию в Welder и сравнить time-to-publish.