Image-to-video AI-Shorts 2026: Veo, Sora, Kling, Pika, Luma

Тест шести моделей на оживлении статичных фото для AI-Shorts: цена, длина клипа, контроль камеры, доступ из РФ — без рекламы.

Главное за 30 секунд

К июню 2026 в нише image-to-video у нас шесть серьёзных моделей: Veo 3.1 (Google DeepMind, через Vertex AI, ≈$0.40 за 8-секундный клип), Sora 2 (OpenAI, $20/мес в ChatGPT Plus), Kling 3.0 (Kuaishou, релиз 4 февраля 2026, от $9.90/мес), Pika 2.5 ($8–58/мес), Luma Ray3 ($9.99–94/мес) и Runway Gen-4.5 ($12–76/мес).

Если коротко:

Veo 3.1 — лучшая физика и нативный аудио-микс, лучший выбор когда в кадре оживают люди и нужен диалог.
Sora 2 — самое тонкое качество кадра, но API запрещает людей в стартовом изображении.
Kling 3.0 — лидер по длине клипа (15 секунд) и нативный 4K@60fps.
Pika 2.5 Pikaframes — единственный способ задать конкретные стартовый и финальный кадры.
Luma Ray3 — первая модель с нативным 16-бит HDR, цветовая глубина для эстетики.
Runway Gen-4.5 — стандарт для агентств: API, командные тарифы, апскейл до 4K в одном UI.

И отдельно Welder AI (тариф «Старт» от 300 ₽/мес) — поверх Veo 3.1 / Veo 2 / Kling, забирает сценарий + фото-референс и возвращает 5–7 готовых вертикальных шортов с RU-озвучкой и сабами. То, что в Runway или Kling займёт три часа кликов, в Welder делается за 12 минут — под капотом те же модели.

Зачем image-to-video именно для AI-Shorts

Большинство AI-каналов 2026 года растут на «оживлении» статичной фактуры: ретро-фото машин (кейс канала на 205K), архивы СССР, исторические гравюры, кадры с НАСА и Wikimedia Commons, личные альбомы автора в travel-нише.

Эти фото уже несут историю. Задача image-to-video — добавить движение камеры, лёгкую анимацию персонажа, дыхание ветра в кадре, и собрать из одного фото 4–8 секунд видео. Дальше монтаж + RU-голос + сабы — и у вас Short.

Главный плюс этого подхода: вы снимаете у нейросети 80% задачи «придумать сцену с нуля». Композиция уже задана, остаётся анимировать. В каналах серий это даёт +25–40% completion rate против чистого text-to-video, потому что зритель видит «честное историческое фото», а не очередной AI-glitch.

Минус: нужно качественное исходное изображение. 480p-сканы из Telegram не оживают красиво ни в одной модели — апскейлите до 1080p+ через Topaz или Real-ESRGAN до того, как кормить.

Параметры теста

Мы прогнали четыре типа исходного фото через шесть моделей:

Чёрно-белое фото 1958 года — Москвич-410, 3:4, 1280×1700 → запрос: «slow dolly zoom in, slight wind blowing trees in background, 9:16, 5 sec».
Цветная гравюра XIX века — петербургский пейзаж, 1:1, 2000×2000 → запрос: «gentle camera push, snow falling in foreground, 9:16, 6 sec».
Современный пейзаж Карелии — 16:9, 3840×2160 → запрос: «orbital camera right, sun rays through trees, 9:16, 8 sec».
Портрет человека — мужчина в студии, 9:16, 1080×1920 → запрос: «subtle head turn, blink, neutral expression, 9:16, 5 sec».

Каждый прогон — три попытки в модели, выбирали лучшую. Оценивали по: сохранению лица/идентичности, отсутствию morphing-артефактов, естественности движения камеры, сохранению цвета и контраста оригинала, допустимой длине выходного клипа.

Veo 3.1: лидер для людей и аудио

Цена через Vertex AI Studio — ≈$0.40 за 8-секундный 1080p@24fps клип в режиме image-to-video. Через Google AI Studio есть лимитированный free tier для разовых тестов.

Что зашло:

Лучшая работа с лицами. Чёрно-белый портрет — лёгкий поворот головы, моргание — без потери идентичности.
Реалистичная физика: снег в гравюре падал по гравитации, а не «как стикер».
Уникальная фича — «ingredients-to-video»: можно дать референс-картинку персонажа, и модель сохранит его внешность через три-четыре шота подряд. Для серий это золото.
Нативное аудио. Просите «slight wind» — модель сгенерирует и звук ветра, и видео в одном файле.

Что не зашло:

Sora 2 даёт чуть более «киношный» кадр (текстуры тоньше).
8-секундный потолок на одну генерацию. Для 21-секундного Short вам нужно три склейки.
Vertex AI требует Google Cloud аккаунт + биллинг + квоты — из РФ через четыре пути обхода.

Когда брать Veo 3.1: канал с людьми (UGC-style, talking-head, серии «один герой через эпизоды»), особенно если нужен встроенный звук.

Sora 2: качество кадра, но не для людей

Sora 2 доступна в ChatGPT Plus ($20/мес) и через Sora API в OpenAI Developer Platform. Image-to-video — принимает одно стартовое изображение, длина 5–10 секунд, разрешение до 1080p, нативный аудио.

Что зашло:

Лучшая фактура из всех шести моделей. Гравюра XIX века в Sora 2 ожила с правильным «винтажным» зерном, без замыливания.
Физика природы — снег, дождь, листва — выглядит правдоподобнее, чем у Runway.
Sora 2 хорошо «придумывает» движение камеры, если вы не задаёте направление явно. Плюс для генерации B-roll.

Что не зашло:

API Sora 2 запрещает людей в стартовом изображении: для image-to-video с лицом модель либо отказывает, либо генерирует обобщённого нейтрального персонажа. Для портрета из нашего теста это означает: Veo 3.1 и Kling 3.0 — единственные рабочие варианты.
Длина выхода через ChatGPT Plus — до 10 секунд; через API — выше, но цена быстро растёт.
$20/мес даёт ограниченное число генераций. Для контент-конвейера нужен ChatGPT Pro ($200/мес) или API.

Когда брать Sora 2: ландшафты, натюрморты, абстрактная фактура, кадры без людей в первом фрейме.

Kling 3.0: длина и 4K за свои деньги

Kling 3.0 (Kuaishou, релиз 4 февраля 2026) — нативный 4K@60fps, 15-секундные клипы, многоязычный lip-sync в одном пайплайне. Цены: $9.90/мес базовый, $36.90/мес standard, $66.90/мес premier. Прямой доступ через kling.ai; в РФ — через WaveSpeed и Pollo AI как агрегаторы.

Что зашло:

Самый длинный клип одним проходом — 15 секунд против 8 у Veo и 10 у Sora. Это критично для канала, который не хочет монтировать склейки.
4K@60fps нативно. Sora и Veo выдают 1080p@24fps. Для YouTube-Shorts 4K — overkill, но для VK Клипов и Дзена с экспортом на десктоп — преимущество.
Встроенный multilingual lip-sync. Фото говорящего человека + текст реплики — Kling сделает анимацию рта без отдельного шага через Sync.so или Hedra.
Хорошо держит исходную цветопередачу гравюр и ретро-фото.

Что не зашло:

Хуже Veo 3.1 в физике лица — моргание иногда «дёрганое».
Интерфейс kling.ai раньше глючил с оплатой по российским картам; сейчас работает через USDT (Tron) или зарубежную карту.
Лучший результат — на Premier-тарифе; standard режет приоритет очереди в час пик.

Когда брать Kling 3.0: длинные шоты (12–15 сек) одним куском, lip-sync без After Effects, серии в полу-faceless подходе.

Pika 2.5 и Luma Ray3: нишевые победители

Pika 2.5 ($8–58/мес) — единственная модель с фичей Pikaframes: вы задаёте стартовый кадр И финальный кадр, Pika интерполирует транзишн длиной 1–10 секунд.

Это решает невыполнимую раньше задачу: «у меня есть фото молодого человека и фото того же человека пожилого — сделай transition между ними». Или: «фото города 1900 и фото города 2026, плавный переход». В тесте мы делали morphing 1958-Москвич → его современная реставрация — Pika справилась чище, чем любая попытка через text-prompt.

Минусы Pika: качество среднего кадра проигрывает Veo и Sora; для статичного фото без транзишна — overkill, Veo дешевле.

Когда брать Pika 2.5: transitions между двумя конкретными кадрами, before/after, time-lapse эстетика, эволюция объекта.

Luma Ray3 (релиз Ray3 ноябрь 2025, обновление Ray3.14 — 26 января 2026) — первая AI-видео модель с нативным 16-bit HDR. Цена: $9.99–94/мес. Image-to-video создаёт плавные «сноподобные» транзишны — хорошо для абстрактных эстетических кадров.

Luma Ray3 даёт цветовую глубину, которую остальные пять моделей просто не воспроизведут — для брендового аккаунта или арт-канала это разница уровня iPhone vs дешёвый Android по фото.

Минусы Luma: проигрывает Sora и Veo в физике реальных объектов; HDR-преимущество видно только на HDR-дисплеях (большая часть зрителей в Shorts смотрит с SDR-телефона).

Когда брать Luma Ray3: music-video эстетика, арт-канал, бренд с премиум-визуалом, fashion / luxury / автомобили.

Runway Gen-4.5: стандарт для агентств

Runway Gen-4.5 — Standard $12–15/мес (Gen-4.5 + Veo 3.1 + Kling 3.0 Pro в одном UI), Pro ≈$28/user/мес, Unlimited $76/мес. 625 кредитов на Standard = ~52 секунды Gen-4 видео. 16-секундный лимит на одну генерацию; через композицию — до 60 секунд.

Что зашло:

Единый UI с несколькими движками — для агентства с шестью каналами это экономит логистику.
API стабильный, есть SDK, биллинг по seat'ам — нормально подключить в production-пайплайн.
Встроенный апскейл до 4K, удаление вотермарок, замена объектов одним кликом.

Что не зашло:

Сам Gen-4 проигрывает Veo 3.1 и Sora 2 в качестве кадра; основная ценность Runway сейчас — оркестрация чужих моделей под единым счётом.
$12 базовый — для активного канала маленький лимит кредитов.
Часть фичей (4K-апскейл) — только на Unlimited за $76.

Когда брать Runway: агентство, команда, нужен audit trail и биллинг по seat'ам, важна интеграция в существующий ToolStack.

Сводная таблица

Модель	Цена входа	Макс длина 1 клипа	Разрешение	Аудио	Люди в start-frame	Контроль кадров	Доступ из РФ
Veo 3.1	$0.40/клип API	8 сек	1080p@24	Нативный	Да	Reference image	Vertex AI + обход
Sora 2	$20/мес	10 сек (web)	1080p	Нативный	Нет (API)	Только start	ChatGPT Plus + обход
Kling 3.0	$9.90/мес	15 сек	4K@60	Lip-sync	Да	Start + камера	kling.ai + USDT
Pika 2.5	$8/мес	10 сек	1080p	Базовый	Да	Start + end	pika.art + карта
Luma Ray3	$9.99/мес	10 сек	1080p HDR	Нет	Да	Start + камера	luma.ai + карта
Runway 4.5	$12/мес	16 сек	4K (Unlim)	Базовый	Да	Start + объекты	runway.ml + карта
Welder AI	от 300 ₽/мес	До 30 сек серия	1080p	RU-voice	Да	Сценарий + фото	RU-карта прямо

Ни одна из шести зарубежных моделей не принимает карты МИР напрямую — нужен иностранный счёт, USDT или агрегатор. Welder AI — единственный из тестируемых, кто принимает российские карты и сразу даёт RU-голос ElevenLabs v3 в комплекте.

Выбор под нишу

Канал ретро-фото / исторические серии → Veo 3.1 (за людей и идентичность) или Kling 3.0 (за длину). Бюджет $30–80/мес.
Канал про город / архитектуру / природу → Sora 2 + Luma Ray3 для арт-кадров. Бюджет $30–50/мес.
Time-lapse / before-after / эволюция объектов → Pika 2.5 Pikaframes. Бюджет $8–25/мес.
Music-video / fashion / luxury-бренд → Luma Ray3 + Sora 2. Бюджет $30/мес.
Агентство с четырьмя и более каналами → Runway Gen-4.5 Unlimited ($76/мес) или Welder Pro для RU-фокуса.
Соло-креатор в РФ без VPN и USDT → Welder AI. От 290 ₽ за серию из пяти шортов, оплата российской картой.

Как это собирается в Welder

В Welder AI image-to-video — не отдельный шаг, а часть пайплайна. Вы загружаете 5–7 исходных фото (или они генерятся автоматически из сценария), система делает четыре вещи:

Определяет каскад моделей под содержимое: Veo 3.1 как первичный для лиц, Kling 3.0 как fallback на длинные шоты, Veo 2 как третий уровень для бюджетных серий.
Подбирает движение камеры под фото (портрет ≠ пейзаж — нельзя гонять orbital по плоскому портрету).
Анимирует, добавляет RU-голос ElevenLabs v3, режет под 21/35/60 секунд (под формат алгоритма), накладывает сабы.
Возвращает 5–7 готовых вертикальных шортов в один клик.

То, что в Runway или Kling займёт три часа кликов на пять шортов, в Welder делается за двенадцать минут. Под капотом — те же модели, что в этом обзоре; разница — в сборке.

Что делать сейчас

Если у вас уже есть архив фото под нишу (ретро, история, путешествия) и вы только думаете о канале — попробуйте Veo 3.1 через AI Studio на одном кадре, чтобы увидеть качество руками. Дальше выбирайте: либо собирать пайплайн самому из 2–3 моделей, либо запустить серию в Welder и сравнить time-to-publish.

Запустить первую серию шортов в Welder →