Open-source AI-видео 2026: Mochi, LTX-2, Hunyuan vs Veo

Открытые модели догнали проприетарных по части задач — где платить $0.50 за секунду, а где гонять 8B параметров на одной RTX 4090.

Главное за 30 секунд

Если кто-то говорил в 2024-м, что open-source AI-видео никогда не догонит Sora — он был прав ровно полтора года. На май 2026-го у вас есть четыре зрелых открытых модели, которые ставят серьёзные вопросы перед проприетарной тройкой Veo 3.1 / Sora 2 / Runway Gen-4:

Mochi 1 (Genmo) — 10B параметров, Apache 2.0, до 5.4 секунды 480p.
HunyuanVideo 1.5 (Tencent) — 8.3B параметров, полированный клип за ~75 секунд на одной RTX 4090, 720p.
LTX-2.3 (Lightricks) — первая открытая модель со синхронизированным звуком, 4K на 50fps до 20 секунд.
Wan 2.7 (Alibaba) — полный стек под Apache 2.0: text-to-video, image-to-video, voice cloning, инструкции на редактирование.

Открытые модели уже умеют большую часть того, за что Vertex AI берёт $0.50 за секунду Veo 3. Но они забирают другое — ваше время, GPU и нервы. Дальше — кто из них для чего, чем они проигрывают Veo 3.1 и где Welder вписывается между этими двумя лагерями.

Что считаем «открытой моделью» в 2026

«Open» в 2026-м — три разные вещи. Не путайте, иначе попадёте на лицензионный иск.

Open weights — веса опубликованы на HuggingFace под лицензией (Apache 2.0, MIT, кастомная).
Open code — код тренировки и инференса в репозитории. Это значит, что вы можете дообучать.
Open training data — набор данных открыт. Редкость: ни одна из четвёрки выше не открыла данные полностью.

Когда мы говорим «open-source», мы имеем в виду как минимум open weights под лицензией, разрешающей коммерческое использование. Mochi 1, HunyuanVideo 1.5, LTX-2 и Wan 2.7 — все четыре под Apache 2.0. Это значит, что вы можете гонять их на своих серверах для коммерческих проектов без отчислений авторам — то, что закрытый Veo 3 на Vertex AI вам не позволит: там per-second billing на каждую секунду рендера.

Sora 2 здесь — точка отсчёта, не вариант. OpenAI объявила о закрытии Sora 24 марта 2026, приложение выключили 26 апреля, API уйдёт 24 сентября. Мы уже разбирали это в трендовом материале мая — переезд миллионов креаторов на Veo и был одной из причин, почему open-source-альтернативы внезапно стали интересны: проприетарные провайдеры показали, что доступ можно отозвать в любой момент.

Mochi 1 (Genmo): 10B параметров под Apache 2.0

Mochi 1 от Genmo — первая по-настоящему серьёзная открытая модель видео-генерации. Октябрь 2024-го, 10 миллиардов параметров, на тот момент крупнейший open-source-релиз в категории. На середину 2026-го на ней до сих пор строят кастомные пайплайны: стабильная модель, понятная архитектура, доступные веса на HuggingFace.

Сильные стороны:

Apache 2.0 — можно делать коммерческие продукты без лицензионных согласований.
Сильное следование промпту: Mochi уважает structured prompt лучше, чем ранние Pika и Stable Video Diffusion.
Адекватная физика воды, волос и тканей — кадры из Mochi сложно сразу отличить от Runway Gen-3 по сырой картинке.

Слабые стороны:

480p база, до 5.4 секунды, 30fps. HD-апгрейд до 720p обещан в репозитории — если читаете в мае 2026-го, проверьте GitHub: за полтора года Genmo сместили фокус на платный продукт Genmo Replay.
Жёсткий VRAM: модель официально требует 4× H100, хотя комьюнити уже квантовало её под одну 4090.
Звук генерируется отдельно — придётся гонять Suno v4 или ElevenLabs Music и сводить в монтаже.

По данным VentureBeat от октября 2024, Genmo привлекли $28.4M Series A и явно сделали ставку на open. Бесплатный hosted-playground всё ещё работает на genmo.ai/play — попробуйте без локальной установки.

HunyuanVideo 1.5 (Tencent): SOTA на бытовой 4090

Tencent в ноябре 2025-го перетряхнул сцену релизом HunyuanVideo 1.5: 8.3 миллиарда параметров, полированный клип на 5 секунд за ~75 секунд на одной RTX 4090. Это и есть переломный момент: open-source стал доступен любому с одной игровой картой стоимостью $1.5K новой или $0.34/час в аренду.

База HunyuanVideo (13B) умеет 720p / 24fps от 5 до 15 секунд. По заявленным бенчмаркам — на уровне закрытого Sora 1 и Runway Gen-3 по motion coherence. Лицензия — Apache 2.0.

Семейство тоже растёт:

HunyuanVideo-I2V — image-to-video, релиз 6 марта 2025.
HunyuanVideo-Avatar — audio-driven анимация говорящей головы. Прямой конкурент HeyGen Avatar IV и Synthesia — только без $30/мес подписки.
HunyuanVideo 1.5 (ноябрь 2025) — лайт-вариант на 8.3B параметров под одну 4090.

Параметр	HunyuanVideo (база)	HunyuanVideo 1.5
Параметры	13B	8.3B
Разрешение	720p	720p
FPS	24	24
Минимальный GPU	H100 / A100	RTX 4090
Время генерации 5 сек клипа	~10 минут	~75 секунд
Лицензия	Apache 2.0	Apache 2.0

Когда брать HunyuanVideo 1.5: у вас есть RTX 4090 (своя или в аренду на RunPod за $0.34/час), вам нужны 50+ роликов в сутки, и вы готовы поддерживать ComfyUI-пайплайн.

Когда не брать: вы делаете один ролик в неделю. Тогда $0.05/сек Veo 3.1 Lite (то есть ~$0.40 за 8-секундный клип на Vertex AI) дешевле, чем час аренды 4090 + ваш час на отладку нод в ComfyUI.

LTX-2 (Lightricks): первая open-модель со звуком

Lightricks в январе 2026-го сделали LTX-2 полностью открытым — веса, код тренировки, тулинг. Это первая открытая модель, которая нативно генерирует синхронизированные видео и аудио в одном проходе. До неё нужно было гонять Suno или ElevenLabs отдельно и потом сводить вручную.

Цифры:

До 20 секунд аудио-видео нативно в 4K.
50 кадров в секунду.
NVFP8-квантизация: размер модели меньше на ~30%, скорость до 2× выше.
Релиз LTX-2.3 в марте 2026-го — улучшен апскейлер и 8-step distillation.

По бенчмарку Artificial Analysis на момент релиза LTX-2 заняла 3-е место в image-to-video — позади только Kling 3.5 и Veo 3.1. Для open-модели это рекорд: два года назад open-source видео был на уровне «слайдшоу с лёгким дрожанием».

Где LTX-2 сильнее закрытых:

Lip-sync на липсинк-задачах попадает аккуратнее, чем у Runway Gen-4 (но проигрывает Veo 3.1 со звуком на музыкальных сценах).
4K-нативный пайплайн: Veo 3.1 даёт 1080p, апскейл — отдельный шаг.
Полный workflow в ComfyUI — драг-н-дроп JSON-шаблон, и можно стартовать через 20 минут.

Где слабее:

Сложные физические сцены (жидкости, толпы людей) Veo 3.1 пока берёт убедительнее.
Время инференса на одной 4090 — около 2-4 минут на 5-секундный 1080p-клип. Vertex AI выдаст то же за 30 секунд, но дороже в 50 раз.

Wan 2.7 (Alibaba): полный продакшн-стек под Apache 2.0

Alibaba в апреле 2026-го выкатили Wan 2.7 suite — четыре модели под Apache 2.0:

Wan 2.7 T2V — text-to-video, до 15 секунд.
Wan 2.7 I2V — image-to-video, контроль первого кадра.
Wan 2.7 R2V — reference-to-video с клонированием голоса по 30-секундному сэмплу.
Wan 2.7 Edit — текстовые инструкции на редактирование готового видео (типа «замени фон на ночной город Шанхая»).

Это первый полный open-source-стек, который покрывает видео-пайплайн от промпта до правок без необходимости тащить отдельные модели для каждого этапа. Wan 2.5 в сентябре 2025-го умел только text-to-video + audio через Alibaba Cloud API без публичных весов — Wan 2.7 наконец-то разрешила скачать всё.

Кому подходит:

Студиям на 50+ роликов в неделю с минимум 4× RTX 4090 или одной H100.
Креаторам в Китае и Юго-Восточной Азии — Wan лучше остальных понимает CJK-промпты.
Тем, кому нужна voice-cloning интеграция в самой модели, а не отдельным шагом с ElevenLabs.

Подводный камень: open-source в России и СНГ означает «придётся самому разруливать инфраструктуру и обучать команду на ComfyUI». Если хотите готовый пайплайн под русский язык, лучше идти в managed-решения — об этом ниже.

Цена честно: где open экономит, а где жрёт время

Самое популярное заблуждение про open-source — «бесплатно». Бесплатна только модель. Считаем full cost для канала на 30 роликов в неделю.

Канал, 30 роликов/нед, 8 сек каждый	Месяц	Год
Veo 3.1 Standard на Vertex AI ($0.50/сек видео + $0.25/сек аудио)	$720	$8 640
Veo 3.1 Lite ($0.05/сек, без аудио)	$48	$576
HunyuanVideo 1.5 на RunPod 4090 ($0.34/час, ~75 сек/клип, ~8 час/мес + сценарист)	$3	$36
LTX-2.3 на RunPod 4090 ($0.34/час, ~3 мин/клип, ~6 час/мес)	$3	$36
Своя 4090 у себя в комнате (~220 ₽/мес электричества)	$3	$36

Open-source выигрывает в чистой цене на ×15–×200. Но на стороне расходов он берёт инженера, ComfyUI-навыки и 5-10 часов в неделю на обслуживание пайплайна. Это скрытая статья, которую трудно положить в Excel, пока вы не пожгли пару выходных.

К этому добавьте:

Голос. HunyuanVideo-Avatar умеет английский и китайский — для русского придётся всё равно гонять ElevenLabs или OpenAI Voice.
Сценарий. Ни одна модель сама не придумает 30 промптов под вашу нишу. Сравнение AI-сценаристов под Shorts 2026 — отдельный пост.
Сборка. Open-модели выдают сырые клипы по 5-20 секунд. Склейка, субтитры, обложки — отдельный шаг и отдельный софт.

Итоговый пайплайн на open — это 5-7 инструментов, которые нужно состыковать. Готовое решение типа Veo + ChatGPT + ElevenLabs стоит дороже в деньгах, но дешевле в часах. Если час вашего времени стоит больше 800 ₽, open-source может не окупиться вообще никогда.

Где Welder вписывается между open и proprietary

Welder AI — managed-пайплайн поверх Veo 3.1 / Veo 2 + ElevenLabs v3 + GPT-5.5 / Claude Sonnet 4.6 для сценария. От 290 ₽ за серию роликов на старте. То есть мы — не альтернатива HunyuanVideo, а альтернатива «собирать из 7 кубиков самому».

Честно про сравнение:

Где Welder проигрывает open-source: маржа за секунду. Если у вас уже стоит RTX 4090 и есть инженер, ваша последняя миля дешевле.
Где Welder проигрывает прямому Vertex AI: контроль низкоуровневых параметров промпта (sampler, guidance scale, негативный промпт).
Где Welder выигрывает у обоих: русский сценарий → русский голос → 10 готовых вертикальных роликов с обложками за один заказ. Без ComfyUI, без $0.75/сек на Vertex, без склейки видеоредактором.

Когда вам пойти к нам:

Вы делаете 5-50 роликов в неделю на RU-аудиторию.
Вы не хотите учить ComfyUI или Vertex AI billing.
Вам нужен консистентный визуал между роликами серии — у нас встроены приёмы из гайда по консистентности персонажа.

Когда вам идти на open-source:

Вы инженер и любите пайплайны.
У вас 200+ роликов в месяц и каждая копейка считается.
Вам нужна возможность дообучить модель на собственных данных — например, маркетплейс-продукт-видео в одном фирменном стиле.

Когда вам идти прямо в Vertex AI:

Вы пишете промпты сами и хотите ручной контроль камеры по 8 параметрам Veo 3.
Вам нужно <10 роликов в месяц и не хочется месячных подписок.

Что выбрать в мае 2026

Open-source AI-видео в 2026-м — уже не игрушка. Mochi 1, HunyuanVideo 1.5, LTX-2.3 и Wan 2.7 закрывают 80% задач, под которые год назад приходилось платить OpenAI или Runway. Но они забирают время инженера и требуют GPU. Если этих ресурсов нет — proprietary или managed остаются дешевле в часах.

Прикладной чек-лист:

Меньше 10 роликов в месяц, разовые задачи. Veo 3.1 Lite на Vertex AI: $0.05/сек, без обязательств.
10-100 роликов в месяц, RU-аудитория, нет инженера. Welder: готовый пайплайн со сценарием и русским голосом.
100+ роликов в месяц, есть GPU и время. HunyuanVideo 1.5 или LTX-2.3 локально через ComfyUI.
Студия с продакшн-пайплайном и кастомным стилем. Wan 2.7 + ComfyUI кастомизация + дообучение под бренд.

Open-source окончательно победит в момент, когда устаканится layer 2 — managed-провайдеры, которые возьмут на себя инфру и предложат API под открытые модели по $0.02/сек. Первые сигналы уже есть — fal.ai и Replicate начали хостить Wan 2.7 и HunyuanVideo 1.5 за $0.03-0.08/сек. Пока этого нет в зрелом виде, выбор «open vs proprietary» — это выбор «время vs деньги».

Сделайте первый ролик за 10 минут

Хватит читать сравнения. Зарегистрируйтесь в Welder, выберите нишу и сгенерируйте первую серию из 10 роликов — без ComfyUI и Vertex billing. Если предпочитаете гонять open-модели сами — тарифная страница покажет, сколько вам сэкономит managed-стек к концу года.