Главное за 30 секунд
Если кто-то говорил в 2024-м, что open-source AI-видео никогда не догонит Sora — он был прав ровно полтора года. На май 2026-го у вас есть четыре зрелых открытых модели, которые ставят серьёзные вопросы перед проприетарной тройкой Veo 3.1 / Sora 2 / Runway Gen-4:
- Mochi 1 (Genmo) — 10B параметров, Apache 2.0, до 5.4 секунды 480p.
- HunyuanVideo 1.5 (Tencent) — 8.3B параметров, полированный клип за ~75 секунд на одной RTX 4090, 720p.
- LTX-2.3 (Lightricks) — первая открытая модель со синхронизированным звуком, 4K на 50fps до 20 секунд.
- Wan 2.7 (Alibaba) — полный стек под Apache 2.0: text-to-video, image-to-video, voice cloning, инструкции на редактирование.
Открытые модели уже умеют большую часть того, за что Vertex AI берёт $0.50 за секунду Veo 3. Но они забирают другое — ваше время, GPU и нервы. Дальше — кто из них для чего, чем они проигрывают Veo 3.1 и где Welder вписывается между этими двумя лагерями.
Что считаем «открытой моделью» в 2026
«Open» в 2026-м — три разные вещи. Не путайте, иначе попадёте на лицензионный иск.
- Open weights — веса опубликованы на HuggingFace под лицензией (Apache 2.0, MIT, кастомная).
- Open code — код тренировки и инференса в репозитории. Это значит, что вы можете дообучать.
- Open training data — набор данных открыт. Редкость: ни одна из четвёрки выше не открыла данные полностью.
Когда мы говорим «open-source», мы имеем в виду как минимум open weights под лицензией, разрешающей коммерческое использование. Mochi 1, HunyuanVideo 1.5, LTX-2 и Wan 2.7 — все четыре под Apache 2.0. Это значит, что вы можете гонять их на своих серверах для коммерческих проектов без отчислений авторам — то, что закрытый Veo 3 на Vertex AI вам не позволит: там per-second billing на каждую секунду рендера.
Sora 2 здесь — точка отсчёта, не вариант. OpenAI объявила о закрытии Sora 24 марта 2026, приложение выключили 26 апреля, API уйдёт 24 сентября. Мы уже разбирали это в трендовом материале мая — переезд миллионов креаторов на Veo и был одной из причин, почему open-source-альтернативы внезапно стали интересны: проприетарные провайдеры показали, что доступ можно отозвать в любой момент.
Mochi 1 (Genmo): 10B параметров под Apache 2.0
Mochi 1 от Genmo — первая по-настоящему серьёзная открытая модель видео-генерации. Октябрь 2024-го, 10 миллиардов параметров, на тот момент крупнейший open-source-релиз в категории. На середину 2026-го на ней до сих пор строят кастомные пайплайны: стабильная модель, понятная архитектура, доступные веса на HuggingFace.
Сильные стороны:
- Apache 2.0 — можно делать коммерческие продукты без лицензионных согласований.
- Сильное следование промпту: Mochi уважает structured prompt лучше, чем ранние Pika и Stable Video Diffusion.
- Адекватная физика воды, волос и тканей — кадры из Mochi сложно сразу отличить от Runway Gen-3 по сырой картинке.
Слабые стороны:
- 480p база, до 5.4 секунды, 30fps. HD-апгрейд до 720p обещан в репозитории — если читаете в мае 2026-го, проверьте GitHub: за полтора года Genmo сместили фокус на платный продукт Genmo Replay.
- Жёсткий VRAM: модель официально требует 4× H100, хотя комьюнити уже квантовало её под одну 4090.
- Звук генерируется отдельно — придётся гонять Suno v4 или ElevenLabs Music и сводить в монтаже.
По данным VentureBeat от октября 2024, Genmo привлекли $28.4M Series A и явно сделали ставку на open. Бесплатный hosted-playground всё ещё работает на genmo.ai/play — попробуйте без локальной установки.
HunyuanVideo 1.5 (Tencent): SOTA на бытовой 4090
Tencent в ноябре 2025-го перетряхнул сцену релизом HunyuanVideo 1.5: 8.3 миллиарда параметров, полированный клип на 5 секунд за ~75 секунд на одной RTX 4090. Это и есть переломный момент: open-source стал доступен любому с одной игровой картой стоимостью $1.5K новой или $0.34/час в аренду.
База HunyuanVideo (13B) умеет 720p / 24fps от 5 до 15 секунд. По заявленным бенчмаркам — на уровне закрытого Sora 1 и Runway Gen-3 по motion coherence. Лицензия — Apache 2.0.
Семейство тоже растёт:
- HunyuanVideo-I2V — image-to-video, релиз 6 марта 2025.
- HunyuanVideo-Avatar — audio-driven анимация говорящей головы. Прямой конкурент HeyGen Avatar IV и Synthesia — только без $30/мес подписки.
- HunyuanVideo 1.5 (ноябрь 2025) — лайт-вариант на 8.3B параметров под одну 4090.
| Параметр | HunyuanVideo (база) | HunyuanVideo 1.5 |
|---|---|---|
| Параметры | 13B | 8.3B |
| Разрешение | 720p | 720p |
| FPS | 24 | 24 |
| Минимальный GPU | H100 / A100 | RTX 4090 |
| Время генерации 5 сек клипа | ~10 минут | ~75 секунд |
| Лицензия | Apache 2.0 | Apache 2.0 |
Когда брать HunyuanVideo 1.5: у вас есть RTX 4090 (своя или в аренду на RunPod за $0.34/час), вам нужны 50+ роликов в сутки, и вы готовы поддерживать ComfyUI-пайплайн.
Когда не брать: вы делаете один ролик в неделю. Тогда $0.05/сек Veo 3.1 Lite (то есть ~$0.40 за 8-секундный клип на Vertex AI) дешевле, чем час аренды 4090 + ваш час на отладку нод в ComfyUI.
LTX-2 (Lightricks): первая open-модель со звуком
Lightricks в январе 2026-го сделали LTX-2 полностью открытым — веса, код тренировки, тулинг. Это первая открытая модель, которая нативно генерирует синхронизированные видео и аудио в одном проходе. До неё нужно было гонять Suno или ElevenLabs отдельно и потом сводить вручную.
Цифры:
- До 20 секунд аудио-видео нативно в 4K.
- 50 кадров в секунду.
- NVFP8-квантизация: размер модели меньше на ~30%, скорость до 2× выше.
- Релиз LTX-2.3 в марте 2026-го — улучшен апскейлер и 8-step distillation.
По бенчмарку Artificial Analysis на момент релиза LTX-2 заняла 3-е место в image-to-video — позади только Kling 3.5 и Veo 3.1. Для open-модели это рекорд: два года назад open-source видео был на уровне «слайдшоу с лёгким дрожанием».
Где LTX-2 сильнее закрытых:
- Lip-sync на липсинк-задачах попадает аккуратнее, чем у Runway Gen-4 (но проигрывает Veo 3.1 со звуком на музыкальных сценах).
- 4K-нативный пайплайн: Veo 3.1 даёт 1080p, апскейл — отдельный шаг.
- Полный workflow в ComfyUI — драг-н-дроп JSON-шаблон, и можно стартовать через 20 минут.
Где слабее:
- Сложные физические сцены (жидкости, толпы людей) Veo 3.1 пока берёт убедительнее.
- Время инференса на одной 4090 — около 2-4 минут на 5-секундный 1080p-клип. Vertex AI выдаст то же за 30 секунд, но дороже в 50 раз.
Wan 2.7 (Alibaba): полный продакшн-стек под Apache 2.0
Alibaba в апреле 2026-го выкатили Wan 2.7 suite — четыре модели под Apache 2.0:
- Wan 2.7 T2V — text-to-video, до 15 секунд.
- Wan 2.7 I2V — image-to-video, контроль первого кадра.
- Wan 2.7 R2V — reference-to-video с клонированием голоса по 30-секундному сэмплу.
- Wan 2.7 Edit — текстовые инструкции на редактирование готового видео (типа «замени фон на ночной город Шанхая»).
Это первый полный open-source-стек, который покрывает видео-пайплайн от промпта до правок без необходимости тащить отдельные модели для каждого этапа. Wan 2.5 в сентябре 2025-го умел только text-to-video + audio через Alibaba Cloud API без публичных весов — Wan 2.7 наконец-то разрешила скачать всё.
Кому подходит:
- Студиям на 50+ роликов в неделю с минимум 4× RTX 4090 или одной H100.
- Креаторам в Китае и Юго-Восточной Азии — Wan лучше остальных понимает CJK-промпты.
- Тем, кому нужна voice-cloning интеграция в самой модели, а не отдельным шагом с ElevenLabs.
Подводный камень: open-source в России и СНГ означает «придётся самому разруливать инфраструктуру и обучать команду на ComfyUI». Если хотите готовый пайплайн под русский язык, лучше идти в managed-решения — об этом ниже.
Цена честно: где open экономит, а где жрёт время
Самое популярное заблуждение про open-source — «бесплатно». Бесплатна только модель. Считаем full cost для канала на 30 роликов в неделю.
| Канал, 30 роликов/нед, 8 сек каждый | Месяц | Год |
|---|---|---|
| Veo 3.1 Standard на Vertex AI ($0.50/сек видео + $0.25/сек аудио) | $720 | $8 640 |
| Veo 3.1 Lite ($0.05/сек, без аудио) | $48 | $576 |
| HunyuanVideo 1.5 на RunPod 4090 ($0.34/час, ~75 сек/клип, ~8 час/мес + сценарист) | $3 | $36 |
| LTX-2.3 на RunPod 4090 ($0.34/час, ~3 мин/клип, ~6 час/мес) | $3 | $36 |
| Своя 4090 у себя в комнате (~220 ₽/мес электричества) | $3 | $36 |
Open-source выигрывает в чистой цене на ×15–×200. Но на стороне расходов он берёт инженера, ComfyUI-навыки и 5-10 часов в неделю на обслуживание пайплайна. Это скрытая статья, которую трудно положить в Excel, пока вы не пожгли пару выходных.
К этому добавьте:
- Голос. HunyuanVideo-Avatar умеет английский и китайский — для русского придётся всё равно гонять ElevenLabs или OpenAI Voice.
- Сценарий. Ни одна модель сама не придумает 30 промптов под вашу нишу. Сравнение AI-сценаристов под Shorts 2026 — отдельный пост.
- Сборка. Open-модели выдают сырые клипы по 5-20 секунд. Склейка, субтитры, обложки — отдельный шаг и отдельный софт.
Итоговый пайплайн на open — это 5-7 инструментов, которые нужно состыковать. Готовое решение типа Veo + ChatGPT + ElevenLabs стоит дороже в деньгах, но дешевле в часах. Если час вашего времени стоит больше 800 ₽, open-source может не окупиться вообще никогда.
Где Welder вписывается между open и proprietary
Welder AI — managed-пайплайн поверх Veo 3.1 / Veo 2 + ElevenLabs v3 + GPT-5.5 / Claude Sonnet 4.6 для сценария. От 290 ₽ за серию роликов на старте. То есть мы — не альтернатива HunyuanVideo, а альтернатива «собирать из 7 кубиков самому».
Честно про сравнение:
- Где Welder проигрывает open-source: маржа за секунду. Если у вас уже стоит RTX 4090 и есть инженер, ваша последняя миля дешевле.
- Где Welder проигрывает прямому Vertex AI: контроль низкоуровневых параметров промпта (sampler, guidance scale, негативный промпт).
- Где Welder выигрывает у обоих: русский сценарий → русский голос → 10 готовых вертикальных роликов с обложками за один заказ. Без ComfyUI, без $0.75/сек на Vertex, без склейки видеоредактором.
Когда вам пойти к нам:
- Вы делаете 5-50 роликов в неделю на RU-аудиторию.
- Вы не хотите учить ComfyUI или Vertex AI billing.
- Вам нужен консистентный визуал между роликами серии — у нас встроены приёмы из гайда по консистентности персонажа.
Когда вам идти на open-source:
- Вы инженер и любите пайплайны.
- У вас 200+ роликов в месяц и каждая копейка считается.
- Вам нужна возможность дообучить модель на собственных данных — например, маркетплейс-продукт-видео в одном фирменном стиле.
Когда вам идти прямо в Vertex AI:
- Вы пишете промпты сами и хотите ручной контроль камеры по 8 параметрам Veo 3.
- Вам нужно <10 роликов в месяц и не хочется месячных подписок.
Что выбрать в мае 2026
Open-source AI-видео в 2026-м — уже не игрушка. Mochi 1, HunyuanVideo 1.5, LTX-2.3 и Wan 2.7 закрывают 80% задач, под которые год назад приходилось платить OpenAI или Runway. Но они забирают время инженера и требуют GPU. Если этих ресурсов нет — proprietary или managed остаются дешевле в часах.
Прикладной чек-лист:
- Меньше 10 роликов в месяц, разовые задачи. Veo 3.1 Lite на Vertex AI: $0.05/сек, без обязательств.
- 10-100 роликов в месяц, RU-аудитория, нет инженера. Welder: готовый пайплайн со сценарием и русским голосом.
- 100+ роликов в месяц, есть GPU и время. HunyuanVideo 1.5 или LTX-2.3 локально через ComfyUI.
- Студия с продакшн-пайплайном и кастомным стилем. Wan 2.7 + ComfyUI кастомизация + дообучение под бренд.
Open-source окончательно победит в момент, когда устаканится layer 2 — managed-провайдеры, которые возьмут на себя инфру и предложат API под открытые модели по $0.02/сек. Первые сигналы уже есть — fal.ai и Replicate начали хостить Wan 2.7 и HunyuanVideo 1.5 за $0.03-0.08/сек. Пока этого нет в зрелом виде, выбор «open vs proprietary» — это выбор «время vs деньги».
Сделайте первый ролик за 10 минут
Хватит читать сравнения. Зарегистрируйтесь в Welder, выберите нишу и сгенерируйте первую серию из 10 роликов — без ComfyUI и Vertex billing. Если предпочитаете гонять open-модели сами — тарифная страница покажет, сколько вам сэкономит managed-стек к концу года.