Главное за 30 секунд
Осень 2025 принесла два релиза, которые к маю 2026 уже не «новинки», а планка по умолчанию: Sora 2 от OpenAI (10 октября 2025) и Veo 3.1 от Google DeepMind (15 октября 2025). Sora 2 в первые 48 часов после запуска забрала #1 в App Store США, обогнав даже сам ChatGPT, а Veo 3.1 за месяц прошёл путь от Vertex AI preview до интеграции в Google AI Pro за $19,99/мес.
Что это значит для AI-Shorts на TikTok, YouTube Shorts и Reels: «slideshow + ElevenLabs + бесплатный сток» больше не работают — в 2026 фид этими роликами засыпан, алгоритм классифицирует их как «AI-slop» и душит охват. CEO YouTube Нил Мохан в феврале 2026 публично признал: каждый пятый Short, рекомендованный новым пользователям, — это массово-произведённый AI-контент низкого качества, и платформа усиливает антиспам-фильтры.
Новый стандарт держится на шести метриках: native-аудио в кадре, lip-sync с эмоцией, физика движения, прыжки между сценами без артефактов, вертикаль 1080p из коробки и длительность 10+ секунд на сцену. Дальше — что конкретно изменилось, цена секунды по моделям и как удерживать планку на стартовых тарифах.
Что Sora 2 и Veo 3.1 принесли к маю 2026
До осени 2025 короткие ролики на ИИ распознавались мгновенно: stiff motion, плавающие пальцы, lip-sync с задержкой 200–400 мс, аудио поверх немой видео-дорожки. Sora 2 и Veo 3.1 закрыли почти все эти дыры одновременно.
Sora 2 научилась физике первой. Объекты в кадре теперь имеют вес: мяч отскакивает не как воздушный шарик, вода льётся с инерцией, ткань развевается с правильной массой. Камера-движение — кран, dolly-in, follow-shot — даётся естественно по промпту «cinematic crane shot, golden hour». Длительность одного клипа в Pro-тире выросла до 25 секунд, в стандартной версии — до 15 секунд. Sora 2 рендерит сразу в 720×1280 — это нативный формат TikTok и Reels.
Veo 3.1 забрала аудио и lip-sync. Это первая модель массового рынка, которая на одном проходе диффузии генерирует видео и синхронный звук: диалог, ambient, шаги по поверхности, скрип двери — всё попадает в кадр и в губы. Visual fidelity тоже подтянулась: Veo 3.1 даёт «broadcast-grade» картинку с cinema-стандартом fps и pro color science. На Vertex AI цена Veo 3.1 Fast стартует от $0,10 за секунду без аудио, у Veo 3.1 Lite — около $0,05/сек.
Конкуренты не сидят сложа руки. Kling 3 от Kuaishou и Hailuo 02 от MiniMax вышли на качество, неотличимое от Veo 3 на повседневных промптах, при цене в 2–3 раза ниже. Runway Gen-4 удержала лидерство по controllability (Motion Brush, Director Mode), но проиграла по физике и аудио. Luma Ray2 закрепилась как «дешёвая lifestyle-камера», Pika 2.0 ушла в B2C-эффекты. Подробное сравнение с цифрами за секунду — в нашем разборе цены секунды по моделям.
Параметры нового стандарта: 6 метрик
Если в 2024 «хорошим AI-видео» считалось любое, где не плыли руки, то к маю 2026 у каждой платформы выработался де-факто чек-лист.
| Метрика | Старый стандарт (2024) | Стандарт 2026 |
|---|---|---|
| Native-аудио | Озвучка поверх немой картинки | Шаги, ambient, скрипы внутри генерации |
| Lip-sync (если есть речь) | Задержка 200–400 мс, рот не закрывается | Точно по фонеме, эмоция совпадает |
| Физика | Объекты «парят», нет инерции | Вес, масса, трение, ткань работают |
| Сцены без скачков | Каждые 2–3 сек артефакт | 8–10 сек подряд без сбоев |
| Разрешение | 720p upscale, мыло | 1080p нативно, 4K через upscaler |
| Длина сцены | 4–6 сек, монтаж склейками | 10–15 сек одним планом |
Эти шесть метрик в 2026 фактически разделяют YouTube Shorts на два потока: «качество» (попадает в Explore и сохраняется в рекомендациях) и «AI-slop» (получает охват в первые 24 часа и не продлевается). Каналы, которые ещё в 2025 жили на slideshow-формате с озвучкой ElevenLabs, к маю 2026 потеряли 40–70% органических показов.
Интересный side-effect: метрика «длина сцены» помогла именно AI-каналам. Раньше нужно было монтировать 5–7 коротких клипов в одном Short — теперь Veo 3.1 даёт 10-секундный single take с сюжетом, а Sora 2 в Pro — до 25 секунд. Видео стало смотреться как «снято камерой», а не «собрано из стоков». Подробно о том, как использовать длину для удержания, — в гайде по длине Shorts 60 секунд.
Что стало низкокачественным контентом в 2026
Давайте называть вещи именами. «AI-slop» — это не вкусовщина, а вполне измеряемая категория контента, которую алгоритмы YouTube, TikTok и Instagram сейчас активно метят.
Что триггерит классификацию:
- Slideshow из стока + AI-голос. Самый дешёвый формат 2023–2024 года. В мае 2026 такие Shorts получают AI-метку автоматически и охват в 3–8 раз ниже.
- Один и тот же синтетический голос на 50+ видео. Алгоритм распознаёт voiceprint и помечает аккаунт как «mass-produced channel».
- AI-видео без native-аудио (тишина или мьют). Veo 3.1 и Sora 2 умеют делать звук на проходе — отсутствие звука = маркер старого поколения моделей.
- Lip-sync с задержкой > 100 мс на talking-head. HeyGen Avatar IV в 2026 закрывает эту задержку, но дешёвые альтернативы — нет. Зритель замечает, и retention падает на 30–50% к 8-й секунде.
- Идеальная картинка без сюжета. «Cinematic AI» без идеи. Алгоритм видит низкое engagement (нет комментариев, нет шеров) и душит follow-up видео того же канала.
Как отдельно отметил Search Engine Journal в обзоре алгоритма YouTube 2026, «каждое изменение последних трёх лет двигалось в одну сторону: награждать контент, который зрители реально досматривают, и душить тот, что манипулирует метриками». Подробнее о метках и теневом бане — в нашем материале про AI-метки 2026.
Есть и приятная новость для русскоязычного сегмента: детекторы AI-slop пока хуже работают на не-английских аудиториях, поэтому RU-каналы могут позволить себе на 1–2 ступени более простой пайплайн без штрафа от алгоритма — но это окно закрывается, по нашим оценкам, к концу 2026.
Цена качества: Sora 2 vs Veo 3.1 vs стек Welder
Самый болезненный вопрос: «новый стандарт» — это сколько денег. Давайте по факту, в долларах и рублях на курс мая 2026.
Sora 2 через ChatGPT Plus — $20/мес. На 1 000 кредитов это ≈12 десятисекундных роликов в 720p, или ≈6 длинных в 10 сек на Plus-тире (в зависимости от настроек). Видео ≤ 10 секунд, разрешение 720×1280, без длинных Pro-возможностей.
Sora 2 Pro через ChatGPT Pro — $200/мес. 10 000 кредитов, до 1080p, до 20 секунд. Это уже «студийный» режим: ≈100–150 готовых вертикальных Shorts в месяц при бережном расходе.
Veo 3.1 через Google AI Pro — $19,99/мес, 1 000 кредитов. Десятисекундный ролик ест ≈125 кредитов — это ≈8 роликов в месяц на тире, или ≈$0,16 за секунду эффективной стоимости.
Veo 3.1 Fast / Lite через Vertex AI или Gemini API — $0,05–$0,10 за секунду. 10-секундный Short = $0,50–$1. Для серии из 30 Shorts за вечер — $15–30, в рублях это 1 350–2 700 ₽ на курсе мая.
Стек Welder — от 2 990 ₽/мес на стартовом тарифе. Внутри: сценарий GPT-5, голос ElevenLabs v3, сцены Veo 3.1 (или Veo 2 для бюджет-серий) и Kling 1.6 как fallback, обложка Recraft V3, склейка с субтитрами. На стартовом тарифе — ≈30 серий по 10 Shorts, то есть ≈300 готовых вертикальных видео в месяц по цене $1 за секунду генерации не получится у вас вообще нигде — наш фокус в композиции пайплайна, а не в самой модели.
Главная разница не в цене за секунду, а в том, что Sora 2 и Veo 3.1 продают «голую» генерацию: вы получаете 10-секундный клип. Welder отдаёт смонтированный вертикальный ролик со сценарием, голосом, обложкой и серией под канал. Полная экономика — на странице тарифов.
Интересный кейс: после релиза Sora 2 в октябре 2025 в App Store США приложение собрало 164 000 загрузок за 48 часов, но к январю 2026 download-вые упали на 45% MoM, а revenue — с пика $540 000 в декабре до $367 000 в январе. Tom's Guide объяснил это просто: «голая» модель без сценария и серийности не закрывает задачу креатора, а только показывает фокус. Каналы, которые попробовали жить на чистой Sora 2, столкнулись с тем, что 10 секунд ≠ готовый Short.
Как держать новый стандарт без $200/мес тарифа
Хорошие новости: новый стандарт — это не про самую дорогую модель, это про композицию. Шесть метрик из таблицы выше держатся на разных кусках пайплайна, а не на одной кнопке.
Что работает в мае 2026 на бюджете до 5 000 ₽/мес:
- Сценарий — GPT-5 или Claude 4.7. Не Suno-промпт «сделай интересный Short», а структура из 6 битов на 60 секунд с конкретными визуальными зарисовками для каждой сцены. Один уникальный сценарий = один не-slop ролик.
- Голос — ElevenLabs v3 с разной эмоцией. Не один speaker_id на 50 роликов. Меняйте preset (calm/excited/whisper) под сценарий — это спасает от voiceprint-фильтра.
- Видео — Veo 3.1 Fast для talking-сцен, Kling 3 для action, Veo 2 для бюджетных филлеров. Микс моделей внутри одной серии стоит дешевле, чем всё на Sora 2 Pro, и даёт визуальное разнообразие.
- Аудио — нативно из Veo 3.1, дополнительно Suno v4 для саундтрека. Не оставляйте видео без звука. Даже простой ambient из Veo 3.1 ставит видео в категорию «качество».
- Хук в первой секунде. Без него остальные пять метрик не имеют значения — зритель свайпнет до того, как увидит ваш cinematic shot. См. 12 формул хуков AI-Shorts.
- Серия, не одиночки. Один Short хорошего качества — это эксперимент. Серия из 30 однотипных за неделю — это канал. Шаблон, который мы используем сами, — в материале про серию из 30 Shorts.
Один концептуальный сдвиг для понимания: в 2024 каждый креатор сам комбинировал модели. В 2026 это уже не масштабируется — слишком много инструментов, слишком быстрый темп релизов. Поэтому studio-pipelines (Captions, InVideo, Pictory, Welder) забирают долю у моделей-as-a-service. Сравнение четырёх студий — в обзоре AI-видео под ключ 2026.
Что делать прямо сейчас
Практический чек-лист, если ваш канал делает AI-Shorts и охваты в мае-2026 проседают:
- Откройте 5 последних Shorts и пройдитесь по таблице 6 метрик. Сколько из них вы держите на 6/6? На 4/6? Если меньше 4 — алгоритм уже учитывает это в ranking-сигнале, охваты будут падать дальше.
- Проверьте native-аудио. Сцены без звука или с тихим mute поверх AI-голоса — главный маркер старого пайплайна. Перейдите на Veo 3.1 (Vertex / Welder) или Sora 2 Plus как минимум для 30% сцен в каждом ролике.
- Унификация голоса — ваш враг. Если все 50 Shorts на одном speaker_id ElevenLabs без вариаций эмоции, добавьте 2–3 дополнительных preset и распределите.
- Закройте длину сцены. Если до сих пор монтируете из 4-секундных кусков — попробуйте 1–2 длинных сцены по 10–12 секунд в Veo 3.1 за ролик. Retention обычно вырастает на 10–20% на этом одном изменении.
- Сделайте честный AI-disclosure. Метка в YouTube Studio + disclaimer в описании = защита от deranking. Каналы без меток в 2026 попадают в shadow-ban волнами при апдейтах алгоритма (последний — март 2026).
Запустить серию по новому стандарту — 10 готовых вертикальных Shorts на любую тему за 90 секунд: сценарий GPT-5, голос ElevenLabs v3, сцены Veo 3.1 / Kling 3 / Veo 2 в нужном миксе, обложка Recraft V3. Бесплатный старт без карты, серия на 60 секунд из коробки.