Промпт Veo 3.1 в 2026: 5-слойная формула под Shorts

Слой за слоем: герой, действие, камера, свет, стиль. Готовая шпаргалка под Shorts для YT, TikTok, Reels и VK.

Главное за 30 секунд

В 2026 у вас есть три флагмана видео-генерации: Veo 3.1 от Google DeepMind, Sora 2 от OpenAI и Kling 3.0 от Kuaishou. Все три ждут структурированный промпт — и наказывают пустые «сгенерируй мне ролик про космос» 5-секундным шумом без сцены.

Рабочая формула в 2026 — 5 слоёв: герой, действие, камера, свет, стиль. Объём — 100–150 слов в одном промпте. Прибавьте отдельный negative prompt для Kling и audio-секцию для Sora 2 — и retention 70%+ вытаскивается уже на третьем ролике, без сорока итераций.

Ниже — анатомия пяти слоёв, как они меняются между моделями и где Welder подставляет их автоматически.

Почему «опиши, что в кадре» больше не работает

Когда Veo 3 вышел в 2024 году, на нём ещё работали короткие промпты в 30 слов. К 2026 база обучающих данных моделей выросла на порядок и обучение пошло на кино- и сценарной метадате: модели лучше реагируют на терминологию режиссёра, чем на бытовое описание сцены.

Все три флагмана 2026 — Veo 3.1, Sora 2, Kling 3.0 — официально рекомендуют 100–150 слов и 3–6 предложений в одном промпте. Google в своём prompting guide для Veo 3.1 прямо называет эту длину «оптимальной», OpenAI в гайде по Sora 2 — «cinematic minimum». Меньше — модель «дописывает» слои на свой вкус. Больше — путается в приоритетах и теряет детали к концу промпта.

Хороший промпт в 2026 — это шот-лист в одном абзаце, а не описание сцены в свободной форме. Это значит — формула.

5 слоёв: что они и в каком порядке

Слои пишутся строго: пропустить — можно, поменять местами — нельзя. Модель парсит их позиционно и приоритезирует первое упоминание.

Слой	Что туда писать	Пример
1. Герой	Конкретный subject: возраст, одежда, эмоция, узнаваемая черта	«Седой моряк лет 60, в чёрной куртке, прищурился»
2. Действие	Что делает; в каком ритме; через что проходит	«Медленно затягивает узел на канате»
3. Камера	Тип шота, движение, фокусное; lens-метафоры	«Medium shot, 35mm, slow push-in»
4. Свет	Цвет, температура, контраст; mood	«Холодный синий рассвет, лёгкий backlight»
5. Стиль	Эстетика, текстура, film-grain, аудио (Sora 2 и Veo)	«Cinematic, лёгкая зерна 16mm, ambient sea wind»

Собрать в одном абзаце: «Седой моряк лет 60 в чёрной куртке, прищурившись, медленно затягивает узел на канате. Medium shot 35mm, slow push-in. Холодный синий рассвет, лёгкий backlight. Cinematic, зерна 16mm, ambient sea wind, no music».

Девяносто слов в развёрнутой версии, шестьдесят — в краткой. Любая из них стартует на Veo 3.1, Sora 2, Kling 3.0 одинаково — модели обучены на близкой грамматике.

Как 5 слоёв меняются под каждую модель

Формула одна, акценты разные. Что важно знать в 2026 году:

Veo 3.1 (Google DeepMind). Лучше всего реагирует на цинематографическую терминологию: «crane shot», «Dutch angle», «rack focus», «golden hour». Veo 3.1 ведёт по prompt-adherence и audio-генерации — модель генерирует звук синхронно с изображением, если упомянуть аудио прямо в слое 5. Длина клипа — до 8 секунд в одном проходе.

Sora 2 (OpenAI). Сильна в эмоциях и сложной физике движения («бегущий пёс через ветви», «капля воды в slow-mo»). Lens-метафоры работают лучше базовых углов: «50mm portrait look» точнее, чем «medium shot». Длина клипа — до 20 секунд против 8 у Veo 3.1. Sora 2 разделяет визуал и звук в обработке — выделите аудио-фразу отдельной секцией «Audio: ambient + dialogue».

Kling 3.0 (Kuaishou). Открытая negative-prompt секция: можно отдельно указать «no sliding feet, no distorted hands, no morphing background». Без неё Kling в 2026 даёт около 15% «плавающих рук» в кадре. Также воспринимает motion-intensity параметр (0.3 = subtle, 1.0 = dramatic) — управления нет ни у Veo, ни у Sora.

Runway Gen-4 и Pika 2.0. Те же пять слоёв работают, но обе модели уступают тройке по adherence — на сложных шотах придётся 2–3 итерации. Hailuo 02 (MiniMax) и Luma Ray2 — отстающая лига для коротких видео в 2026.

Подробнее про параметры самого кадра (фокус, угол, lens, движение камеры) — в 10 параметрах кадра в Veo 3.1. Эта статья — про синтаксис промпта; та — про лексикон камеры внутри слоя 3.

Пример: разворачиваем «городовой XIX века в Петербурге»

Для канала исторической мистики мы развернули один кадр по формуле и сравнили его с типичным «бытовым» промптом.

Плохой промпт (28 слов):

«Городовой XIX века стоит на улице Петербурга и смотрит вдаль. Туман. Кинематографично, тёмные тона. 4K, реалистично».

Что выдаст Veo 3.1: средний кадр случайного актёра в стилизованной форме, неестественный задний план, рассинхрон одежды между шотами. Зерно есть, но непонятно какое. Звука нет.

Хороший промпт (118 слов, 5 слоёв):

«Герой: Городовой 45 лет в тёмно-зелёной шинели с латунными пуговицами, седые усы, шашка на левом боку, фуражка с кокардой Российской империи. Усталое настороженное лицо. Действие: Медленно поворачивает голову влево, всматривается в туман на дальнем конце Литейного проспекта, рука кладётся на эфес шашки. Камера: Medium close-up, 50mm, фиксированная — лёгкое дыхание камеры в руках. Свет: Холодный синевато-зелёный, поздние сумерки около 22:00 петербургской белой ночи, свет газовой лампы справа создаёт мягкий rim-light на шинели. Стиль: Cinematic, лёгкая зерна 35mm, приглушённая палитра. Audio: ambient — далёкий цокот копыт, ветер, едва слышный гудок парохода с Невы».

Что меняется. Veo 3.1 берёт лицо ближе, шинель в кадре полностью, рука доходит до эфеса синхронно с поворотом головы. Газовая лампа даёт корректный rim-light. Звук подмешивается без отдельного аудио-пайплайна. Готовый кадр — 80% попадание с первой генерации, против 20–30% у короткого промпта.

Цена этой разницы — 90 секунд на написание промпта, экономия — 4–6 итераций по 60 секунд каждая.

Что бывает, когда слой опущен

Каждый из пяти слоёв страхует от конкретного класса ошибок. Уберите его — и модель закроет дыру случайной интерпретацией.

Без слоя 1 (Герой). Лицо «плывёт» между шотами: возраст, причёска, одежда меняются от кадра к кадру. Это главный убийца сериала.
Без слоя 2 (Действие). Герой замирает или совершает случайные микро-движения. Динамика теряется, кадр воспринимается как картинка.
Без слоя 3 (Камера). Модель выбирает дефолтный medium shot, фронтально. Серия становится плоской — нет смены планов между шотами.
Без слоя 4 (Свет). Свет всегда «нейтрально-дневной»; кадр выглядит дёшево, бренд канала не считывается. Это второй главный сигнал «AI-ролика».
Без слоя 5 (Стиль). Эстетика дрейфует от шота к шоту: то фотореалистично, то мультяшно. Без явного указания «cinematic 35mm grain» модель смешивает референсы.

Так что вопрос не «можно ли пропустить слой» — а «какой класс ошибок вы готовы пропустить».

Шот-лист серии: как 5 слоёв стыкуются между кадрами

Один промпт = один шот 5–8 секунд. Эпизод AI-Short — это 6–12 шотов подряд. Чтобы герой не «плавал» между ними, в каждом промпте слой 1 (Герой) дублируется слово-в-слово. То же касается слоя 4 (Свет), если действие не предполагает смены освещения, и слоя 5 (Стиль) во всех случаях.

Это не story-bible — это шот-листинг. Между шотами меняется только слой 2 (Действие) и иногда слой 3 (Камера). Свет, герой, стиль — закреплены.

Как держать персонажа консистентным через 60 шотов — гайд про сохранение героя в Veo 3.1, Sora 2 и Kling 3. Как строить мир и канон серии — story bible AI-канала. Как из шотов собрать ролик с retention 70% — формула 7-3-30.

Negative prompt: 12 строк, которые экономят 30 минут

Negative prompt в 2026 — обязательная часть для Kling 3.0 и сильно повышает качество в Veo 3.1. Sora 2 пока negative-prompt не поддерживает явно — пишем в основном промпте «no X».

Базовая болванка под AI-Shorts:

Negative: motion blur, face distortion, warping, morphing,
inconsistent physics, floating objects, extra limbs,
sliding feet, distorted hands, text glitches on signs,
unstable camera, plastic skin texture

Эти 12 пунктов закрывают около 80% типовых артефактов AI-видео в 2026. Длиннее делать не нужно — Kling 3.0 в своём prompting guide рекомендует «3–5 целевых пунктов» в каждом конкретном кадре, не общую простыню.

Не путайте: negative prompt — не для «уберите logo TikTok», а для технических артефактов. Сюжетные элементы («no blood», «no children») пишутся в основном слое стиля.

Что Welder делает с этим за вас

Прописывать пять слоёв вручную для серии в 30 эпизодов — 90 минут работы плюс отладка артефактов. Welder идёт от обратного: вы даёте нишу и тему («канал русских городских легенд, эпизод про подземелья Москвы»), пайплайн строит story bible, нарезает на шот-лист из 8–12 кадров, и под каждый кадр собирает 5-слойный промпт автоматически. Герой и свет дублируются через шоты, действие меняется, negative prompt подставляется из шаблона жанра.

Сравнение подхода в цифрах:

Подход	Время на эпизод	Контроль над промптом	Консистентность героя	Стоимость 2026
Ручной (Veo Studio + ChatGPT GPT-5)	90–180 мин	Полный	Зависит от вас	$50–150/мес доступ
Claude Sonnet 4.6 как промпт-помощник	40 мин	Частичный	Часто плывёт	$20/мес доступ
Welder AI	5 мин	Шаблонный + override	Закреплена в bible	от 290 ₽/серия

Welder проигрывает там, где вы хотите авторский экспериментальный промпт — на это лучше Veo Studio с ручным управлением. Welder выигрывает на потоке: один канал, 60 эпизодов в месяц, ровный темп без выгорания.

Тарифы и пресеты — внутри. Промпт-шаблон 5 слоёв уже подставлен в каждый ролик пайплайна; вы редактируете итог, а не пишете с чистого листа.

Чек-лист перед запуском промпта

Слой 1 (Герой) — 6–10 конкретных слов: возраст, одежда, эмоция, узнаваемая деталь.
Слой 2 (Действие) — глагол + ритм + объект; никаких «делает что-то».
Слой 3 (Камера) — тип шота + движение; lens (35mm, 50mm) необязательно, но повышает adherence.
Слой 4 (Свет) — цветовая температура + источник + mood.
Слой 5 (Стиль) — эстетика + grain/texture + audio (для Sora 2 и Veo 3.1).
Negative — 8–12 пунктов антиартефактов (для Kling 3.0 обязательно).
Длина — 100–150 слов; в шот-листе всей серии слои 1, 4, 5 дублируются.

Если хотя бы один слой пропущен — модель додумает на свой вкус, и герой через три шота превратится в кого-то другого. Дублирование слоёв 1 и 4 — главный приём 2026 года против «плавания» персонажа между кадрами.

Что делать прямо сейчас

Возьмите свой следующий шот, разверните его по формуле, прогоните на Veo 3.1. Сохраните пять слоёв как пресет. Через 10–20 промптов у вас сложится свой шот-словарь, который будет работать и в Sora 2, и в Kling 3.0, и в Welder.

Если 90 минут на эпизод — для вас слишком много, делегируйте сборку промпта пайплайну Welder и сосредоточьтесь на сценарии и хуке.

Сгенерировать первый эпизод в Welder →