Промпты Veo 3.2 для Shorts 2026: 9 паттернов вертикали

Шестислойная структура промпта, 9 проверенных шаблонов и сравнение с Sora 2 и Kling 3 для AI-Shorts.

Главное за 30 секунд

Май 2026: Veo 3.1 уже даёт нативный звук, lip-sync и стабильно держит 8-секундную сцену в вертикали 9:16, Sora 2 ушла до 25 секунд связного клипа, а Kling 3 от Kuaishou опустил цену до $6.99/мес и добавил Motion Brush для контроля движения. Это новая база для AI-Shorts. Но без промпт-структуры даже Veo 3.2 на выходе даёт AI-slop — затёртое нейросетевое мыло без хука и ритма.

В Welder за полгода прошло через Veo 3 / Veo 2 более 140 000 клипов в RU-вертикали. Из этого выкристаллизовалось девять паттернов, которые стабильно дают приличный рендер — и в нашем пайплайне, и если вы делаете ручную генерацию через Vertex AI, Gemini API или Runway Gen-4 как fallback.

Ниже — анатомия промпта, девять шаблонов под разные жанры Shorts, сравнительная таблица с Sora 2 и Kling 3, чек-лист перед запуском и расчёт стоимости серии в трёх сценариях.

Что изменилось в Veo 3.2 (и почему промпты — другие)

Январь 2026, инсайдер @bedros_p запостил скриншот: «Veo 3.2 has made its way into some services». Google официальной даты не объявил, но утечки и логи Vertex AI сходятся в четырёх изменениях:

Длина сцены растёт с 8 до 30 секунд за один промпт — за счёт «Enhanced Spacetime Patches». Это меняет драматургию: больше не нужно резать историю на три клипа по 8 секунд.
Native 4K. Модель рендерит мелкие детали (поры, капли, волосы) сразу в 4K, а не апскейлит из 1080p. Для Shorts вы всё равно отдаёте 1080×1920, но артефактов становится меньше.
Artemis Engine и World Model — физика жидкостей, объектная постоянность, lip-sync на нескольких говорящих в одном кадре.
Ingredients 2.0 — character locking, который удерживает лицо и одежду через несколько сцен серии.

Что не меняется: правило «один субъект — одно движение камеры — одна расплата кадром». Оно работало в Veo 3, работает в Veo 3.1, останется в Veo 3.2. И — почти дословно — лежит в основе официального промпт-гайда Sora 2. Подходы у моделей сближаются.

Анатомия промпта для вертикальных Shorts

Любой стабильный промпт под AI-Shorts держится на шести слоях. Veo 3.1 через DeepMind и Sora 2 через cookbook OpenAI рекомендуют ровно такую структуру.

Формат — vertical 9:16, 1080x1920, mobile-first composition. Первая строка промпта.
Сцена и сеттинг — где, когда, погода, цвет неба, время суток, фактура локации.
Субъект — кто в кадре, как одет, эмоция, поза. Одно лицо — не три.
Камера — один ракурс (low-angle, overhead, dutch tilt) плюс одно движение (push-in, tracking, pull-back). Не «камера летает».
Свет и палитра — направление света, key/fill, два доминирующих цвета.
Звук — для Veo 3+ и Sora 2: ambient, foley, музыкальная подсказка по жанру или темпу.

Критично — avoid-блок. Veo 3.1 хорошо реагирует на негативные команды: avoid extra limbs, no glitch morphs, no jump cuts within clip, no text overlays. Без avoid-блока на каждом 3–4 рендере вылезает шестипалая рука или морфинг лица.

Sora 2 раскладывает то же самое жёстче: Style → Scene → Photography → Lighting → Action → Dialogue → Sound. Kling 3 — мягче по тексту, но просит Motion Brush для надёжного движения и negative_prompt параметром в API.

Девять рабочих паттернов промптов Veo 3.2

Каждый паттерн — шаблон под заполнение переменными. Тестировано на Welder в RU-вертикали в мае 2026; рендер по умолчанию — Veo 3.1, под Veo 3.2 поменяется только длина сцены и фраза про native 4K.

Паттерн 1. Реакция крупным планом (для хука)

Vertical 9:16, 1080x1920, mobile-first.
Extreme close-up of a young woman's eyes, dim warm light from the right,
shallow depth of field (50mm lens look), her pupils widen suddenly.
Camera holds, no movement. Subtle vinyl crackle ambient.
Avoid: extra limbs, glitch morph, on-screen text.

Зачем: первые 0.5 секунды — взгляд плюс микроэмоция. По нашему A/B на 200+ роликах удержание на хуке растёт на 18–24% против стандартного wide-кадра. Подробнее — в гайде про 12 шаблонов первых 3 секунд.

Паттерн 2. Tracking-shot предмета

Vertical 9:16. Low-angle tracking shot following a ceramic cup of black coffee
being slid across a wooden counter. Morning light from window-left, cinematic.
Camera dollies smoothly alongside subject, 1 second move. Sound: cup gliding
on wood, distant cafe ambient. Avoid: jitter, text overlays.

Зачем: B-roll, который не выглядит как сток. Универсал под кофе, быт, lifestyle. В Sora 2 этот же шот часто выходит более фотореалистичным, но Veo 3.1 точнее держит звук в синхроне с движением.

Паттерн 3. Вертикальный пейзаж с push-in

Vertical 9:16, 1080x1920. Aerial vertical shot of snowy mountain ridge at
golden hour, push-in toward a lone wooden cabin with smoke from chimney.
Cold-warm contrast palette (cyan-orange). Cinematic. Sound: wind, distant
raven call. Avoid: jump cuts, lens flares, motion blur on subject.

Зачем: атмосферный шот под voiceover. Работает в нишах «факты», «история», «путешествия», «эзотерика».

Паттерн 4. Subject в действии (диалоговая болванка)

Vertical 9:16. Medium close-up of a 30-year-old man in a black hoodie sitting
at a desk, speaking to camera. Natural office daylight from left, soft
shadows. He gestures with his right hand once. Lip-sync ready for VO track.
Audio: room tone, light keyboard tapping background.
Avoid: glitch morph, hand fusion, extra fingers.

Зачем: talking-head без HeyGen Avatar IV и Synthesia, когда нужны один-два экспертных кадра. У Veo больше живой микромимики, чем у HeyGen, — но HeyGen точнее в lip-sync на длинных сценах. Если планируете масштабироваться на talking-head — стоит сравнить с HeyGen Avatar IV и Synthesia напрямую.

Паттерн 5. Сцена-метафора (под эмоциональный пик)

Vertical 9:16. Slow-motion shot of a single droplet falling into still black
water, ripples expanding outward. Studio lighting, top-down angle. Macro lens
feel. Sound: water drop, low cinematic drone. Avoid: extra ripples, color
shift, splash distortion.

Зачем: визуальная пауза перед punchline. В роликах с метафорой посередине удержание +9% к контрольной группе по нашему внутреннему тесту на 60 каналах.

Паттерн 6. Серия из трёх микросцен (под сторителлинг)

Vertical 9:16, total 8 seconds, three hard cuts.
Clip A (3s): hand reaching for door handle, dim hallway.
Clip B (2s): close-up of eyes widening.
Clip C (3s): wide shot of empty corridor, door slowly closing.
Consistent character: woman, late 20s, beige coat.
Sound: footstep, breath, door creak. Avoid: continuity break, face morph.

Зачем: storytelling в 8 секундах. Под жанры «короткая история», mystery, мифология, true crime. С приходом Veo 3.2 эти три клипа можно генерить за один промпт без склейки, но character lock всё равно стоит дублировать.

Паттерн 7. Текстовая сцена (карточка с одной фразой)

Vertical 9:16. Static minimal scene: single white text on deep navy
background, slight grain texture, subtle vignette. Text: "[YOUR LINE]".
Cinematic. Sound: ambient drone, single low piano note. Avoid: typography
artifacts, flicker, color shift on text.

Зачем: «слайд-пауза» между сценами. Veo держит чёткий текст в кадре лучше, чем Sora 2, — но всё равно надёжнее класть текст оверлеем после рендера в CapCut или DaVinci. Текст в кадре всё равно даёт +27% удержания в TikTok и Reels по нашим A/B — но это уже про монтаж, не про промпт.

Паттерн 8. Гипер-реалистичный POV

Vertical 9:16. First-person POV: walking down narrow Tokyo alley at night,
neon reflections on wet asphalt, slight head bob. 35mm lens, low-light.
Sound: distant traffic, footsteps, rain. Avoid: floaty camera, extra limbs in
frame, mirror double.

Зачем: погружение, ниши травел, городские lo-fi, эстетика. Sora 2 здесь часто выигрывает по фотореализму, но Veo лучше синхронит звук шагов — audio запекается в той же модели, что и кадр.

Паттерн 9. Финальный CTA-кадр (концовка)

Vertical 9:16. Static minimal product shot: smartphone in hand, screen lit
with glowing yellow gradient (#ffd60a accent). Top-down 45-degree angle.
Soft daylight. Hold 2 seconds, no camera move. Sound: gentle UI tap, ambient
room tone. Avoid: brand logos, on-screen text, hand distortion.

Зачем: чистый last-frame под наложение CTA в редактуре поста. Текст и иконку добавите в CapCut поверх кадра — модель не должна знать про CTA.

Veo 3.2 vs Sora 2 vs Kling 3: как промпт меняется по моделям

Один и тот же сценарий потребует разной структуры промпта в зависимости от модели. Базовые отличия — в таблице.

Параметр	Veo 3.2 (по утечкам)	Sora 2	Kling 3
Макс. длина сцены	30 сек (8 в Veo 3.1)	до 25 сек	6 шотов до ~30 сек
Нативный звук	Да: foley + lip-sync	Да: диалог + ambient	Через voice-control add-on (+2 кр/сек)
Структура промпта	Нарративная, ~120 слов	Жёсткая: Style → Scene → Photo → Light → Action → Sound	Свободная + Motion Brush
Aspect 9:16	Указывать первой строкой	В блоке Photography	Параметром в API
Negative prompts	`avoid: …`	секция `Avoid:`	`negative_prompt`
Цена 8-сек клипа (1080p, аудио)	~$0.50 (Vertex AI)	внутри ChatGPT Plus $20/мес	~96 кредитов = $0.96–1.2
Lip-sync на длинных сценах	Лучше всех	Хорошо до ~10 сек	Через add-on, нестабильно
Контроль движения	Текстом	Текст + reference image	Motion Brush (рисуете путь)
Доступ из РФ	Vertex AI + VPN/прокси	ChatGPT Plus + VPN	Прямой kling.ai

Sora 2 даёт лучший фотореализм кадра. Veo 3.2 — лучший lip-sync и audio-coherence. Kling 3 — лучший контроль конкретного движения через Motion Brush. В Welder мы остановились на Veo 3.1 как базовой модели и Veo 2 / Kling 1.6 как fallback'ах под разные жанры. Подробное сравнение длительности — в статье про клипы длиннее 8 секунд.

Стоимость одной серии

Допустим, делаем серию из 10 Shorts по 30 секунд. На каждый Short — около 4 клипов Veo по 8 секунд. Итого 40 рендеров.

Чистый Vertex AI (Veo 3.1): 40 × $0.50 ≈ $20 за серию плюс ElevenLabs-голос (~$5) и ручная склейка в CapCut или DaVinci.
Kling 3 Standard ($10/мес): 660 кредитов, 40 клипов × ~96 = 3840 кредитов — не хватает, нужен Premier $64.99/мес.
Sora 2 через ChatGPT Plus ($20/мес): дневные лимиты по числу клипов и формальные политики по чужим персонажам.
Welder: от 290 ₽ за стартовую серию, рендер + ElevenLabs + сборка + хук-карточки уже включены. Считайте по своей серии и сравните с тарифами Welder.

Это не реклама — это математика. Одна серия в неделю — выгоднее Vertex AI напрямую. Пять серий и больше — пайплайн с авто-сборкой выигрывает по часам команды.

Чек-лист перед запуском генерации

Перед тем как отправить промпт в Veo 3.2, пройдитесь:

Если хоть один пункт пропущен — будет либо AI-slop, либо перерасход. Полный разбор виральных AI-Shorts — в гайде по реверс-инжинирингу.

Антипаттерны: что НЕ работает в Veo 3.2

За полгода рендеров мы собрали короткий список промпт-конструкций, которые стабильно ломают вывод. Если узнали свой — перепишите перед следующим прогоном.

«Cinematic 4K hyperrealistic ultra-detailed photorealistic». Стопка эпитетов уже не помогает, начиная с Veo 3.1. Вместо качества вы получаете overcooked-картинку с пластиковой кожей. Достаточно одного слова: cinematic или documentary look.
«The character walks, runs, jumps, looks around, smiles». Несколько действий в одной сцене ломают анимацию. Правило одно: одно действие в кадре, точка. Если нужно больше — это уже серия из микросцен (паттерн 6).
Имена реальных людей или брендов — Veo, Sora 2 и Kling 3 одинаково триггерят safety-фильтр или выдают искажённые черты. Описывайте архетип: «30-летний бариста в фартуке», а не «выглядит как Дуэйн Джонсон».
Длинный промпт «на все случаи». 350-словный монолит модель режет на куски, теряя фокус. Держитесь 80–120 слов и одной идеи.
Игнорирование звука. Если не указать silent или ambient, Veo 3.1 добавит фоновую музыку или озвучку «от себя» — обычно мимо настроения. Всегда задавайте звук в промпте явно, даже если планируете заменить дорожку на ElevenLabs позже.

Эти ошибки выползают чаще, чем кажется — особенно у тех, кто переехал с Runway Gen-4 или Pika 2.0, где промпт-стиль был более «свободным».

Что делать сегодня

Откройте свой последний AI-Short и сравните его промпт с шестислойной структурой выше. В восьми из десяти случаев пропущен либо звуковой слой, либо avoid-блок, либо камера описана двумя-тремя движениями одновременно. Это не модель плохая — промпт раскладывает её на random.

Прогоните любой из девяти паттернов через Welder: мы используем Veo 3.1 как дефолт и переключаемся на Veo 2 или Kling 1.6 в зависимости от жанра. Структура промптов прозрачная — вы видите, что уходит в модель, и можете отредактировать перед рендером. Хорошие промпты — половина продакшна; вторая половина — хук, ритм, концовка, и это уже другой разговор.

Промпт сам по себе не запустит канал. Запустит серия. Соберите первую серию в Welder сегодня — войдите и переходите в дашборд: вы выбираете нишу, мы складываем сценарий, голос ElevenLabs, рендер на Veo 3.1 и финальную сборку с обложкой. Все девять паттернов выше уже встроены в пресеты сцен, и avoid-блок добавляется автоматически.