Главное за 30 секунд
Май 2026: Veo 3.1 уже даёт нативный звук, lip-sync и стабильно держит 8-секундную сцену в вертикали 9:16, Sora 2 ушла до 25 секунд связного клипа, а Kling 3 от Kuaishou опустил цену до $6.99/мес и добавил Motion Brush для контроля движения. Это новая база для AI-Shorts. Но без промпт-структуры даже Veo 3.2 на выходе даёт AI-slop — затёртое нейросетевое мыло без хука и ритма.
В Welder за полгода прошло через Veo 3 / Veo 2 более 140 000 клипов в RU-вертикали. Из этого выкристаллизовалось девять паттернов, которые стабильно дают приличный рендер — и в нашем пайплайне, и если вы делаете ручную генерацию через Vertex AI, Gemini API или Runway Gen-4 как fallback.
Ниже — анатомия промпта, девять шаблонов под разные жанры Shorts, сравнительная таблица с Sora 2 и Kling 3, чек-лист перед запуском и расчёт стоимости серии в трёх сценариях.
Что изменилось в Veo 3.2 (и почему промпты — другие)
Январь 2026, инсайдер @bedros_p запостил скриншот: «Veo 3.2 has made its way into some services». Google официальной даты не объявил, но утечки и логи Vertex AI сходятся в четырёх изменениях:
- Длина сцены растёт с 8 до 30 секунд за один промпт — за счёт «Enhanced Spacetime Patches». Это меняет драматургию: больше не нужно резать историю на три клипа по 8 секунд.
- Native 4K. Модель рендерит мелкие детали (поры, капли, волосы) сразу в 4K, а не апскейлит из 1080p. Для Shorts вы всё равно отдаёте 1080×1920, но артефактов становится меньше.
- Artemis Engine и World Model — физика жидкостей, объектная постоянность, lip-sync на нескольких говорящих в одном кадре.
- Ingredients 2.0 — character locking, который удерживает лицо и одежду через несколько сцен серии.
Что не меняется: правило «один субъект — одно движение камеры — одна расплата кадром». Оно работало в Veo 3, работает в Veo 3.1, останется в Veo 3.2. И — почти дословно — лежит в основе официального промпт-гайда Sora 2. Подходы у моделей сближаются.
Анатомия промпта для вертикальных Shorts
Любой стабильный промпт под AI-Shorts держится на шести слоях. Veo 3.1 через DeepMind и Sora 2 через cookbook OpenAI рекомендуют ровно такую структуру.
- Формат —
vertical 9:16, 1080x1920, mobile-first composition. Первая строка промпта. - Сцена и сеттинг — где, когда, погода, цвет неба, время суток, фактура локации.
- Субъект — кто в кадре, как одет, эмоция, поза. Одно лицо — не три.
- Камера — один ракурс (low-angle, overhead, dutch tilt) плюс одно движение (push-in, tracking, pull-back). Не «камера летает».
- Свет и палитра — направление света, key/fill, два доминирующих цвета.
- Звук — для Veo 3+ и Sora 2: ambient, foley, музыкальная подсказка по жанру или темпу.
Критично — avoid-блок. Veo 3.1 хорошо реагирует на негативные команды: avoid extra limbs, no glitch morphs, no jump cuts within clip, no text overlays. Без avoid-блока на каждом 3–4 рендере вылезает шестипалая рука или морфинг лица.
Sora 2 раскладывает то же самое жёстче: Style → Scene → Photography → Lighting → Action → Dialogue → Sound. Kling 3 — мягче по тексту, но просит Motion Brush для надёжного движения и negative_prompt параметром в API.
Девять рабочих паттернов промптов Veo 3.2
Каждый паттерн — шаблон под заполнение переменными. Тестировано на Welder в RU-вертикали в мае 2026; рендер по умолчанию — Veo 3.1, под Veo 3.2 поменяется только длина сцены и фраза про native 4K.
Паттерн 1. Реакция крупным планом (для хука)
Vertical 9:16, 1080x1920, mobile-first.
Extreme close-up of a young woman's eyes, dim warm light from the right,
shallow depth of field (50mm lens look), her pupils widen suddenly.
Camera holds, no movement. Subtle vinyl crackle ambient.
Avoid: extra limbs, glitch morph, on-screen text.
Зачем: первые 0.5 секунды — взгляд плюс микроэмоция. По нашему A/B на 200+ роликах удержание на хуке растёт на 18–24% против стандартного wide-кадра. Подробнее — в гайде про 12 шаблонов первых 3 секунд.
Паттерн 2. Tracking-shot предмета
Vertical 9:16. Low-angle tracking shot following a ceramic cup of black coffee
being slid across a wooden counter. Morning light from window-left, cinematic.
Camera dollies smoothly alongside subject, 1 second move. Sound: cup gliding
on wood, distant cafe ambient. Avoid: jitter, text overlays.
Зачем: B-roll, который не выглядит как сток. Универсал под кофе, быт, lifestyle. В Sora 2 этот же шот часто выходит более фотореалистичным, но Veo 3.1 точнее держит звук в синхроне с движением.
Паттерн 3. Вертикальный пейзаж с push-in
Vertical 9:16, 1080x1920. Aerial vertical shot of snowy mountain ridge at
golden hour, push-in toward a lone wooden cabin with smoke from chimney.
Cold-warm contrast palette (cyan-orange). Cinematic. Sound: wind, distant
raven call. Avoid: jump cuts, lens flares, motion blur on subject.
Зачем: атмосферный шот под voiceover. Работает в нишах «факты», «история», «путешествия», «эзотерика».
Паттерн 4. Subject в действии (диалоговая болванка)
Vertical 9:16. Medium close-up of a 30-year-old man in a black hoodie sitting
at a desk, speaking to camera. Natural office daylight from left, soft
shadows. He gestures with his right hand once. Lip-sync ready for VO track.
Audio: room tone, light keyboard tapping background.
Avoid: glitch morph, hand fusion, extra fingers.
Зачем: talking-head без HeyGen Avatar IV и Synthesia, когда нужны один-два экспертных кадра. У Veo больше живой микромимики, чем у HeyGen, — но HeyGen точнее в lip-sync на длинных сценах. Если планируете масштабироваться на talking-head — стоит сравнить с HeyGen Avatar IV и Synthesia напрямую.
Паттерн 5. Сцена-метафора (под эмоциональный пик)
Vertical 9:16. Slow-motion shot of a single droplet falling into still black
water, ripples expanding outward. Studio lighting, top-down angle. Macro lens
feel. Sound: water drop, low cinematic drone. Avoid: extra ripples, color
shift, splash distortion.
Зачем: визуальная пауза перед punchline. В роликах с метафорой посередине удержание +9% к контрольной группе по нашему внутреннему тесту на 60 каналах.
Паттерн 6. Серия из трёх микросцен (под сторителлинг)
Vertical 9:16, total 8 seconds, three hard cuts.
Clip A (3s): hand reaching for door handle, dim hallway.
Clip B (2s): close-up of eyes widening.
Clip C (3s): wide shot of empty corridor, door slowly closing.
Consistent character: woman, late 20s, beige coat.
Sound: footstep, breath, door creak. Avoid: continuity break, face morph.
Зачем: storytelling в 8 секундах. Под жанры «короткая история», mystery, мифология, true crime. С приходом Veo 3.2 эти три клипа можно генерить за один промпт без склейки, но character lock всё равно стоит дублировать.
Паттерн 7. Текстовая сцена (карточка с одной фразой)
Vertical 9:16. Static minimal scene: single white text on deep navy
background, slight grain texture, subtle vignette. Text: "[YOUR LINE]".
Cinematic. Sound: ambient drone, single low piano note. Avoid: typography
artifacts, flicker, color shift on text.
Зачем: «слайд-пауза» между сценами. Veo держит чёткий текст в кадре лучше, чем Sora 2, — но всё равно надёжнее класть текст оверлеем после рендера в CapCut или DaVinci. Текст в кадре всё равно даёт +27% удержания в TikTok и Reels по нашим A/B — но это уже про монтаж, не про промпт.
Паттерн 8. Гипер-реалистичный POV
Vertical 9:16. First-person POV: walking down narrow Tokyo alley at night,
neon reflections on wet asphalt, slight head bob. 35mm lens, low-light.
Sound: distant traffic, footsteps, rain. Avoid: floaty camera, extra limbs in
frame, mirror double.
Зачем: погружение, ниши травел, городские lo-fi, эстетика. Sora 2 здесь часто выигрывает по фотореализму, но Veo лучше синхронит звук шагов — audio запекается в той же модели, что и кадр.
Паттерн 9. Финальный CTA-кадр (концовка)
Vertical 9:16. Static minimal product shot: smartphone in hand, screen lit
with glowing yellow gradient (#ffd60a accent). Top-down 45-degree angle.
Soft daylight. Hold 2 seconds, no camera move. Sound: gentle UI tap, ambient
room tone. Avoid: brand logos, on-screen text, hand distortion.
Зачем: чистый last-frame под наложение CTA в редактуре поста. Текст и иконку добавите в CapCut поверх кадра — модель не должна знать про CTA.
Veo 3.2 vs Sora 2 vs Kling 3: как промпт меняется по моделям
Один и тот же сценарий потребует разной структуры промпта в зависимости от модели. Базовые отличия — в таблице.
| Параметр | Veo 3.2 (по утечкам) | Sora 2 | Kling 3 |
|---|---|---|---|
| Макс. длина сцены | 30 сек (8 в Veo 3.1) | до 25 сек | 6 шотов до ~30 сек |
| Нативный звук | Да: foley + lip-sync | Да: диалог + ambient | Через voice-control add-on (+2 кр/сек) |
| Структура промпта | Нарративная, ~120 слов | Жёсткая: Style → Scene → Photo → Light → Action → Sound | Свободная + Motion Brush |
| Aspect 9:16 | Указывать первой строкой | В блоке Photography | Параметром в API |
| Negative prompts | avoid: … | секция Avoid: | negative_prompt |
| Цена 8-сек клипа (1080p, аудио) | ~$0.50 (Vertex AI) | внутри ChatGPT Plus $20/мес | ~96 кредитов = $0.96–1.2 |
| Lip-sync на длинных сценах | Лучше всех | Хорошо до ~10 сек | Через add-on, нестабильно |
| Контроль движения | Текстом | Текст + reference image | Motion Brush (рисуете путь) |
| Доступ из РФ | Vertex AI + VPN/прокси | ChatGPT Plus + VPN | Прямой kling.ai |
Sora 2 даёт лучший фотореализм кадра. Veo 3.2 — лучший lip-sync и audio-coherence. Kling 3 — лучший контроль конкретного движения через Motion Brush. В Welder мы остановились на Veo 3.1 как базовой модели и Veo 2 / Kling 1.6 как fallback'ах под разные жанры. Подробное сравнение длительности — в статье про клипы длиннее 8 секунд.
Стоимость одной серии
Допустим, делаем серию из 10 Shorts по 30 секунд. На каждый Short — около 4 клипов Veo по 8 секунд. Итого 40 рендеров.
- Чистый Vertex AI (Veo 3.1): 40 × $0.50 ≈ $20 за серию плюс ElevenLabs-голос (~$5) и ручная склейка в CapCut или DaVinci.
- Kling 3 Standard ($10/мес): 660 кредитов, 40 клипов × ~96 = 3840 кредитов — не хватает, нужен Premier $64.99/мес.
- Sora 2 через ChatGPT Plus ($20/мес): дневные лимиты по числу клипов и формальные политики по чужим персонажам.
- Welder: от 290 ₽ за стартовую серию, рендер + ElevenLabs + сборка + хук-карточки уже включены. Считайте по своей серии и сравните с тарифами Welder.
Это не реклама — это математика. Одна серия в неделю — выгоднее Vertex AI напрямую. Пять серий и больше — пайплайн с авто-сборкой выигрывает по часам команды.
Чек-лист перед запуском генерации
Перед тем как отправить промпт в Veo 3.2, пройдитесь:
- Первая строка содержит
vertical 9:16, 1080x1920. - Один субъект, одно движение камеры, одна расплата кадром.
- Сцена описана через объект → свет → действие, а не наоборот.
- Указан тип звука: ambient / foley / VO-ready / silent.
- Есть
avoid:с минимум тремя негативами. - Промпт не длиннее 120 слов, иначе модель теряет фокус.
- Если серия — character lock дублируется в каждом промпте (имя, возраст, одежда дословно).
- Нет имён реальных людей и брендов, иначе copyright strike.
- Готов last-frame под наложение CTA.
- Бюджет на серию посчитан до запуска — Vertex AI берёт деньги с первого рендера, без бесплатных проб.
Если хоть один пункт пропущен — будет либо AI-slop, либо перерасход. Полный разбор виральных AI-Shorts — в гайде по реверс-инжинирингу.
Антипаттерны: что НЕ работает в Veo 3.2
За полгода рендеров мы собрали короткий список промпт-конструкций, которые стабильно ломают вывод. Если узнали свой — перепишите перед следующим прогоном.
- «Cinematic 4K hyperrealistic ultra-detailed photorealistic». Стопка эпитетов уже не помогает, начиная с Veo 3.1. Вместо качества вы получаете overcooked-картинку с пластиковой кожей. Достаточно одного слова:
cinematicилиdocumentary look. - «The character walks, runs, jumps, looks around, smiles». Несколько действий в одной сцене ломают анимацию. Правило одно: одно действие в кадре, точка. Если нужно больше — это уже серия из микросцен (паттерн 6).
- Имена реальных людей или брендов — Veo, Sora 2 и Kling 3 одинаково триггерят safety-фильтр или выдают искажённые черты. Описывайте архетип: «30-летний бариста в фартуке», а не «выглядит как Дуэйн Джонсон».
- Длинный промпт «на все случаи». 350-словный монолит модель режет на куски, теряя фокус. Держитесь 80–120 слов и одной идеи.
- Игнорирование звука. Если не указать
silentилиambient, Veo 3.1 добавит фоновую музыку или озвучку «от себя» — обычно мимо настроения. Всегда задавайте звук в промпте явно, даже если планируете заменить дорожку на ElevenLabs позже.
Эти ошибки выползают чаще, чем кажется — особенно у тех, кто переехал с Runway Gen-4 или Pika 2.0, где промпт-стиль был более «свободным».
Что делать сегодня
Откройте свой последний AI-Short и сравните его промпт с шестислойной структурой выше. В восьми из десяти случаев пропущен либо звуковой слой, либо avoid-блок, либо камера описана двумя-тремя движениями одновременно. Это не модель плохая — промпт раскладывает её на random.
Прогоните любой из девяти паттернов через Welder: мы используем Veo 3.1 как дефолт и переключаемся на Veo 2 или Kling 1.6 в зависимости от жанра. Структура промптов прозрачная — вы видите, что уходит в модель, и можете отредактировать перед рендером. Хорошие промпты — половина продакшна; вторая половина — хук, ритм, концовка, и это уже другой разговор.
Промпт сам по себе не запустит канал. Запустит серия. Соберите первую серию в Welder сегодня — войдите и переходите в дашборд: вы выбираете нишу, мы складываем сценарий, голос ElevenLabs, рендер на Veo 3.1 и финальную сборку с обложкой. Все девять паттернов выше уже встроены в пресеты сцен, и avoid-блок добавляется автоматически.