Хук первой секунды AI-Shorts 2026: 12 формул удержания

Как пробить 80% intro retention в первые 1.7 секунды — формулы под Veo 3.1, Sora 2, Runway Gen-4 и ElevenLabs v3.

Главное за 30 секунд

В мае 2026 алгоритмы TikTok, YouTube Shorts и Reels раздают трафик строже, чем когда-либо: 85% intro retention в первые три секунды даёт в 2.8 раза больше показов, чем ролики с показателем ниже 60%. У Shorts порог ещё жёстче — ≥80% удержания в первые три секунды, иначе видео уходит в «слабый сегмент» и не попадает к новой аудитории.

Решение зрителя — смотреть или свайпнуть — занимает 1.7 секунды по данным Sprout Social и OpusClip за апрель 2026. У AI-Shorts это значит одно: хук должен попасть в кадр и в звук одновременно, на первой генерации, без надежды на «доберём монтажом». В этом гайде — 12 проверенных формул, готовых под Veo 3.1, Sora 2 и Runway Gen-4, с примерами промптов и сравнением, где они выстреливают.

Что считается «первой секундой» в 2026

TikTok в 2026 ввёл понятие «Qualified View» — это просмотр длиннее 5 секунд. До этой отсечки видео не считается «увиденным» с точки зрения алгоритма, даже если его открыли. Это сдвинуло целевой барьер с 3 секунд (старая метрика) на 5: хук должен дотянуть зрителя не до конца склейки, а до момента, когда он пересёк секундный порог номер пять.

На YouTube Shorts ситуация похожая, но измеряется не «Qualified View», а кривой удержания: первые 3 секунды — 80%+, 50% длины — не ниже 60%, среднее по ролику — 70%+. Если просадка на 1–2 секунде, проблема в визуальной части. Если на 4–5 — проблема в звуковой части или в недосказанности промиса.

Reels Bonus в апреле 2026 закрыли для США, но в РФ и СНГ алгоритм Reels по-прежнему гонит ролики с retention rate выше 70% в первую же неделю. VK Клипы измеряют первые 2 секунды отдельным метриком — «открытие» — и нам нужно ≥75%, чтобы видео выкатили из стартового кластера.

Из-за смещения порога на 5 секунд старые «3-секундные» хуки больше не работают сами по себе: их нужно растягивать на двойной кадр или добавлять второй мини-хук на 3-й секунде.

12 формул хука с примерами

Формула — не сценарий, а способ упаковать первые 1.5–2 секунды. Каждая работает, когда совпадают визуал, звук и текст-подложка.

1. «Аномалия в кадре». Начинаем с предмета, которого не должно быть на этой сцене. Древняя ваза в современной квартире, динозавр на парковке Икеи. Зритель замирает, чтобы достроить картину — это 2–3 секунды форы.

2. «Внезапное движение». Камера резко наезжает на лицо, объект падает с потолка, рука врывается в кадр. В Veo 3.1 это пропишется как dolly-in fast или whip pan from right. У Runway Gen-4 движение мягче, зато плавнее.

3. «Вопрос без ответа». Открывающий кадр — лицо человека и текст-подложка «Что это лежит у тебя в холодильнике уже неделю?». Зритель отвечает в голове и остаётся посмотреть, угадал ли он.

4. «Прямой адресат». «Если ты пилишь Shorts на телефоне — досмотри до конца». Это не лесть, это сигнал: «контент для тебя». Работает на нишевых каналах, где аудитория конкретная.

5. «Числовое обещание». «5 ошибок, которые крадут 60% твоих просмотров». Цифра обещает структуру и завершённость. Заголовки с числом дают в среднем на 31% больше CTR на превью, по данным OpusClip за апрель 2026.

6. «Контрастный кадр». Кадр 1 — провал (грязная кухня, плачущий ребёнок). Кадр 2 (на 2-й секунде) — решение или результат. Контраст между двумя статами держит зрителя ради вопроса «что произошло между».

7. «Шок-факт». «В России 87% людей моложе 30 не знают, что...». Лучше с источником и проверенной цифрой — иначе попадаешь под штрафы за дезу и под жалобы в TikTok Trust & Safety.

8. «Звуковой хук». Удар по столу, всхлип, музыкальный bass-drop. В Veo 3.1 теперь возможна нативная синхронизация звука — это убирает необходимость доклеивать SFX. Sora 2 в этой части слабее, у неё пока амбиент важнее, чем удары.

9. «Точка зрения». POV-кадр: «Ты только что открыл шкаф и...». Зритель буквально проживает кадр от первого лица. POV хорошо вытягивает Kling 3, у Runway Gen-4 та же камера менее устойчивая.

10. «Преувеличенная эмоция». Лицо персонажа крупным планом с явной эмоцией — шок, смех, ужас. Talking-head генераторы (HeyGen Avatar IV, Synthesia, Hedra) тут вне конкуренции — статичный аватар проигрывает реальной мимике, но эмоция всё равно читается.

11. «Запретный список». «Никогда не делай этого с Veo 3.1». Запрет цепляет тех, кто хочет узнать, что именно нельзя — и потом всё равно проверить на своей нише.

12. «Незавершённый цикл». Начинаешь рассказывать историю и обрываешь на интересном месте — продолжение через 3 секунды. Старый трюк сериального монтажа, на коротком формате работает железно.

Как зашить хук в промпт Veo 3.1

В гайде Google Cloud по промптингу Veo 3.1 (опубликован в марте 2026) явно сказано: «frontload the most important visual element» — самое важное визуально кладём в начало промпта. Это не маркетинг, это поведение модели: первые токены сильнее влияют на стартовый кадр.

Структура промпта под хук:

[ENVIRONMENT/MOOD] dim kitchen, harsh overhead light
[SUBJECT] a hand reaching into a half-open fridge
[ACTION] hand pulls out a glowing object, quick whip pan to face
[CAMERA] handheld, low angle, dolly-in fast in first 0.8s
[STYLE] gritty, 35mm grain, contrast +20%
[AUDIO] subtle hum, sudden bass-drop at 0.9s
[NEGATIVE] no text overlay, no blur, no slow start

Главные ошибки промптинга хука:

Длинное описание сцены до того, как появилось действие — модель тратит первые кадры на установку, и зритель свайпает.
Отсутствие негативных промптов — Veo 3.1 без них любит «мягкий» fade-in, который убивает первую секунду.
Звук в самом конце промпта — модель ставит низкий приоритет; SFX-удар лучше указать вместе с действием.

Полный разбор стартовых шаблонов мы уже сделали в гайде по промптам Veo 3.1 — там 12 пресетов под разные ниши с готовыми negative-блоками.

Welder vs Sora 2 vs Veo 3.1: чей хук лучше из коробки

Для теста взяли один сценарий — true-crime intro «Тело нашли через 4 часа» — и прогнали через четыре инструмента с одинаковым промптом, без ручной правки.

Параметр	Welder AI (Veo 3.1 + ElevenLabs v3)	Sora 2 (ChatGPT Plus)	Veo 3.1 (Vertex AI напрямую)	Runway Gen-4
Цена за 8-сек клип	от ≈75 ₽	$20/мес безлимит soft-cap	≈$0.50	$0.95
Стартовый кадр на хук	автоматически frontload через шаблон	вариативно, надо переписывать промпт	контроль есть, но через ручной prompt-engineering	мягкий fade-in по умолчанию
Lip-sync для шок-эмоции	через Veo 3.1 + аватар-плагин	да, нативно, лучший в классе	да	слабее, желательно дочинить ИИ-аватаром
Звуковой хук (SFX/удар)	автоматически + 32 RU-голоса ElevenLabs v3	амбиент сильный, удары слабее	нативный звук, требует prompt-tuning	звука нет, дочинить вручную
Время на готовый ролик	4–6 минут	2–3 минуты	1–2 минуты + сборка	5–7 минут + сборка
Контроль первой секунды	через slot-промпт «hook»	через переписывание	через ручной фронтлоад	средний

Sora 2 — лидер по качеству кадра и lip-sync, особенно если хук строится на эмоции лица. Veo 3.1 — самый управляемый: даёт точный контроль над первой секундой при правильном промпте, но требует знаний. Welder выигрывает в том, что слот «hook» уже стоит первым в шаблоне сцены — модель форсированно генерирует движение или контраст в стартовом кадре. Runway Gen-4 проигрывает по дефолту: «мягкий старт» — его подпись стиля, и она убивает intro retention.

Если делаете ролики поштучно с ручным контролем — Sora 2 или Veo 3.1 «напрямую». Если делаете серию из 10–30 видео и не хотите переписывать промпт каждый раз — берите конвейер, в котором слот «hook» уже встроен.

Голос-хук: ElevenLabs v3 vs OpenAI Voice vs Murf

В AI-Shorts голос — это вторая «первая секунда». Часто визуал тащит лицо, а голос даёт промис. У русского сегмента сейчас выбор такой:

ElevenLabs v3 — 32 RU-голоса, контроль интонации, шёпот, крик. От $5/мес за 30 000 символов на старте.
OpenAI Voice (Realtime + TTS-1-HD) — 6 базовых RU-голосов, ровные, дикторские, но без вариативности эмоций. ≈$0.015 за 1000 символов.
Murf — около 20 RU-голосов, скучноватые, дешевле в подписке, но интонации не двигаются.

Для хука нужен голос, который меняет интонацию в первые 0.5 секунды — обрыв фразы, удивление, шёпот. ElevenLabs v3 это умеет; OpenAI Voice в Realtime — частично. Murf — почти никогда. На 12 тестовых хуках по true-crime ElevenLabs v3 дал среднее удержание 81%, OpenAI Voice — 74%, Murf — 68%.

Деталь про русский язык: ElevenLabs v3 после апрельского апдейта 2026 правильно ставит ударения в словах типа «звонит», «договор», «дозвонится». Раньше эти ляпы убивали хук на словах, требующих эмоции.

Длительность ролика и где ставить второй хук

Если ролик длиннее 30 секунд, одной первой секунды мало. На 5–7 секунде нужен второй мини-хук: смена сцены, новый персонаж, неожиданный факт. На 15-секундном ролике это может не понадобиться — алгоритм решает по первой секунде и не успевает «передумать».

Правила по хронометражу мы разобрали подробнее в гайде про длительность AI-Shorts 2026 — там цифры по ставкам RPM и retention в зависимости от 15/30/60 секунд.

Сценарий хука лучше всего пишется не вручную: Claude Sonnet 4.6 и GPT-5.5 уверенно генерируют 5–10 вариантов под одну нишу, и можно выбрать лучший. Сравнение моделей под Shorts — в нашем обзоре AI-сценаристов.

Чек-лист: проверить хук за 2 минуты до публикации

Перед каждым залётом ролика на канал прогоняйте этот чек-лист:

На 1-й секунде в кадре есть движение или контраст. Если только статика — переделать.
Звук в первые 0.8 секунды цепляет (удар, шёпот, музыка). Тишина в начале — провал.
Текст-подложка появляется в первые 0.5 секунды и читается за 2 секунды максимум.
Лицо персонажа или предмет смотрит «в зрителя» (frontal angle).
На YouTube Shorts превью совпадает с первым кадром — если зритель ждал шок, а видит «вступление», он свайпнёт.
Ролик длиннее 30 секунд имеет второй мини-хук на 5–7 секунде.
Голос на хуке — не ровный дикторский, а с интонационным сдвигом.

Если проседают три и больше пунктов — переделайте до публикации. Это дешевле, чем сжигать ролик в алгоритме.

Базовая стоимость одного ролика в Welder сейчас от ≈75 ₽ — детали по тарифам и пакетам на странице цен. Дешевле, чем повторять прогон у конкурентов при каждой ошибке промптинга.

Что делать прямо сейчас

Хук первой секунды в 2026 — это не магия, а три слота в промпте: визуальное движение, звуковой удар и невысказанное обещание. Если все три попадают в первый кадр, retention 80%+ перестаёт быть мечтой.

Самый быстрый способ протестировать формулу — собрать одну серию из 5 роликов с разными хуками и посмотреть, какая формула выстреливает на твоей нише. Это занимает один выходной, а данные дают надолго.

Запусти серию AI-Shorts с хуком в первом кадре — слот «hook» в шаблоне сцены уже стоит первым, и Veo 3.1 не начнёт с «мягкого старта».