AI-сценаристы Shorts 2026: GPT-5.5, Opus 4.7, DeepSeek

Тест 4 моделей на 12 русскоязычных хуках под TikTok и Reels. Цены, RU-идиомы, retention, ceiling кейсов.

Главное за 30 секунд

В июне 2026 у вас есть четыре серьёзных LLM, которым можно отдать сценарии для AI-Shorts: GPT-5.5 от OpenAI ($5 / $30 за миллион токенов на вход и выход), Claude Opus 4.7 от Anthropic ($5 / $25), Gemini 3.1 Pro от Google (лидер по бенчмаркам рассуждений, при этом в 2–3 раза дешевле GPT) и DeepSeek V4 Flash ($0.14 / $0.28 — в 35–50 раз дешевле флагманов). Плюс две российские: YandexGPT 5.1 Pro (40 коп. за 1000 токенов) и GigaChat 2 MAX (≈1900 ₽ / 1M).

Короткий ответ: для пробного YouTube Shorts на 30 секунд под ваш faceless-канал лучше всех «понимает» русский YandexGPT 5.1 Pro, чище всего держит структуру 7-3-30 — Claude Opus 4.7, дешевле всего масштабируется на 1000 сценариев в день — DeepSeek V4 Flash, а лучший общий «ум» в одном промпте — Gemini 3.1 Pro. GPT-5.5 — фаворит у тех, кто пишет сценарий через диалог с моделью, а не одним выстрелом.

Мы прогнали все шесть моделей через одинаковую промпт-шаблонку из 12 RU-хуков под три ниши (городские легенды, авто, финграмотность) и замерили четыре вещи: соблюдает ли модель формат, не сваливается ли в кальку с английского, выдаёт ли «крючок» в первой секунде и сколько стоит миллион таких сценариев. Дальше — поминутно, с цифрами.

Параметры теста: что значит «хороший сценарий Shorts»

Сценарий Shorts — это не «короткий рассказ». Это формула 7-3-30: 7 слов на хук в первые две секунды, 3 эмоциональных сдвига внутри 30-секундного окна, 30% retention к концу видео как нижняя планка. Если LLM выдаёт литературный абзац — она не подходит, какой бы умной ни была.

Мы сравнивали модели по четырём осям:

Соблюдение формата. Промпт явно требует JSON-структуру со scene[], каждый scene — это hook_words ≤ 7, duration_sec ≤ 8, voiceover ≤ 18 слов, cta_at_sec. Считали, сколько прогонов из 12 выдают валидный JSON без правок.
RU-естественность. Носитель русского читает сценарий и оценивает 1–5: где модель сваливается на кальки («это просто невероятно», «давайте погрузимся», «в эпоху ИИ»), а где звучит как живой блогер.
Хук-сила. Слепое голосование: показали по 12 хуков от каждой модели и спросили «по какому вы бы кликнули». Перевели в нормированную долю.
Цена за 1000 готовых сценариев. Один сценарий — это ~1200 input + ~600 output токенов с учётом промпта (≈3 KB system + ~1 KB hint). Считали без скидок batch/cache.

Все четыре оси одновременно ни одна модель не выигрывает. Дальше — детальный разбор.

GPT-5.5 — workhorse OpenAI

OpenAI выпустил GPT-5.5 24 апреля 2026. Это первая модель серии, где «думающий» и «быстрый» режимы реально склеены в один API: ты передаёшь параметр reasoning_effort и платишь либо как за классический GPT, либо как за o-серию. Цена входа $5 / 1M, выход $30 / 1M — самый дорогой выход в нашем сравнении.

Что GPT-5.5 делает лучше всех. Многоэтапные сценарии: «придумай 12 хуков → выбери 3 сильнейших → разверни каждый в полный 30-секундный сторибоард → подсчитай тайминги». Если вы пишете сценарий через диалог с моделью, GPT-5.5 держит контекст и редактирует собственные выводы лучше, чем кто-либо. Особенно хорош на «комплексной правке»: «версия 1 слишком детская, версия 2 слишком душная, верни мне что-то ровно посередине, но сохрани крючок».

Где провалился у нас. В формате. Из 12 прогонов на JSON-схему GPT-5.5 ушёл за пределы схемы 3 раза (придумал лишние поля, разбил scene на под-scene). Если вы заворачиваете модель в продакшен-пайплайн с строгой структурой, добавляйте second-pass валидатор — это +20% к цене.

По RU. 4.6 / 5. Иногда выдаёт «это поистине удивительно» там, где живой блогер сказал бы «жесть». Лечится двумя строчками в system-промпте про забаненные обороты.

Цена за 1000 сценариев: ≈$24 (1200 × 1000 × 5 ÷ 1M + 600 × 1000 × 30 ÷ 1M). При batch API — $12.

Claude Opus 4.7 — структурный поэт

Anthropic выпустил Opus 4.7 тоже в апреле. Бренд держит цену предыдущего поколения: $5 / $25 за миллион токенов. Главный апгрейд — соблюдение инструкций и удержание формата в очень длинных промптах. CodeRabbit отчитались о +10% к recall на код-ревью без потери precision — этот же скилл переносится и на сценарии.

Что Opus 4.7 делает лучше всех. Формат. Из 12 прогонов на ту же JSON-схему — 12 валидных ответов без правок. Если в вашем стек 18 шагов промпта типа «scene.duration_sec ≤ 8, общая длина ≤ 30, voiceover в каждом scene ≤ 18 слов» — берите Opus и не страдайте.

И второе: Opus реально хорош в плавной микро-драматургии. Между scene 1 и scene 2 он почти всегда вставляет эмоциональный сдвиг (страх → облегчение, любопытство → разочарование). Это то, что делает Shorts «залипательными» и держит retention выше 60%.

Где проваливается. На «вирусном» хуке. Opus склонен к спокойному, аналитическому открытию. Если ниша требует кричащего «ты не поверишь, что нашли в подвале брошенного отеля» — Opus отдаст «в подвале брошенного отеля обнаружено нечто примечательное», и нужен ещё промпт-проход, чтобы поджечь.

По RU. 4.4 / 5. Очень чисто, но иногда «слишком книжно» — в воздухе слышен переводчик.

Цена за 1000 сценариев: ≈$21. С batch API — $10.50.

Gemini 3.1 Pro — лучший «ум на доллар»

Gemini 3.1 Pro в мае 2026 лидирует по GPQA Diamond с 94.3% и ARC-AGI-2 с 77.1% — это benchmark-метрики «глубокого ума». При этом цена на API ниже OpenAI/Anthropic в 2–3 раза, а контекст — 1M токенов из коробки.

И отдельно стоит Gemini 3.5 Flash — в 2 балла от флагмана Claude по общим бенчмаркам, при цене примерно в три раза ниже. Это та модель, которая в Welder сейчас крутится на reasoning-lane (storyboard для voiceover-режима) — мы её включили после теста ещё в начале июня.

Что Gemini 3.1 Pro делает лучше всех. «Сценарий + раскадровка одним промптом». Просите выдать JSON со scene[] + рядом prompt для Veo 3.1 — Gemini держит обе ветки в голове и сшивает их. Это экономит 1–2 шага пайплайна по сравнению с тем, что нужно делать на OpenAI.

И мультимодал: можно скормить ему 30 секунд исходного ролика и попросить переписать voiceover под другой возраст аудитории. У GPT-5.5 и Opus так не делают — там нужно сначала транскрибировать, потом отдельным промптом редактировать.

Где проваливается. На быстрых тактических правках в диалоге. Если просишь «убери одну фразу из voiceover scene 4», Gemini иногда перегенерирует всю сцену с нуля. У Opus и GPT этого нет.

По RU. 4.5 / 5. Хорошо, но любит длинные сложноподчинённые предложения, которые в voiceover потом приходится рубить топором.

Цена за 1000 сценариев Pro: ≈$8 (input $1.25 / 1M, output $10 / 1M на момент июня). С Flash — около $2.

DeepSeek V4 Flash — дешёвый рабочий конь

DeepSeek V4 Flash — это аномалия 2026 года. $0.14 на миллион входных токенов, $0.28 на выход, кеш-хит — $0.0028 (98% скидка). DeepSeek V3.2 ещё в начале года показывал 90% качества GPT-5.4 при цене в 50 раз ниже, V4 немного добавил «ума» и сильно — экономику.

Что V4 Flash делает лучше всех. Объём. Если у вас агентство с 6 faceless-каналами и нужно прогенерировать 200 сценариев в день — это единственная модель, которая не съест маржу. С учётом кеширования system-промпта вы платите центы за вариант.

Где проваливается. RU-идиомы и хук-сила. V4 пишет понятно, но скучно. Из 12 хуков в слепом голосовании DeepSeek занял последнее место — респонденты кликали по нему в 12% случаев против 28–32% у Opus/GPT/Gemini. Это решаемо: вы прогоняете «креативную часть» через дорогую модель один раз в день, потом через DeepSeek крутите 100 вариаций тем же шаблоном — экономия 80% при сохранении хука.

По RU. 3.7 / 5. Чувствуется китайский акцент в синтаксисе — длинные перечисления, формальный регистр. Промпт-инструкция «пиши как Telegram-блогер 25 лет» помогает на 30%.

Цена за 1000 сценариев: ≈$0.34. С кешированием system-промпта — ≈$0.20.

Российские LLM: YandexGPT 5.1 Pro и GigaChat 2 MAX

Отдельная история — отечественные модели. У них две сильные стороны: оплата в рублях без VPN и обучение на гигантских RU-корпусах (Дзен, ВК, Кинопоиск), что даёт лучшее «чувство языка» в идиомах, мемах и культурных отсылках.

YandexGPT 5.1 Pro. 40 копеек за 1000 токенов на ввод и вывод (≈ $5 / 1M по курсу 80 ₽), 128k контекст, поддержка reasoning-режима. По RU-естественности в нашем тесте YandexGPT 5.1 Pro обогнал даже GPT-5.5 — 4.8 / 5 против 4.6. Это та модель, которой стоит отдавать хуки под «городские легенды Подмосковья» или «как москвичу выжить на 60K в Казани» — она в курсе мемов и реалий.

Где провал — «потолок креатива». Когда нужно придумать нестандартную драматургическую схему, YandexGPT уходит в стандартный «зачин — поворот — мораль». Это не плохо для серийного контента, но не выигрывает виральные пики.

GigaChat 2 MAX. ≈1900 ₽ за 1M токенов (≈ $24 / 1M по курсу). По качеству — чуть позади YandexGPT, но не радикально. Главная боль — стоимость: при сопоставимом качестве с Yandex GigaChat в 5–6 раз дороже.

Когда выбирать российские модели: вы пишете под аудиторию 100% RU, у вас юрлицо в РФ и вам критично платить рублями без VPN-обвязки. Тогда — YandexGPT 5.1 Pro.

Сводная таблица: цена × качество × язык

Модель	RU (1–5)	Формат JSON (12/12)	Хук-сила	Цена за 1000 сценариев	Кому подходит
GPT-5.5	4.6	9/12	30%	$24 ($12 batch)	Сложные сценарии через диалог
Claude Opus 4.7	4.4	12/12	28%	$21 ($10.50 batch)	Жёсткий формат, retention-погоня
Gemini 3.1 Pro	4.5	11/12	32%	$8	Сценарий + раскадровка одним промптом
Gemini 3.5 Flash	4.2	10/12	24%	$2	Объём + приемлемое качество
DeepSeek V4 Flash	3.7	11/12	12%	$0.34 ($0.20 с cache)	Массовый продакшен 100+ в день
YandexGPT 5.1 Pro	4.8	10/12	26%	≈$5 (400 ₽)	RU-only, рубли, юрлицо РФ
GigaChat 2 MAX	4.6	9/12	22%	≈$24 (1900 ₽)	Корпорат с КИИ-требованиями

Цены — на 4 июня 2026, без скидок batch/cache, при среднем сценарии ~1200 input + ~600 output токенов.

Как Welder выбирает модель в каскаде

Honest disclosure: мы не продаём «свою LLM». Внутри пайплайна Welder работает мульти-провайдер каскад, где каждый этап получает ту модель, которая на нём показала лучший результат.

Storyboard (раскадровка): Gemini 3.5 Flash через OpenRouter. Дешёво, держит JSON-структуру, выдерживает 9–12 сцен в одной генерации. С 1 июня — 100% storyboard'ов идут через эту модель.
Chat-fast (быстрые правки voiceover): Gemini 3 Flash Preview. Маленький контекст, мгновенный ответ.
Chat-reasoning (длинные сценарии для cinematic-режима до 160 секунд): Gemini 3.5 Flash с увеличенным лимитом до 8192 токенов.
Cinematic-режим: базовый — KIE Gemini 3 Flash, fallback на OpenRouter Gemini 3 Flash Preview.

Для пользователя это значит две вещи. Первая — вам не нужно держать в голове ключи от OpenAI / Anthropic / Google. Вторая — мы оптимизируем цену под каждый этап, и это отражено в наших тарифах от 290 ₽ за серию. Если хочется самому понять, как промпт превращается в раскадровку, в нашем гайде по промпту Veo 3.1 есть пятислойная формула, которая работает на любой из шести моделей выше.

Что выбрать под ваш сценарий — действие

Если у вас одна ниша и вы пишете сценарии руками, выбирайте по характеру:

Пишете в диалоге, доводите версии итерациями → GPT-5.5 через ChatGPT Plus за $20/мес. Не платите за API, не считайте токены.
Гоните стабильный формат под одну серию (например, story bible на 50 серий) → Claude Opus 4.7 через Anthropic API. Формат не сорвётся.
Нужен «один промпт = готовая раскадровка для Veo» → Gemini 3.1 Pro или Flash. Лучшая цена за функцию.
Запускаете агентство и считаете рубль за каждый сценарий → DeepSeek V4 Flash + 1 раз в день дорогая модель на «креативный остов».
RU-аудитория, юрлицо в РФ, рубли без VPN → YandexGPT 5.1 Pro.

А если не хочется выбирать вручную и держать четыре API-ключа — отдайте задачу пайплайну, который сам решает, кому какой этап доверить. У нас в Welder это работает с 290 ₽ за серию, и каждая модель из списка выше уже подключена под свой этап. Залогиниться и попробовать — по этой ссылке.

Подписку на наш блог можно не оформлять — мы выкладываем по одному материалу в день. А вот ленту дашборда с готовой раскадровкой и счётчиком retention за каждое видео стоит увидеть глазами.