Главное за 30 секунд
В мае 2026 50–80% коротких видео в TikTok, Reels и Shorts смотрят без звука, и субтитры перестали быть «доступностью» — это retention-инфраструктура. По данным Submagic и OpusClip, word-by-word подсветка добавляет 15–25% к watch time, а в AI-каналах эффект сильнее: AI-голос звучит ровнее, чем человек, и без визуального якоря мозг отключается за 2–3 секунды.
Ниже — что нужно знать в 2026: ритм (2–3 слова в строке), шрифт (Montserrat Bold выигрывает в 60% топовых TikTok), эмодзи (1 на 5–8 слов — потолок), и сравнение Submagic ($20–50/мес), Captions.ai, Opus Clip ($15/мес + надстройки), Vugola ($14/мес) и Welder, где субтитры выжигаются прямо в voiceover-render без отдельного шага.
Если ваш канал ещё не на completion-rate 70%+, шанс, что причина — именно субтитры.
Почему субтитры — это retention-инфраструктура 2026
YouTube в январе 2026 явно обозначил: для Shorts «относительное время просмотра» (доля досмотра, а не сырые секунды) — ключевой ранжирующий сигнал. TikTok работает по той же логике: средняя точка отвала за первые 3 секунды — 35–40% зрителей, и в этот момент решает не сценарий, а первая строчка субтитров.
Что изменилось за последний год:
- Sound-off норма выросла. В feeds (Instagram, TikTok, Threads, X) звук всё чаще выключен по умолчанию — особенно в офисном и публичном контексте.
- YouTube учитывает CC как accessibility-сигнал для глобального ранжирования: это и роутинг по странам, и приоритет в выдаче новых рынков.
- AI-голоса звучат ровнее людей, и без визуального якоря ухо привыкает за 2 секунды, а глаз ищет, на что зацепиться. Если зацепиться не за что — палец листает дальше.
Для AI-канала это означает простое: вы платите за рендер видео в Veo 3.1 или Sora 2, тратите 60–290 ₽ за серию, а потом теряете 40% аудитории на саб-несовместимости. Самая дорогая ошибка из всех, что можно сделать на пайплайне коротких.
Что сейчас работает: ритм, шрифт, цвет — по данным
Три параметра, которые надо настроить один раз, и потом не трогать год.
Ритм (сколько слов в кадре одновременно):
- 1 слово в кадре → подсветка идёт идеально, но взгляд устаёт от «прыгающего» текста за 15 секунд.
- 2–3 слова в строке + word-by-word подсветка — золотой стандарт 2026. Это формат Alex Hormozi, MrBeast Shorts, большинство топ-каналов на русскоязычном TikTok.
- 4–5 слов в строке → читается медленнее, чем длится фраза, и саб начинает «отставать» от голоса.
- Полная строка титра «как в кино» → так делал YouTube CC десять лет назад, для AI-shorts мёртвая практика.
Скорость подачи:
- 2.5–3.5 слова в секунду — комфортно для русского.
- 4+ слов/сек заставляют субтитры перепрыгивать, и мозг бросает читать.
- В voiceover-режиме ElevenLabs v3 обычно даёт 2.8–3.2 слова/сек на нейтральной интонации — идеально под ритм 2–3 слова.
Шрифт:
По отчёту Sendshort 2026, проанализировавшему 2M вертикальных видео, в 60% топовых TikTok-роликов используется Montserrat Bold. Остальной топ-5: Inter Tight, Archivo Black, Futura Bold, Bebas Neue. Helvetica и Arial — «безопасный дефолт», но плоский визуал.
Для русского текста принципиально важно: шрифт должен поддерживать кириллицу с корректным кернингом. Manrope, Onest и Geist Mono — три open-source шрифта, которые делают это лучше всего и не выглядят «дёшево» рядом с латиницей.
Размер:
- 60–90 pt при базе 1080×1920 — золотая середина.
- < 50 pt → нечитаемо на телефоне в feed на расстоянии вытянутой руки.
-
100 pt → субтитры съедают треть кадра и наезжают на лицо или сцену.
Цвет и обводка:
- Белый текст + чёрная обводка 4–6 px = 90% всех топ-каналов. Универсально, читается на любом фоне Veo 3.1 / Sora 2 / Kling 3.
- Жёлтый акцент на ключевом слове (формат Hormozi) — добавляет 5–8% к retention, по данным внутреннего теста Submagic.
- Цветной highlight под отдельные слова работает только если их не больше 2 на ролик — иначе превращается в визуальный шум.
Позиция:
- Нижняя треть кадра, отступ 20–25% от низа. Так саб не перекрывается интерфейсом TikTok/Reels (лайки, кнопки, описание).
- Центр кадра — для подкастных нарезок, не для AI-Shorts.
Шрифты для AI-Shorts: 5 проверенных и 2 для нишевого стиля
Не «лучший шрифт вообще», а пять, которые покрывают 95% задач AI-канала.
| Шрифт | Где работает лучше всего | Кириллица | Лицензия |
|---|---|---|---|
| Montserrat Bold | Универсал: история, кейсы, мотивация | Да | OFL (free) |
| Inter Tight 800 | Tech, наука, образование, обзоры | Да | OFL (free) |
| Archivo Black | Кулинария, лайфхаки, юмор | Частично | OFL (free) |
| Manrope ExtraBold | Бизнес, монетизация, продукт-обзоры | Да, отлично | OFL (free) |
| Bebas Neue | Спорт, motivation, военная история | Только лат. | OFL (free) |
| Press Start 2P (нишево) | Geek-каналы, ретро-игры, мемы | Только лат. | OFL (free) |
| Caveat / Permanent Marker (нишево) | Личные истории, ASMR, lifestyle | Частично | OFL (free) |
Для русскоязычного канала я бы поставил по умолчанию Manrope ExtraBold или Onest Bold — это аналоги Inter с правильным кернингом для кириллицы. Welder в voiceover-режиме как раз выжигает субтитры Manrope-семейством, это даёт «свой» визуал без копипасты Submagic-стиля, на котором уже выгорели глаза у завсегдатаев TikTok.
Подбирать шрифт и голос имеет смысл в паре. Разбор голосов под 7 ниш — в нашем гайде голос AI-Shorts 2026 по 7 нишам ElevenLabs v3.
Эмодзи в субтитрах: где работают, где убивают conversion
В 2024–2025 Submagic популяризовал стиль «эмодзи на каждое второе слово». В 2026 это уже не «свежо», а «дёшево». Алгоритмы TikTok и Reels не любят перегруженный текст в кадре, и зритель тоже.
Что работает:
- 1 эмодзи на 5–8 слов — потолок. Это даёт визуальные «островки» без шума.
- Эмодзи как substitute существительного (☕ вместо «кофе», 💸 вместо «деньги») — экономит ширину строки, не ломает ритм.
- Эмодзи в hook (первая секунда) для мгновенного контекста: 🚨 для срочности, 💰 для денежной темы, 🇷🇺 для локального.
Что убивает:
- Эмодзи на каждое слово → саб превращается в мем, продукт-каналы теряют доверие.
- Сложные эмодзи (👨👩👧👦, 🏳️🌈) → не на всех платформах рендерятся одинаково, в Reels вообще могут сломать кадр.
- Эмодзи поверх цветного highlight → визуальная каша.
Для product-обзоров и monetization-контента эмодзи в субтитрах лучше выключить полностью. Для развлекательных кейсов и образовательного контента — оставить 2–3 на ролик в стратегических моментах. Если планируете строить серию роликов (см. разбор серий AI-Shorts 3 vs 5 vs 7 эпизодов), стиль эмодзи держите одинаковым по всей серии — это часть бренда канала.
Инструменты: Submagic, Captions.ai, Opus Clip, ElevenLabs, Welder
Реальные цены на июнь 2026 и что именно даёт каждый инструмент. Welder в этом сравнении не «лучший по всем параметрам» — а «единственный, у кого субтитры — встроенный шаг пайплайна, а не отдельная подписка».
| Инструмент | Цена | Что делает | Где сильнее всего |
|---|---|---|---|
| Submagic | $20 Starter / $50 Pro | Animated captions + B-roll, выгрузка SRT | Talking-head, animated style, brand templates |
| Captions.ai | $10–25 | Script + shoot + captions в одном app | iOS-first, mobile-creator workflow |
| Opus Clip | $15 + надстройки | Длинное в короткое + базовые captions | Repurpose длинных подкастов |
| Vugola | $14 | End-to-end альтернатива стэку | Бюджет, predictable pricing |
| ElevenLabs v3 | $5–22 + API | Forced alignment + SRT/VTT/ASS, ±20 мс | У вас уже есть голос, нужны точные timestamps |
| Welder AI | от 290 ₽/серия | Voiceover-режим: голос + субтитры выжжены в render | RU-каналы, no-extra-tool workflow |
Если вы делаете контент с реальным лицом (vlog, talking-head, podcast cut) — Submagic или Captions.ai остаются дефолтом. Они сильнее в эстетике animated captions и шаблонах под бренд.
Если вы делаете AI-канал (faceless или полу-faceless) — Welder убирает один шаг из пайплайна. В voiceover-режиме сцены, голос ElevenLabs и субтитры рендерятся за один проход. Вы не выгружаете .mp4, не загружаете в Submagic, не правите тайминги, не экспортируете обратно. Это экономит 10–15 минут на ролик и 1 200–3 600 ₽/мес на отдельной подписке. Сравнить тарифы можно на странице тарифов Welder.
Если у вас уже есть свой пайплайн с собственным голосом — ElevenLabs Forced Alignment (документация) даёт точность ±20 мс на каждое слово и экспорт SRT/VTT. Это самое аккуратное «под капот»-решение, но требует кода.
Opus Clip силён, когда длинный исходник уже существует. Для AI-каналов, где исходника нет в принципе (вы генерируете с нуля), он не подходит — нет видео для нарезки.
Как Welder делает субтитры в voiceover-режиме
Без пересахарки, по фактам. В voiceover-режиме пайплайн выглядит так:
- Сцены генерируются (Veo 3.1, Veo 2 или стиллы для TikTok-style стопок).
- ElevenLabs v3 синтезирует голос по сценарию.
- ElevenLabs Forced Alignment возвращает word-level timestamps с точностью ±20 мс.
- ffmpeg рендерит субтитры поверх сцен: 2–3 слова в строке, Manrope ExtraBold 72 pt, белый + чёрная обводка 5 px, нижняя треть кадра, активное слово — жёлтое.
- Финальный .mp4 — готов к загрузке в TikTok, Reels, VK Клипы или YouTube Shorts.
Это полностью автоматический шаг — вы не настраиваете шрифт и не правите тайминги вручную. Минус: в voiceover-режиме сейчас нет custom-стиля субтитров (это в roadmap на лето 2026). Плюс: дефолт оптимизирован под retention на основе того, что работает в топ-каналах русскоязычного TikTok и YouTube Shorts.
Цены — от 290 ₽ за серию из 10 коротких. По метрикам обычно достаточно одной серии, чтобы увидеть дельту на completion-rate против вашего текущего пайплайна.
8 ошибок, которые ломают субтитры для AI-Shorts
Чек-лист по тому, что мы видим у клиентов чаще всего.
- Субтитры как «полная строка», а не word-by-word. Минус 15–25% retention сразу.
- Шрифт Arial 11pt «потому что в DaVinci был дефолт». Не читается на телефоне.
- Чёрный текст без обводки на ярких сценах Veo 3.1 → теряется в кадре через две сцены.
- Эмодзи на каждое слово → стиль 2024-го, дешёвый и устаревший.
- Субтитры внизу под интерфейсом TikTok → они частично скрыты кнопкой share и счётчиком лайков.
- Тайминги от Whisper без коррекции → погрешность ±200 мс, субтитры отстают от голоса.
- Размер 40 pt «чтобы влезло больше» → читается с лупой, отвал за первые 5 секунд.
- Серый или синий цвет «потому что у бренда такой» → серый текст на динамичном фоне = невидим.
Если хотя бы 3 пункта про вас — переход на корректный пайплайн субтитров окупится за первую же неделю по метрикам канала. Смотреть, по каким именно метрикам отслеживать — в нашем разборе метрик AI-Shorts 2026 для YT Studio, TikTok, Reels и VK.
Что делать дальше
Если вы только начинаете AI-канал и хотите запустить первые 10 роликов с уже корректными субтитрами без отдельной подписки на Submagic — самый быстрый путь: voiceover-режим Welder, где субтитры выжжены в render по дефолту. Создание аккаунта и первая серия — 10 минут.
Если у вас уже есть канал, и субтитры — узкое место, переключите 5 следующих роликов на пайплайн с word-by-word подсветкой и Manrope ExtraBold. Через неделю сравните completion-rate в TikTok Analytics и YT Studio. Дельта 8–15% — нормальный результат на одной только смене стиля субтитров, без переснятых сцен и нового голоса.
Сделать первое видео с субтитрами — Welder собирает сцены, голос и субтитры за один проход, без копипасты между Submagic и редактором.