Выбираем нейросеть для озвучки по цене за 100 тысяч символов
100 000 символов текста дают примерно 10–15 минут синтезированной речи при среднем темпе. Для короткого ролика это избыточно. Для серии обучающих видео, главы аудиокниги или пачки локализованных реплик в игре — рабочая единица расчета.

Разброс большой. OpenAI TTS-1 дает около $1.5 за 100 000 символов. Базовые тарифы ElevenLabs находятся примерно в диапазоне $16.6–$22 за тот же объем. Профессиональные платформы для дубляжа и липсинка часто вообще уходят от символов к минутам видео. Прямое сравнение ломается. Но экономика пайплайна все равно считается. Через символы, минуты, ретейки, постобработку и контроль качества.
Экономика синтеза: почему 100 000 символов удобнее тарифа
Тариф сам по себе мало что говорит. $5 в месяц может быть дешево или дорого. Зависит от лимита символов, доступных голосов, прав на коммерческое использование, качества модели, скорости инференса и числа повторных генераций.
100 000 символов удобны как нормализатор. Это не идеальная метрика. Но она позволяет быстро привести TTS-сервисы к одному знаменателю. Особенно если проект текстовый: аудиокнига, e-learning, IVR, голосовые подсказки, локализация интерфейса, закадровая озвучка без точного липсинка.
Базовая математика:
- 100 000 символов ≈ 10–15 минут речи. Диапазон зависит от языка, пунктуации, темпа, пауз и настройки prosody.
- 1 млн символов ≈ 100–150 минут речи. Уже заметный объем для бюджета.
- 10 млн символов ≈ 16–25 часов речи. Здесь подписка почти всегда начинает конфликтовать с лимитами, ретейками и SLA.
- Стоимость одного прогона не равна стоимости готового мастера. Ретейки, нормализация, монтаж и QC увеличивают фактическую цену.
Для автоматического TTS без дубляжной синхронизации цена по символам работает. Для видео с лицом в кадре — нет. Там добавляются forced alignment, таймкоды, липсинк, замена дорожки, проверка артикуляции и иногда ручной монтаж.
Цена за 100 000 символов считает только синтез. Она не считает пригодность голоса к релизу.
Символы также плохо сопоставляются между языками. Английский, русский, китайский и японский имеют разную плотность информации. Один и тот же смысл может занимать разное количество символов и звучать разное число секунд. Единого стандарта пересчета нет. Для локализации это не мелочь. Это риск разбега бюджета по языковым версиям.
Бюджетные API против премиальных моделей
Сейчас рынок делится не на «хорошие» и «плохие» нейросети. Деление проще: API-синтез по низкой цене, подписочные студии с готовыми голосами, платформы для дубляжа видео, B2B-пайплайны под контракт.
Для расчета возьмем нормализованную единицу: 100 000 символов.
| Класс решения | Типовая тарификация | Ориентир за 100 000 символов | Сильная сторона | Ограничение |
|---|---|---|---|---|
| API TTS базового уровня | за 1 000 символов | около $1.5 для OpenAI TTS-1 | низкая цена, простая интеграция, масштабирование через код | меньше контроля над актерской подачей и стилем |
| Подписочная TTS-студия | месячный лимит символов | около $16.6–$22 на базовых тарифах ElevenLabs | удобный интерфейс, голоса, zero-shot/voice cloning в зависимости от плана | цена растет при ретейках и больших объемах |
| Безлимитные планы | подписка с ограничениями генераций или качества | прямой пересчет нестабилен | удобно для черновиков и массового теста | «безлимит» часто не равен production-grade лимиту |
| Платформы дубляжа и липсинка | минуты видео | сравнение по символам некорректно | перевод, тайминг, синхронизация, видео-пайплайн | дороже, меньше прозрачности по себестоимости |
| B2B-локализация игр/медиа | индивидуальный контракт | публичной цены обычно нет | SLA, кастомные голоса, интеграция с пайплайном | долгий онбординг, минимальные объемы |
OpenAI TTS-1 по цене выглядит как нижняя граница массового синтеза. $0.015 за 1 000 символов. То есть $1.5 за 100 000. Это экономика API: отправил текст, получил аудио. Удобно для продуктовых сценариев, где voice layer встроен в backend. Генерация подсказок, персонализированные аудиоответы, озвучка коротких карточек, динамические voice notifications.
ElevenLabs Starter за $5 в месяц дает 30 000 символов. Нормализация дает примерно $16.6 за 100 000 символов. На более дорогих тарифах стоимость за 100 000 символов обычно снижается. Но смысл не только в цене. Платят за голоса, интонации, клонирование, удобный редактор, быстрый перебор дублей. Это другой класс эксплуатации.
PlayHT и похожие сервисы могут предлагать безлимитные планы. Но «безлимит» требует чтения условий. Часто есть ограничения по числу генераций, качеству голосов, коммерческим правам, скорости очереди или доступу к лучшим моделям. Для чернового синтеза это приемлемо. Для релиза аудиокниги или локализации игры — надо считать фактический throughput.
Что реально входит в цену озвучки
Грубая ошибка — считать только первый successful response от API. В production-пайплайне он редко последний. Особенно в дубляже.
Фактическая стоимость складывается из нескольких слоев.
1. Первичный синтез.
Цена по символам или минутам. Это видимая часть. Ее легко сравнить в таблице.
2. Регенерации.
Один и тот же фрагмент часто генерируется 2–5 раз. Причина: неверный акцент, плохая пауза, ударение, плоская эмоция, конфликт с таймингом. У API это прямой рост расхода символов. У подписки — выжигание лимита.
3. Подготовка текста.
TTS плохо любит сырой скрипт. Нужны нормализация чисел, расстановка пауз, расшифровка сокращений, иногда SSML или внутренние теги. В русском языке отдельно всплывают ударения и омографы. «Замок» и «замок» модель не всегда разведет по контексту.
4. Постобработка.
Loudness normalization, de-essing, noise floor, trim silence, конвертация форматов, сборка дорожек. Для подкаста это один уровень. Для игры с тысячами реплик — другой.
5. QC.
Прослушивание, разметка дефектов, повторные прогоны. Автоматический QC ловит клиппинг, тишину, длительность. Не ловит неуместную интонацию в драматической сцене.
6. Лицензии и права.
Коммерческое использование, voice cloning consent, запрет на имитацию реальных лиц без разрешения. Для корпоративного видео вопрос может быть вторичным. Для медиа и игр — блокер.
Нейросеть для озвучки в дешевой API-конфигурации может дать минимальную цену за символ. Но не обязана дать минимальную цену готовой минуты. Если на одну фразу уходит пять дублей и ручная правка, экономика меняется.
Дешевый инференс не отменяет дорогой контроль качества. Он только переносит расход в другой столбец.
У премиальных моделей другая ставка. Больше вероятность получить приемлемую просодию с первого или второго прохода. Лучше перенос стиля. Удобнее voice cloning. Меньше ручной возни в редакторе. Но это не закон. Для сухого инструктажа разница может быть несущественной. Для персонажного дубляжа — критичной.
Просодия, голоса и клонирование: где ломается расчет по символам
Цена за 100 000 символов хорошо ранжирует TTS по себестоимости. Плохо ранжирует по качеству актерской подачи.
В озвучке есть три разных режима.
Нейтральный диктор
Самый простой режим. Текст читается ровно. Требования: чистая артикуляция, стабильный тембр, отсутствие роботизированных пауз, предсказуемая скорость. Подходит для справок, навигации, обучающих модулей, простых explainer-видео.
Здесь бюджетные API выглядят сильнее. Если нет требования к уникальному голосу и эмоции, переплата за премиум часто не окупается. Ключевые параметры: язык, latency, формат аудио, batch API, стабильность генерации.
Брендовый голос
Нужна узнаваемость. Тембр должен быть постоянным. Ошибки в интонации допустимы меньше. Появляется контроль voice identity. Модель должна держать голос на длинных фрагментах, не дрейфовать по высоте и тембру, не менять дикцию между кусками.
Здесь подписочные студии и модели с клонированием получают смысл. Не из-за магии. Из-за меньшего числа правок. Если голос используется в сотнях роликов, стоимость 100 000 символов перестает быть главным числом. Важнее консистентность.
Персонажный дубляж
Самый дорогой режим. Реплика должна попадать в эмоцию, сцену, длительность и иногда в артикуляцию персонажа. Текст после перевода часто надо сжимать или расширять. Машинный перевод не решает задачу. Нужна адаптация.
Для видеоконтента добавляется липсинк. HeyGen, Rask.ai и похожие платформы обычно считают минуты видео, а не символы. Это логично. Их продукт — не TTS-ответ. Это обработанный видеорезультат: перевод, голос, тайминг, синхронизация губ. Символьная цена там скрывает большую часть вычислений.
В играх еще сложнее. Реплики короткие. Контекст разорван. Один NPC может иметь сотни строк по 2–5 секунд. Текстовые лимиты выглядят большими, но ретейки съедают их быстро. Нужны batch-экспорт, нейминг файлов, интеграция с Wwise/FMOD, соответствие loudness-целям, контроль длительности. Узкоспециализированные B2B-решения часто не публикуют цену за 100 000 символов. Они работают контрактами.
Ловушка конвертации: символы не равны минутам видео
100 000 символов ≈ 10–15 минут речи. Это полезная оценка. Не норма.
Разброс возникает из-за четырех факторов.
- Язык. Один и тот же смысл на разных языках занимает разный объем текста и разное время звучания. Немецкая строка может быть длиннее английской. Китайский текст короче по символам, но это не значит, что он пропорционально дешевле в реальной озвучке.
- Темп. Инструктаж можно читать быстро. Драматическую реплику — нет. Паузы стоят времени, но не всегда стоят символов.
- Пунктуация и разметка. Модель может интерпретировать запятые, тире, абзацы и SSML-паузы по-разному. Один и тот же текст даст разную длительность.
- Требование к синхронизации. Для закадрового перевода допустим свободный тайминг. Для дубляжа по губам — нет. Фразу приходится переписывать под длительность кадра.
Это особенно заметно на спортивном и документальном контенте. Закадровая дорожка к нарезке боев может жить свободнее, чем дубляж интервью в кадре; например, материал о том, почему борцы из США отказываются от карьеры в ММА, проще озвучить в режиме voice-over, чем синхронизировать как полноценный lip-sync дубляж с сохранением мимики спикера. Один текст. Разные требования к пайплайну. Разная цена готовой минуты.
Для расчета бюджета лучше держать две метрики одновременно:
| Метрика | Где работает | Где ломается |
|---|---|---|
| Цена за 100 000 символов | TTS API, аудиокниги, e-learning, IVR, черновая озвучка | видео с липсинком, актерский дубляж, многоязычная локализация |
| Цена за минуту готового аудио | аудиопродакшн, студийный QC, релизные дорожки | динамический TTS, персонализированная генерация |
| Цена за минуту видео | дубляж роликов, перевод интервью, липсинк | аудиокниги, игровые реплики, backend-синтез |
| Цена за ассет | локализация игр, реплики NPC, UI-voice | длинные непрерывные форматы |
| Цена за успешный дубль | персонажная озвучка, рекламные ролики | массовый нейтральный TTS |
Если проект стартует как «озвучить текст», считать надо по символам. Если проект звучит как «локализовать видео», считать надо по минутам видео и количеству языков. Если проект звучит как «сделать голосовую систему», считать надо по API-стоимости, latency и нагрузке.
Пример расчета для разных проектов
Одинаковый объем текста дает разные бюджеты. Возьмем 1 млн символов. Это примерно 100–150 минут речи при среднем темпе.
| Сценарий | Базовая модель расходов | Оценка по OpenAI TTS-1 | Оценка по базовым ElevenLabs | Основной риск |
|---|---|---|---|---|
| Черновая озвучка курса | 1 прогон + легкий QC | около $15 | около $166–$220 | монотонная подача |
| Аудиокнига без актерской игры | 1–2 прогона + монтаж | около $15–$30 до постобработки | около $166–$440 до постобработки | ударения, длинная консистентность |
| Брендовые ролики | 2–4 прогона + выбор дублей | около $30–$60 | около $332–$880 | тембровой дрейф, права на голос |
| Игровые реплики | много коротких генераций + экспорт ассетов | цена API низкая, операционные расходы выше | лимиты расходуются быстро | пайплайн, нейминг, длительность |
| Видео с липсинком | минуты видео, не символы | прямой расчет не годится | прямой расчет не годится | синхронизация, перевод, монтаж |
Цифры в таблице не включают работу редактора, саунд-дизайнера, локализатора и инженера пайплайна. Это только модельный расход на генерацию. Для дешевого API он может быть почти невидимым на фоне труда. Для премиальной подписки он уже заметен, но часто покупает скорость итераций.
Практический вывод простой. Если доля ручной работы высокая, разница между $1.5 и $20 за 100 000 символов может быть вторичной. Если генерация полностью автоматическая и объемы идут миллионами символов, эта разница становится основной строкой бюджета.
Как выбирать нейросеть для озвучки под бюджет
Выбор начинается не с демо-голоса. С режима эксплуатации.
1. Если нужен массовый нейтральный синтез через backend.
Нужен API. Смотреть цену за 1 000 символов, лимиты запросов, latency, форматы, стабильность, возможность batch-обработки. OpenAI TTS-1 с ориентиром $1.5 за 100 000 символов попадает в этот класс по экономике. Качество надо тестировать на своих текстах.
2. Если нужен управляемый голос для контента.
Нужна студия с редактором, библиотекой голосов, клонированием и быстрыми ретейками. ElevenLabs дороже в пересчете на символы, но может снизить расход времени на подбор подачи. Считать надо не только символы, но и число приемлемых дублей на 10 попыток.
3. Если нужен дубляж видео.
Символы уходят на второй план. Нужны перевод, выравнивание, голос, липсинк, экспорт видео. HeyGen, Rask.ai и аналоги корректнее сравнивать по минутам видео и качеству синхронизации. API TTS не заменяет полный видеопайплайн без дополнительной сборки.
4. Если нужна локализация игры.
Нужны ассеты, не просто аудиофайлы. Проверять пакетный экспорт, стабильность голоса по персонажу, работу с короткими репликами, интеграцию в аудиодвижок, контроль длительности. Публичная цена за символ часто не отражает реальную стоимость.
5. Если нужна аудиокнига.
Главный риск — длинная консистентность. Модель может хорошо звучать на 20 секундах и утомлять на 4 часах. Тестировать надо главу, а не абзац. Считать ретейки, ударения, дыхание, паузы, loudness и монтаж.
Минимальный тест перед закупкой не должен быть демо из интерфейса. Нужен свой датасет. 20–50 фрагментов. Разные типы текста: числа, имена, аббревиатуры, диалог, длинное предложение, эмоциональная реплика, технический термин, иностранное имя. Для локализации — еще и переведенные строки с ограничением по длительности.
Оценивать надо по измеримым параметрам:
- доля фрагментов, принятых без регенерации;
- среднее число прогонов на готовую реплику;
- расхождение длительности с целевым таймкодом;
- стабильность тембра между батчами;
- ошибки ударений и произношения;
- скорость генерации на пакетном объеме;
- стоимость 1 млн символов с учетом ретейков;
- наличие коммерческих прав и режима consent для клонирования;
- удобство выгрузки файлов и метаданных.
Параметр «красиво звучит» неоперационален. Его нельзя положить в бюджет. Лучше считать acceptance rate. Если модель принимает 80% фрагментов с первого прохода, она может быть дешевле более дешевой модели с acceptance rate 35%.
Когда подписка перестает работать
Подписка удобна на старте. Она дает интерфейс, голоса, быстрый тест. Но при росте объема появляются ограничения.
Первый сигнал — лимит символов начинает влиять на творческие решения. Редактор перестает делать ретейки, потому что «жалко символы». Это плохой режим. Качество начинает подстраиваться под тариф.
Второй сигнал — нужна автоматизация. Ручная загрузка текста в веб-интерфейс не масштабируется. Нужны API, очереди, версионирование, хранение исходников, привязка аудио к строкам локализации, повторяемость генерации. Без этого продакшн превращается в набор файлов с именами final_v7.
Третий сигнал — нужен SLA. Для релизного проекта важны не только голоса. Важны сроки, доступность сервиса, лимиты, поддержка, правовой контур, возможность закрепить голос и модельную версию. Обновление модели может изменить звучание. Для длинной серии это проблема.
Четвертый сигнал — появляются права и согласия. Voice cloning требует аккуратной юридической рамки. Датасет голоса, согласие диктора, допустимые сценарии использования, запрет на внешние имитации. В B2B это решается контрактом. В дешевой подписке — не всегда.
Индивидуальный контракт имеет смысл, когда проект живет дольше одного релиза или использует голос как актив. Игры, сериальные форматы, корпоративные ассистенты, большие обучающие платформы. Там цена за 100 000 символов становится только одной строкой в спецификации. Не главной.
Сухой выбор по классам задач
Для нейтрального TTS с большим объемом дешевый API почти всегда первая точка теста. Цена около $1.5 за 100 000 символов задает жесткий нижний ориентир. Если качество приемлемо, переплата за премиальный интерфейс не нужна.
Для контента с заметной подачей надо считать acceptance rate. ElevenLabs и близкие платформы дороже по символам, но могут выигрывать по числу пригодных дублей, управлению голосом и скорости редактора. Диапазон $16.6–$22 за 100 000 символов на базовых планах не выглядит низким, но он покупает не только инференс.
Для дубляжа видео цена за символ вторична. Минута видео, липсинк, перевод и монтаж дают другую экономику. Сравнение с API TTS некорректно без учета всего пайплайна.
Для игр публичные тарифы полезны только на прототипе. Production требует ассетного учета, интеграции, стабильности голоса и контракта. Точная стоимость за 100 000 символов в таких B2B-сценариях часто недоступна публично.
Выбор модели надо фиксировать тестом на своем материале. Не демо. Не рекламным голосом. Батчем реальных строк. После этого считать не цену генерации, а цену принятой минуты или принятого ассета. Это единственная метрика, которая переживает контакт с продакшном.