Проверяем голосовое сообщение на дипфейк по спектрограмме
В 2023–2024 годах инференс моделей клонирования голоса перешёл из исследовательских лабораторий в потребительский сегмент. RVC, So-VITS-SFT, ElevenLabs, PlayHT — все они позволяют за минуты сгенерировать аудио с произвольным текстом и целевым голосом.

Этот канал имеет ограничения, которые нужно фиксировать сразу. Спектрограмма не является абсолютным доказательством подлинности. Она — индикатор. Точность индикации падает пропорционально качеству генеративной модели. На отдельных доменах (короткие фразы, шумная среда, кодеки мессенджеров) метод даёт неоднозначный результат. Разберём, что именно доступно на спектрограмме и какие маркеры указывают на синтез.
Физика звука против алгоритмов: что отображается на спектрограмме
Спектрограмма — двумерная визуализация результатов кратковременного преобразования Фурье (STFT). Ось X — время, ось Y — частота в логарифмическом или линейном масштабе, интенсивность цвета — амплитуда спектральной плотности в децибелах. Для голосового анализа применяют окна 20–40 мс с перекрытием 50–75%, FFT-размер 1024–4096 точек. Частота дискретизации 16 кГц даёт найквистовский предел 8 кГц; при 44.1 кГц — 22.05 кГц. Для задачи детекции дипфейков информативен диапазон 0–16 кГц.
Что несёт физический сигнал человеческой речи:
- Формантные структуры — концентраты энергии вокруг 500 Гц, 1500 Гц, 2500 Гц. Результат резонансов голосового тракта.
- Гармоники основного тона (F0) — кратные частоты, модулируемые вибрацией связок. Типичный F0: 80–300 Гц. На спектрограмме виден как горизонтальные параллельные линии.
- Турбулентный шум — распределён в верхней части диапазона, особенно на фрикативных и аспирированных согласных (с, ш, ф, х).
- Микровариации — дрожание амплитуды и частоты в масштабе 5–20 мс, создающее естественную «зернистость». Джиттер F0 составляет 0,5–2%, шиммер амплитуды — 0,3–1,5 дБ.
Вокодеры и нейросетевые генеративные модели (HiFi-GAN, NSF-HiFiGAN, BigVGAN, iSTFT-VITS) восстанавливают сигнал из мел-спектрограммы или из латентного представления акустической модели (Tacotron 2, VITS, Tortoise, XTTS). На каждом этапе пайплайна возникают потери и артефакты:
- Преобразование mel → waveform через нейросетевой вокодер генерирует спектральные искажения в области выше 8 кГц.
- Дискретизация выходной формы волны до 16 кГц или 24 кГц обрезает высокочастотные гармоники и вносит алиасинг.
- Кодек Opus, AMR-WB, AAC, применяемый мессенджерами, дополнительно сжимает сигнал, маскируя часть артефактов.
Эти три источника — вокодер, дискретизация, кодек — оставляют в спектрограмме следы, которые и составляют базу визуальной детекции.
Критические маркеры: где ИИ-модели ошибаются
Признаки синтеза на спектрограмме — комбинация нескольких аномалий. Устойчивая диагностика требует совокупности маркеров, а не одиночного сигнала.
Спектрограммный маркер — это не приговор, а статистический сигнал. Вероятность ошибки первого рода при одиночном маркере достигает 30–60%.
Ниже — перечень маркеров, выявленных на материалах датасетов ASVspoof 2019/2021, Fake-or-Real, WaveFake и MLAAD:
1. Зернистость верхнего спектра (4–8 кГц и выше). Вокодеры GAN-семейства часто генерируют некорректную фоновую структуру в ВЧ-диапазоне. Визуально выглядит как зернистая «сетка», которой нет в натуральной речи.
2. Разрывы и ступеньки на гармониках. Натуральный голос F0 меняется плавно. Вокодеры на границах фонем создают резкие переходы — «ступеньки» вдоль горизонтальных линий гармоник.
3. Фазовые искажения. Кепстр фазы в реальной речи стохастичен. Модели диффузионного типа (Diff-SVC, Diff-HierVC) и BigVGAN дают структурированные фазовые паттерны — видимая повторяющаяся текстура в средней части спектра.
4. Аномалии пауз. Реальная пауза — это тишина с лёгким шумовым дном. ИИ-генерация оставляет «эхо» остаточных гармоник предыдущего сегмента — вертикальные штрихи в моменты тишины.
5. Отсутствие микровариаций F0 и амплитуды. Реальный голос содержит джиттер и шейк частоты основного тона в диапазоне ±2–5%. Синтезированный голос часто демонстрирует аномально стабильный F0 на длинных вокалах.
6. Спектральные «дыры» в ВЧ-области. Артефакт нейросетевых vocoder-пайплайнов — узкие полосы затухания в области 6–10 кГц, видимые как горизонтальные тёмные полосы.
7. Слишком «чистый» спектр. Отсутствие ожидаемого шума комнаты, шума дыхания, микрофонного преампа. ИИ-аудио после нескольких итераций денойзинга теряет естественную шумовую фактуру.
| Маркер | TTS-классика (Tacotron+HiFi-GAN) | Диффузионные (Diff-SVC, Tortoise) | Zero-shot клон (XTTS, ElevenLabs) |
|---|---|---|---|
| Зернистость 4–8 кГц | Сильная | Умеренная | Слабая |
| Ступеньки гармоник | Частые | Редкие | Единичные |
| Фазовые артефакты | Средние | Сильные | Умеренные |
| Эхо в паузах | Есть | Есть | Минимальное |
| Стабильность F0 | Заметно повышена | Умеренно повышена | Близко к натуральной |
Эта таблица — обобщение по бенчмаркам 2023–2024 годов. Конкретные настройки (шум, денойзинг, конверсия кодека) смещают картину. Делать вывод по одному кадру нельзя.
Почему визуальный анализ не даёт 100% гарантии подлинности
Физические ограничения визуального метода обусловлены каналом передачи информации.
Человеческий глаз не декодирует кепстр. Информативный слой для классификатора спуфинга — кепстральные коэффициенты MFCC, мел-частотные признаки, статистики длительных фреймов. Спектрограмма — это сырое STFT. Она убирает фазовую информацию при усреднении по окну, отображая амплитудный спектр. Часть маркеров остаётся за пределами визуального слоя.
Современные генеративные модели маскируют артефакты под шум. ElevenLabs Multilingual v2 и обученные RVC-модели после файнтюнинга на 20–60 минутах чистой речи целевого диктора встраивают шумовой слой, визуально неотличимый от комнатного шума. Идентификация требует нейросетевого классификатора, обученного на ASVspoof DF.
Зависимость от исходного кодека. Голосовое сообщение в Telegram шифруется Opus 24 кГц. WhatsApp применяет Opus с переменным битрейтом 16–32 кбит/с. iMessage использует AAC-LC. Каждый этап сжатия видоизменяет артефакты синтеза. Маркер зернистости 4–8 кГц может быть уничтожен кодеком или, наоборот, усилен с его стороны.
Отсутствие шкалы достоверности. Спектрограмма не возвращает p-value или softmax-вероятность. Решение принимает субъект с произвольной квалификацией. Человеческая оценка на датасете ASVspoof 2021 Logical Access даёт точность около 55–60% — близко к случайному угадыванию.
Длина сегмента. Короткие сообщения (5–10 секунд) дают меньше признаков. Маркеры усредняются. Zero-shot модели (XTTS-v2, ElevenLabs Turbo) рассчитаны на длинные тексты, но на коротких фразах их артефакты проявляются слабее.
Ложные срабатывания. Реальный голос в шумной комнате, через микрофон с АРУ, после Bluetooth-кодека SBC или AAC даёт спектрограмму с маркерами, неотличимыми от синтеза. Ложноположительная детекция — типичная ошибка метода.
Визуальная экспертиза спектрограммы — это фильтр первого уровня. Чувствительности метода для бинарного решения «дипфейк — нет» недостаточно.
От любительского софта к профессиональным бенчмаркам
Любительский сегмент инструментов для визуализации спектрограмм:
- Audacity — бесплатный аудиоредактор. Встроенный спектр-вью с логарифмической шкалой и настройкой FFT-размера (256–8192 точек). Минимально необходимый арсенал. Подходит для скриншотов и базового скрининга.
- Sonic Visualiser (Queen Mary University, открытый код) — поддержка слоёв, спектр-пэйнтов, экспорт спектрограмм в PNG/PDF. Предпочтителен для документирования.
- Praat — академический стандарт для фонетического анализа. Узкая специализация: формантные траектории, pitch contour, intensity contour.
Профессиональные детекторы:
- RawNet2, RawNet2-Attention, AASIST — нейросетевые классификаторы спуфинга, обученные на ASVspoof 2019 LA, 2021 LA/DF, FakeAVCeleb. Сырой волновой вход, без явного STFT. Точность на LA-сегменте: EER 0,83–1,98% по результатам 2023–2024.
- WaveFake, RawGAT-ST, SE-ResNet-MSA — модели, обученные на синтезе конкретных вокодеров. Возвращают карты уверенности по частотным диапазонам.
- Resemble AI Detect, Resemble.ai Speech Watermark Detector, ElevenLabs Speech Classifier, PlayHT Detection API, Microsoft Azure Speaker Recognition — коммерческие API. Возвращают вероятность синтеза и вероятность конкретной модели.
Стандарт ASVspoof (с 2015 года, серия интернациональных челленджей под эгидой IEEE / ISCA) — главный открытый бенчмарк. Версии LA (Logical Access) и DF (Deep Fake) фиксируют домены: синтез через TTS-pipeline (LA) и аудио-клонирование в более свободных условиях (DF). Equal Error Rate — основная метрика. На ASVspoof 2024 DF лидирующие модели показывают EER 1,5–3,0%, что ниже ошибок человека-эксперта.
В финтех-сегменте схемы мошенничества, основанные на аудиодипфейках, мигрируют в зоны алгоритмической и социальной торговли. Имитация голосовых подтверждений сделок, перехват голосовых при фишинге, подделка инсайдерских на биржевых платформах — все эти эпизоды используют одну уязвимость: голос как доверенный биометрический фактор. Текстово-зависимая и текстово-независимая верификация в банковских call-центрах строится на кепстральных и просодических признаках, устойчивых к линейному растяжению и смене кодека. Эти же признаки уязвимы перед zero-shot клонированием уровня XTTS v2 и выше.
Пределы человеческого восприятия: RVC, ElevenLabs, обученные клоны
Эволюция генеративных моделей за 2023–2024 годы сместила баланс методов детекции.
RVC (Retrieval-based Voice Conversion). Архитектура на базе HuBERT-экстрактора фич и HiFi-GAN-вокодера. Обучается на 10–60 минутах чистого голоса целевого диктора. На коротких сегментах (5–15 секунд) маркеры RVC минимальны. Спектрограмма в большинстве случаев неотличима от натуральной речи. Человеческая оценка в слепых тестах — 50–55% точности.
ElevenLabs Multilingual v2, Turbo v2.5. Закрытый коммерческий пайплайн с zero-shot клонированием. Вход — 30–60 секунд образца. Выход — поток с минимальными спектральными следами. Спектрограммные маркеры — зернистость 8+ кГц, эхо в паузах. Маркеры стабильно слабые и требуют высокого разрешения FFT для визуализации.
So-VITS-SFT, Bert-VITS2, Fish-Speech, OpenVoice. Открытые архитектуры, активно развиваются в комьюнити. На обученных голосах уровень «убеждения» приближается к натуральному. Маркеры видны только на этапе fine-tune с малым датасетом (≤10 минут) — выглядят как размытие гармоник в области 2–4 кГц.
Диффузионные модели (Diff-SVC, Diff-VC, Diff-HierVC). Архитектуры на основе диффузионных деноизеров. Спектрограмма выходов содержит фазовые артефакты в среднечастотном диапазоне. Это редкий случай, когда визуальный метод сохраняет преимущество — паттерн виден как повторяющаяся полосчатая текстура в зоне 1–4 кГц.
Zero-shot модели. XTTS v2, Style-TTS2, Tortoise — не требуют файнтюнинга на целевом дикторе. Качество генерации в среднем ниже файнтюненных моделей, но для бытового мошенничества уровень достаточен. На коротких сегментах маркеры часто отсутствуют вовсе.
Систематический вывод: визуальная детекция по спектрограмме остаётся рабочей для недоробученных моделей и для диффузионного семейства. На современных zero-shot и файнтюненных пайплайнах человеку без специализированного софта установить факт синтеза нельзя.
---
Спектрограммный анализ голосовых сообщений — рабочий фильтр первого уровня. Его порог точности ограничен архитектурно: он не декодирует кепстр, чувствителен к кодекам мессенджеров, плохо переносит короткие сегменты. На современных моделях XTTS v2, ElevenLabs и файнтюненных RVC-клонах метод выдаёт неоднозначный результат. Финальная верификация требует нейросетевого классификатора уровня AASIST или коммерческого API с доступом к кепстральным признакам. Использовать спектрограмму следует как триггер углублённой проверки, а не как инструмент бинарного решения. Маркеры из раздела критических зон — повод передать аудио в систему автоматической детекции. Маркеры отсутствуют — не доказательство подлинности. Итоговое решение принимается только по совокупности визуального скрининга и автоматического классификатора, обеспечивающего EER ниже 5% на релевантном домене.