4 шага работы голосового бота
Голосовой бот в 2026 - это конвейер из четырёх блоков, который запускается каждый раз, когда клиент произносит фразу. Весь цикл занимает 0,8-2 секунды, и собеседник этого не замечает.
- ASR (Automatic Speech Recognition): бот «слышит» речь клиента и превращает её в текст
- NLU + LLM: языковая модель понимает смысл, выбирает реакцию, формирует ответ
- Logic + Memory: сценарный движок проверяет ветку диалога, состояние клиента, обновляет CRM
- TTS (Text-to-Speech): синтезатор озвучивает ответ голосом, неотличимым от человека
Каждый блок - отдельная нейросеть или модуль. Связаны они в реальном времени: пока клиент договаривает фразу, ASR уже транскрибирует начало, LLM получает первые токены, TTS начинает синтез. Это называется streaming - именно за счёт него получается «живой» темп диалога.
Главное отличие современного голосового бота от устаревшего IVR - не одна технология, а связка из 4 нейросетей, работающая в стриминге. Без LLM это не голосовой бот, а автоинформатор.
Какие нейросети используются в 2026
Под капотом современного голосового бота - стек из премиум-моделей, каждая отвечает за свой блок:
| Блок | Российские модели | Глобальные модели |
|---|---|---|
| ASR (распознавание) | Yandex SpeechKit, Tinkoff VoiceKit, GigaAM | Whisper Large-v3, Deepgram Nova-3, AssemblyAI |
| LLM (мышление) | YandexGPT 5 Pro, GigaChat MAX, T-Pro | GPT-5, Claude Opus 4.7, Gemini 3 Pro |
| TTS (синтез) | Yandex SpeechKit Premium, Silero v4, Saluteshape | ElevenLabs Multilingual v3, OpenAI TTS HD |
| VAD (детект пауз) | Silero VAD | WebRTC VAD, pyannote |
В реальных проектах PrimexAI комбинируем: для русского чаще всего связка Yandex SpeechKit (ASR) + GPT-4o / Claude (LLM) + ElevenLabs Multilingual (TTS). Для бюджетных проектов - GigaChat + Yandex TTS.
Как бот понимает речь — ASR
ASR (распознавание речи) - первый блок. Звуковой поток с телефонной линии (8 кГц или 16 кГц моно) разбивается на куски по 100-300 миллисекунд и отдаётся в нейросеть, которая возвращает текст.
Сложности русского ASR в телефонии:
- Узкая полоса частот (300-3400 Гц) режет высокие тона - с женскими голосами хуже
- Шумы линии: GSM-помехи, ветер, бубнящий человек рядом с клиентом
- Слова-паразиты («ну», «как бы», «короче») и переключения мысли
- Акценты и региональные говоры
Современные ASR справляются с точностью 92-97% на чистой линии и 82-88% на шумной. Этого достаточно для понимания смысла - LLM на следующем шаге восстанавливает плохо распознанные участки по контексту. Подробный обзор технологий есть в гайде «Что такое голосовой робот».
Как бот понимает смысл — NLU и LLM
Получив транскрипт, бот должен понять, что хочет клиент: ответить «да/нет», задать вопрос, выразить возражение, согласиться на встречу. До 2022 это делалось через intent classification - классификатор намерений. Точность была 75-85%, что давало много ошибок.
В 2026 классификация заменена на LLM. Языковая модель получает на вход:
- Системный промпт - роль бота, тон, цели звонка
- Базу знаний - продукты, цены, ответы на возражения
- Историю текущего диалога - всё, что говорили обе стороны
- Последнюю фразу клиента - распознанный текст
На выходе LLM выдаёт следующую реплику бота + флаги (сменить ветку сценария, эскалировать на человека, закрыть сделку). На GPT-4o / Claude Opus точность понимания смысла - 95%+ на любых сценариях, включая нестандартные возражения.
Естественный голос — TTS
TTS (синтез речи) - последний блок. Текст ответа от LLM превращается в звук. Здесь разница между «робот из метро» и «живой человек» определяется выбором движка.
Что отличает TTS уровня 2026:
- Эмоциональная окраска - бот может произнести фразу с улыбкой, удивлением, лёгким сожалением
- Контекстные паузы - перед сложными словами, после восклицаний, между мыслями
- Просодия - правильное ударение, интонационная подсветка ключевых слов
- Кастомные голоса - можно «склонировать» голос конкретного человека (легально - с согласия)
В 2026 ElevenLabs Multilingual v3 и Yandex SpeechKit Premium дают качество, при котором 70-80% слушателей не определяют, что говорит ИИ.
Связь с CRM и телефонией
Голосовой бот без интеграций - это игрушка. Чтобы он работал в боевом режиме, нужны три связки:
Телефония. Бот подключается к АТС через SIP-trunk: Mango Office, MTT, UIS, Beeline Cloud, MTS Exolve. Робот получает входящие, делает исходящие, видит CallerID, может перевести звонок на менеджера.
CRM. На каждый звонок робот либо находит карточку клиента (по номеру), либо создаёт новую. По итогам диалога - обновляет статус, теги, поля «потребность», «бюджет», «сроки», ставит задачу нужному менеджеру. Поддержка: AmoCRM, Bitrix24, HubSpot, Twenty CRM, любая через REST API.
Внешние системы. МИС в стоматологии (MEDODS, Dental4Windows), TMS в логистике (1С:Транспортная логистика), ATS в HR (hh.ru, Talantix). Чтобы робот мог читать и записывать данные в реальном времени.
Реальный пример диалога
Сценарий: реактивация спящей базы стоматологии. Клиент - женщина, 38 лет, последний визит 8 месяцев назад.
Бот: Алло, добрый день! Это Дина из стоматологии «Имплантум». Мария Сергеевна, верно?
Клиент: Да, я.
Бот: Мария Сергеевна, я поняла, последний раз вы у нас были на гигиене в августе. Хотела предложить - сейчас открыли запись на профилактический осмотр со скидкой 30%. Удобно посмотреть свободные дни?
Клиент: Я подумаю, занята сейчас.
Бот: Конечно, не отвлекаю. Скажите, осмотр - это в принципе интересно, просто не сейчас? Или сейчас другая клиника?
Клиент: В принципе да, давно собиралась.
Бот: Отлично. Тогда два варианта: записать вас на удобную дату прямо сейчас или прислать SMS со ссылкой - сами выберете когда?
Клиент: Давайте SMS.
Бот: Принято, отправлю в течение минуты на этот номер. Хорошего дня!
Что произошло технически: ASR перевёл речь в текст, LLM понял возражение «занята» и не сдался, а аккуратно квалифицировал - есть ли потребность в принципе. Получив утверждение, предложил два варианта закрытия. Робот не сделал продажу здесь, но получил «тёплый» лид и отправил SMS-задачу в очередь. Менеджер подхватит лид, как только клиент кликнет по ссылке. Подробнее про сценарии в нише - кейс стоматологии.
Метрики качества голосового бота
Чтобы оценить, хорошо ли работает бот, в PrimexAI смотрят на 6 метрик:
- Connect rate - % дозвонов до живого собеседника. Норма 30-50% (зависит от базы).
- Engagement rate - % диалогов длиннее 30 секунд. Норма 60-80%.
- Target action rate - % звонков с целевым действием (запись, согласие). Норма 8-22% на реактивации.
- WER (Word Error Rate) - точность распознавания. Норма ≤10%.
- Drop rate - % резких сбросов клиентом. Норма ≤15%.
- Сложность сценария - сколько диалогов прошли все ветви без сваливания на оператора. Норма 80%+.
Где голосовые боты ломаются
Распространённые сценарии, в которых бот «спотыкается»:
- Нестандартные имена и фамилии - ASR может перепутать. Решение: верификация по базе CRM перед диалогом.
- Перебивание собеседника - клиент говорит поверх бота. Решение: VAD + interrupt-handling в движке.
- Эмоциональные реакции (агрессия, плач, мат) - LLM-классификатор эмоций + автопереход на оператора.
- Цифры и аббревиатуры - адреса, ИНН, номера договоров. Решение: spell-mode TTS и подтверждающее повторение.
- Двусмысленные «да» (когда клиент соглашается, не понимая на что). Решение: контрольные вопросы.
Хотите увидеть, как голосовой бот будет работать в вашей нише?
На бесплатной диагностике покажу записи реальных диалогов из вашей сферы и рассчитаю окупаемость на ваших цифрах.
Бесплатная диагностика →FAQ
Бот реально отличается от автоинформатора 2010-х?
Принципиально. Автоинформатор - запись + DTMF. Современный бот - связка из 4 нейросетей с LLM в ядре, которая ведёт свободный диалог, отрабатывает возражения, понимает контекст.
Сколько времени занимает обработка одной фразы?
В режиме streaming - 0,8-2 секунды от окончания речи клиента до начала ответа бота. Это сравнимо с задержкой живого оператора и не воспринимается как «робот».
Можно ли использовать только бесплатные модели?
Можно - например Whisper Open Source для ASR, локальную LLM (Llama 3.1, Yandex GPT-Lite) и Silero TTS. Качество будет ниже премиум-стека, но для несложных сценариев и небольших объёмов работает.
Бот может перевести звонок на менеджера?
Да. Через SIP-redirect или REFER-метод бот переводит звонок без обрыва: клиент говорит с роботом, потом плавно соединяется с живым менеджером, который видит карточку с историей диалога.
Как обучить бота под мою специфику?
Через системный промпт + базу знаний. Прописываются продукты, цены, FAQ, типовые возражения, скрипт диалога. Дообучение модели не требуется - LLM достаточно гибкая, чтобы работать через инструкцию (in-context learning).