Как расшифровать аудиозапись сессии?

Запись прогоняют через сервис транскрибации, который переводит речь в текст, а затем этот текст используют как основу для заметки. Ключевой критерий выбора инструмента — не точность сама по себе, а конфиденциальность и место хранения данных.

Какой сервис транскрибации безопасен для психолога?

Безопаснее локальные решения (расшифровка на своём устройстве) и российские облака с хранением данных в РФ. К зарубежным сервисам нужно относиться осторожно: передача записи сессии за рубеж — отдельный риск по конфиденциальности и 152-ФЗ.

Можно ли записывать сессию на диктофон?

Только с информированного согласия клиента: он должен знать о записи, её цели, способе хранения и сроке удаления. Без согласия запись недопустима.

Расшифровка аудиозаписи сессий: что выбрать в 2026

Екатерина КаменскаяСооснователь Provizor AI, психолог

26 мая 2026 г.5 мин чтенияОбновлено 4 июня 2026 г.

расшифровка
Whisper
конфиденциальность
152-ФЗ

Несколько лет назад я делала расшифровку аудиозаписи сессий вручную: прослушивала запись, останавливала, набирала, перематывала. Час записи — два с половиной часа работы. Понятно, что я искала, чем это заменить. Перебрала несколько инструментов — и довольно быстро поняла, что вопрос «насколько точно распознаётся речь» стоит после вопроса «куда вообще уходят данные клиента».

Зачем психологу расшифровка аудиозаписи

Расшифровка решает несколько практических задач сразу. Во-первых, цитаты: когда клиент говорит что-то точным образом — формулировку убеждения, описание конкретного страха, — это ценнее любого пересказа. Заметка по памяти сглаживает углы; текстовая расшифровка позволяет сохранить оригинальную фразу.

Во-вторых, структура заметки. Из расшифровки удобно выделять разделы для клинической документации: что обсуждалось, что клиент сказал о своём состоянии, какие задачи поставили на следующую встречу. Без расшифровки это делается по памяти и теряет в точности.

В-третьих, поиск по архиву. Когда работа с клиентом идёт год или два, иногда нужно вернуться к тому, что говорилось полгода назад: какую формулировку запроса он приносил на первую сессию, что считал «невозможным» тогда. Текст можно найти за секунды, аудиозапись — нет.

Три категории инструментов: главная разница — хранение данных

Когда я разбиралась с инструментами, то делила их не по интерфейсу и не по цене, а по одному параметру: куда физически уходит аудиофайл и что с ним происходит дальше. Это и есть главный критерий для психолога.

Локальные решения: данные никуда не уходят

Самый понятный с точки зрения конфиденциальности вариант — расшифровка прямо на вашем устройстве, без отправки файла на сторонние серверы. Главный инструмент в этой категории — Whisper от OpenAI (open-source версия, не тот, что в ChatGPT). Модель можно скачать и запустить локально: аудиофайл никуда не передаётся, обработка идёт на вашем ноутбуке или компьютере.

Для тех, кому нужен интерфейс без командной строки, есть MacWhisper — десктопное приложение для macOS поверх той же модели Whisper. Работает локально, управляется мышкой, не требует знания терминала.

Плюсы очевидны: данные клиента не покидают ваш компьютер. Это снимает большую часть вопросов по 152-ФЗ, потому что передачи персональных данных третьей стороне не происходит. Отдельно стоит держать в голове, что аудиозапись сессии — это не просто персональные данные: содержание разговора с психологом по сути относится к данным о психическом здоровье (специальная категория ПД, ст. 10 152-ФЗ), а сам голос — потенциально биометрические ПД (ст. 11). Конкретные обязательства по этим категориям лучше уточнять у юриста по персональным данным; общая логика — требования к обработке строже, чем к «обычным» ПД.

Минусы тоже реальные. Для комфортной скорости нужна достаточно мощная машина — на старом ноутбуке час аудио будет расшифровываться больше часа. Диаризация (разбивка по говорящим: кто психолог, кто клиент) работает в базовой версии Whisper слабо. И первоначальная настройка требует некоторого времени, особенно если вы не привыкли к работе с командной строкой.

Облачные российские сервисы: 152-ФЗ и кириллица

Следующая категория — облачные сервисы с серверами на территории России. Это важно, потому что по ст. 18 ч. 5 152-ФЗ при сборе персональных данных граждан РФ первичная запись должна производиться на серверах, физически расположенных в России. Европейские и американские облака под это требование не подпадают.

Из публично известных решений в этой нише — Яндекс SpeechKit. Это API, а не готовое приложение для психолога, поэтому его использование требует либо технического посредника, либо готового сервиса, который его использует под капотом. Качество распознавания кириллицы достойное, диаризация есть.

Provizor AI, которым я пользуюсь сама, тоже попадает в эту категорию: обработка и хранение данных — на российских серверах, есть договор на обработку персональных данных. Из практического удобства: расшифровка аудиозаписи сразу соединяется с шаблоном клинической заметки, не нужно переносить текст вручную. О том, как это устроено, подробнее на странице ИИ-инструментов для психологов.

Облачные зарубежные сервисы: отдельный разговор

ChatGPT с голосовым вводом, Otter.ai, Rev, Descript — все они умеют расшифровывать аудио, и часть из них делает это хорошо. Но использование с данными клиентов без серьёзной деперсонификации — проблема с точки зрения российского законодательства о персональных данных. Данные уходят на серверы за рубежом; договора на обработку персональных данных в том смысле, который требует российская практика, у большинства из них нет.

Если очень хочется использовать такой инструмент — сначала полная деперсонификация: убрать имена, узнаваемые детали, контекст, по которому можно идентифицировать клиента. И даже тогда это не автоматически решает вопрос трансграничной передачи данных. Я об этом писала подробнее в статье «5 моментов, когда я не положу клиентские данные в ChatGPT».

Практические детали, которые влияют на выбор

Помимо хранения данных, есть несколько технических параметров, которые реально важны для работы психолога:

Качество распознавания профессиональной терминологии. Слова вроде «диссоциация», «руминация», «избегающая привязанность» транскрайберы часто коверкают — особенно если модель обучена преимущественно на общей речи. Перед тем как внедрить инструмент в рабочий процесс, стоит прогнать на нём реальный фрагмент сессии с типичными для вашей практики терминами.
Диаризация. Разбивка по говорящим сильно упрощает чтение расшифровки: сразу видно, где говорит клиент, а где вы. Без диаризации расшифровка — монолитный текст, в котором нужно разбираться дополнительно. Whisper в базовой версии диаризацию не делает; часть облачных сервисов — делает.
Время на расшифровку. Для практики важна не только точность, но и скорость. Если расшифровка часового аудио занимает 10 минут — это один сценарий использования; если 40 минут — другой. Облачные сервисы обычно быстрее локальных на среднем железе.
Формат вывода. Некоторые инструменты отдают просто текст, другие — текст с временными метками, третьи — уже структурированный документ. Для психолога удобнее всего, когда расшифровка сразу соединяется с шаблоном заметки, а не требует отдельного переноса.

Чек-лист выбора инструмента

Где физически расположены серверы, на которых обрабатывается аудио?
Есть ли договор на обработку персональных данных с провайдером?
Используются ли данные для обучения модели? Можно ли это отключить?
Как долго хранится аудио и расшифровка на серверах сервиса?
Как инструмент справляется с кириллицей и психологической терминологией на вашем типичном материале?
Есть ли диаризация или нет — насколько это критично для вашего формата заметок?
Как расшифровка встраивается в ваш рабочий процесс — ручной перенос или автоматическая интеграция с шаблоном документации?

Мой текущий рабочий процесс

Сейчас я пишу сессию на телефон, после встречи загружаю файл в Provizor AI. Расшифровка аудиозаписи приходит за несколько минут; дальше я редактирую черновик клинической заметки, который собирается автоматически из текста. Это занимает примерно 5–7 минут вместо прежних двух с лишним часов.

Для коллег, которых беспокоит тема клиентского согласия на запись и расшифровку — это отдельный вопрос, который стоит решить до внедрения любого инструмента. Я коротко разбираю его в материале «Как объяснить клиенту про ИИ».

Если хочется попробовать, как устроена транскрибация в специализированном сервисе с российской инфраструктурой, — посмотрите на страницу агрегатора инструментов для психологов: там собрано всё, что есть в Provizor AI, включая расшифровку и документацию.

Частые вопросы

Как расшифровать аудиозапись сессии?: Запись прогоняют через сервис транскрибации, который переводит речь в текст, а затем этот текст используют как основу для заметки. Ключевой критерий выбора инструмента — не точность сама по себе, а конфиденциальность и место хранения данных.
Какой сервис транскрибации безопасен для психолога?: Безопаснее локальные решения (расшифровка на своём устройстве) и российские облака с хранением данных в РФ. К зарубежным сервисам нужно относиться осторожно: передача записи сессии за рубеж — отдельный риск по конфиденциальности и 152-ФЗ.
Можно ли записывать сессию на диктофон?: Только с информированного согласия клиента: он должен знать о записи, её цели, способе хранения и сроке удаления. Без согласия запись недопустима.