Несколько лет назад я делала расшифровку аудиозаписи сессий вручную: прослушивала запись, останавливала, набирала, перематывала. Час записи — два с половиной часа работы. Понятно, что я искала, чем это заменить. Перебрала несколько инструментов — и довольно быстро поняла, что вопрос «насколько точно распознаётся речь» стоит после вопроса «куда вообще уходят данные клиента».
Зачем психологу расшифровка аудиозаписи
Расшифровка решает несколько практических задач сразу. Во-первых, цитаты: когда клиент говорит что-то точным образом — формулировку убеждения, описание конкретного страха, — это ценнее любого пересказа. Заметка по памяти сглаживает углы; текстовая расшифровка позволяет сохранить оригинальную фразу.
Во-вторых, структура заметки. Из расшифровки удобно выделять разделы для клинической документации: что обсуждалось, что клиент сказал о своём состоянии, какие задачи поставили на следующую встречу. Без расшифровки это делается по памяти и теряет в точности.
В-третьих, поиск по архиву. Когда работа с клиентом идёт год или два, иногда нужно вернуться к тому, что говорилось полгода назад: какую формулировку запроса он приносил на первую сессию, что считал «невозможным» тогда. Текст можно найти за секунды, аудиозапись — нет.
Три категории инструментов: главная разница — хранение данных
Когда я разбиралась с инструментами, то делила их не по интерфейсу и не по цене, а по одному параметру: куда физически уходит аудиофайл и что с ним происходит дальше. Это и есть главный критерий для психолога.
Локальные решения: данные никуда не уходят
Самый понятный с точки зрения конфиденциальности вариант — расшифровка прямо на вашем устройстве, без отправки файла на сторонние серверы. Главный инструмент в этой категории — Whisper от OpenAI (open-source версия, не тот, что в ChatGPT). Модель можно скачать и запустить локально: аудиофайл никуда не передаётся, обработка идёт на вашем ноутбуке или компьютере.
Для тех, кому нужен интерфейс без командной строки, есть MacWhisper — десктопное приложение для macOS поверх той же модели Whisper. Работает локально, управляется мышкой, не требует знания терминала.
Плюсы очевидны: данные клиента не покидают ваш компьютер. Это снимает большую часть вопросов по 152-ФЗ, потому что передачи персональных данных третьей стороне не происходит.
Минусы тоже реальные. Для комфортной скорости нужна достаточно мощная машина — на старом ноутбуке час аудио будет расшифровываться больше часа. Диаризация (разбивка по говорящим: кто психолог, кто клиент) работает в базовой версии Whisper слабо. И первоначальная настройка требует некоторого времени, особенно если вы не привыкли к работе с командной строкой.
Облачные российские сервисы: 152-ФЗ и кириллица
Следующая категория — облачные сервисы с серверами на территории России. Это важно, потому что по ст. 18 ч. 5 152-ФЗ при сборе персональных данных граждан РФ первичная запись должна производиться на серверах, физически расположенных в России. Европейские и американские облака под это требование не подпадают.
Из публично известных решений в этой нише — Яндекс SpeechKit. Это API, а не готовое приложение для психолога, поэтому его использование требует либо технического посредника, либо готового сервиса, который его использует под капотом. Качество распознавания кириллицы достойное, диаризация есть.
Provizor AI, которым я пользуюсь сама, тоже попадает в эту категорию: обработка и хранение данных — на российских серверах, есть договор на обработку персональных данных. Из практического удобства: расшифровка аудиозаписи сразу соединяется с шаблоном клинической заметки, не нужно переносить текст вручную. О том, как это устроено, подробнее на странице ИИ-инструментов для психологов.
Облачные зарубежные сервисы: отдельный разговор
ChatGPT с голосовым вводом, Otter.ai, Rev, Descript — все они умеют расшифровывать аудио, и часть из них делает это хорошо. Но использование с данными клиентов без серьёзной деперсонификации — проблема с точки зрения российского законодательства о персональных данных. Данные уходят на серверы за рубежом; договора на обработку персональных данных в том смысле, который требует российская практика, у большинства из них нет.
Если очень хочется использовать такой инструмент — сначала полная деперсонификация: убрать имена, узнаваемые детали, контекст, по которому можно идентифицировать клиента. И даже тогда это не автоматически решает вопрос трансграничной передачи данных. Я об этом писала подробнее в статье «5 моментов, когда я не положу клиентские данные в ChatGPT».
Практические детали, которые влияют на выбор
Помимо хранения данных, есть несколько технических параметров, которые реально важны для работы психолога:
- Качество распознавания профессиональной терминологии. Слова вроде «диссоциация», «руминация», «избегающая привязанность» транскрайберы часто коверкают — особенно если модель обучена преимущественно на общей речи. Перед тем как внедрить инструмент в рабочий процесс, стоит прогнать на нём реальный фрагмент сессии с типичными для вашей практики терминами.
- Диаризация. Разбивка по говорящим сильно упрощает чтение расшифровки: сразу видно, где говорит клиент, а где вы. Без диаризации расшифровка — монолитный текст, в котором нужно разбираться дополнительно. Whisper в базовой версии диаризацию не делает; часть облачных сервисов — делает.
- Время на расшифровку. Для практики важна не только точность, но и скорость. Если расшифровка часового аудио занимает 10 минут — это один сценарий использования; если 40 минут — другой. Облачные сервисы обычно быстрее локальных на среднем железе.
- Формат вывода. Некоторые инструменты отдают просто текст, другие — текст с временными метками, третьи — уже структурированный документ. Для психолога удобнее всего, когда расшифровка сразу соединяется с шаблоном заметки, а не требует отдельного переноса.
Чек-лист выбора инструмента
- Где физически расположены серверы, на которых обрабатывается аудио?
- Есть ли договор на обработку персональных данных с провайдером?
- Используются ли данные для обучения модели? Можно ли это отключить?
- Как долго хранится аудио и расшифровка на серверах сервиса?
- Как инструмент справляется с кириллицей и психологической терминологией на вашем типичном материале?
- Есть ли диаризация или нет — насколько это критично для вашего формата заметок?
- Как расшифровка встраивается в ваш рабочий процесс — ручной перенос или автоматическая интеграция с шаблоном документации?
Мой текущий рабочий процесс
Сейчас я пишу сессию на телефон, после встречи загружаю файл в Provizor AI. Расшифровка аудиозаписи приходит за несколько минут; дальше я редактирую черновик клинической заметки, который собирается автоматически из текста. Это занимает примерно 5–7 минут вместо прежних двух с лишним часов.
Для коллег, которых беспокоит тема клиентского согласия на запись и расшифровку — это отдельный вопрос, который стоит решить до внедрения любого инструмента. Я коротко разбираю его в материале «Как объяснить клиенту про ИИ».
Если хочется попробовать, как устроена транскрибация в специализированном сервисе с российской инфраструктурой, — посмотрите на страницу агрегатора инструментов для психологов: там собрано всё, что есть в Provizor AI, включая расшифровку и документацию.