Speech2Text — сервис для качественного перевода в текст видео- и аудиофайлов

30.03.2024

Андрей Матюков

Обзор нового российского сервиса транскрибации

Рассмотрим сервис Speech2Text, который позволяет переводить аудио- и видеофайлы в текст. Сначала расскажем, кому он может быть нужен, а затем перейдем к интерфейсу и пошаговому порядку работы. В завершение приведем плюсы и минусы сервиса.

Кому нужен сервис

Speech2text в первую очередь пригодится «пишущим» людям, которые ежедневно имеют дело с большими массивами текста и расшифровками. Например, журналисту и копирайтеру. Менее очевидно, но он также будет полезен блогеру, пиарщику или ученому.

Примеры ситуаций, когда пригодится Speech2Text:

Корреспонденту-новостнику — чтобы быстро расшифровать полученный комментарий по горячему событию
Журналисту бизнес- или лайфстайл-изданий — чтобы не сидеть весь день над расшифровкой большого интервью
Копирайтеру — при подготовке статьи по мотивам обучающего видео или поста, фактуру для которого прислали в голосовых сообщениях
Пиарщику — чтобы быстро подготовить пресс-релиз по итогам пресс-конференции
Автору YouTube-канала — чтобы выложить расшифровку интервью с гостем
Блогеру, который на ходу начитывает на диктофон фактуру для будущих постов
А также сценаристу, писателю, ученому и другим специалистам, которые также могут записывать аудио со своими идеями и затем быстро переводить их в текст.

Что способен распознавать Speech2Text

аудиофайл с цифрового диктофона или с диктофона на смартфоне
запись телефонного звонка, в том числе в WhatsApp или Telegram
голосовые сообщения в мессенджерах
любые аудиофайлы в форматах mp3, ogg, wma и других
видео с YouTube, VK, Dzen или любого другого источника

Регистрация нового пользователя

Регистрация в сервисе происходит в привычном порядке. Нужно ввести телефон, e-mail и свое имя. На электронную почту сразу поступит ссылка с логином и паролем, и Speech2Text станет доступен для работы.

Каждому новому пользователю предоставляется бесплатный тестовый период на 3 дня с 3 часами расшифровки в день — как при самом продвинутом персональном тарифе.

транскрибатор, голос в текст, видео в текст, аудио в текст, speech2text

Порядок работы и интерфейс

Интерфейс сервиса достаточно простой. На экране мы видим 4 вкладки: «Распознавания», «Тарифы», «Контакты» и «Мессенджеры».

Распознавания

Это основное рабочее пространство пользователя, где предлагается загрузить файл или ссылку на него, а также задать основные настройки — язык и количество спикеров. Ниже будут располагаться результаты перевода файлов в текст.

Мы протестировали несколько аудио и видео, а для обзора выбрали интервью на YouTube с врачом Лео Бокерией «Как дольше жить и быть здоровым». Протяженность интервью составляет 1 час и 23 минуты. На его примере по шагам расскажем, как работает сервис.

Шаг 1. Выбор языка распознавания

Можно задать один из нескольких десятков языков распознавания — от азербайджанского до японского. Если ничего не выбирать, система определит язык автоматически. Так и сделали в примере.

Шаг 2. Выбор количества спикеров

Далее предлагается указать количество спикеров. В этом случае Speech2Text более адекватно распознает их реплики. Если ничего не указывать, то система сделает это автоматически в процессе, однако в таком случае возможны ошибки. Сервису придется сложнее, если собеседники говорят тихо, перебивают друг друга, если присутствуют посторонние звуки — музыка, аплодисменты, шумы.

Программа способна распознать до 9 спикеров одновременно. Деление текста на спикеров добавит 20% к общему времени распознавания. Мы выбрали двух спикеров.

Сервис подскажет, как правильно выбрать количество спикеров, и что повлияет на качество

Шаг 3. Загрузить видео или аудио

Ссылку на интервью на YouTube скопировали в адресной строке и вставили ее в соответствующее окошко. Можно загрузить аудио- и видеофайлы или, как в нашем примере, вставить ссылку на видео на YouTube.

В течение нескольких минут сервис определяет доступность источника и загружает видео.

Затем появляется сообщение о примерном времени распознавания текста. Еще до результатов расшифровки предлагается скачать источник на компьютер файлом в формате видео и отдельно аудио.

Шаг 4. Просмотр результатов в плеере

Результат распознавания загрузится в интерактивный плеер. В нижней части вкладки «Распознавания», в общем списке, некоторое время будут храниться все ваши расшифровки с датой обработки и ссылкой, чтобы в них проще было ориентироваться.

На этапе просмотра результатов будет предложено ввести имена спикеров. Стоит сначала заглянуть в интерактивный плеер и, сверяясь с таймкодами, определить, какому из спикеров принадлежит та или иная реплика. После ввода имен и нажатия кнопки «Применить» условные «Спикер 1» и «Спикер 2» в тексте плеера заменятся на имена.

Этот этап можно и пропустить, если имена собеседников не важны, либо вы расшифровывается монолог.

Интерактивный плеер дает возможность переслушать или пересмотреть определенные места в аудио или видео по нажатию на таймкоды.

Интерактивный плеер с видео, текстом и таймкодами

Результатами распознавания можно поделиться прямо из плеера или из общего списка на вкладке «Распознавания». Для этого будет предложено скопировать ссылку на плеер.

Срок хранения результатов распознавания задается по выбору пользователя в личном кабинете. Хранить их можно от дня до месяца, максимальный срок доступен и на бесплатном тарифе.

Шаг 5. Скачивание готовой расшифровки

Сервис предлагает скачать получившуюся расшифровку на компьютер в формате DOCX и SRT (субтитры) с несколькими опциями. Для начала определитесь, нужны ли вам в тексте таймкоды. Они пригодятся, если это, к примеру, научный доклад, который изобилует сложными терминами, либо собеседники говорят очень уж невнятно. Удобно будет проверять корректность распознавания, сверяясь с плеером во время правки текста и прослушивая кусочки со спорными местами.

Расшифровку можно скачать в виде:

сплошного текста,
текста с делением на спикеров,
текста с делением на спикеров и на абзацы.

При наведении курсора на кнопки выбора под плеером сервис выдаст подсказки, какой именно вид файла вы собираетесь загрузить.

Мы выбрали вариант с разбивкой на спикеров и абзацы, и без тайм-кодов, так как собеседники говорили внятно и на общие темы. Загрузка текстового файла на компьютер заняла 1−2 минуты.

Конечный результат — текстовый файл с разбивкой на спикеров и абзацы

Скачанный файл можно редактировать в Word. В тексте имена собеседников выделены жирным шрифтом, верно расставлены знаки препинания, деление на абзацы произведено адекватно. В нескольких местах Speech2Text перепутал собеседников, когда они обменивались короткими репликами.

Порядок работы и интерфейс

Сервис предлагает несколько персональных и корпоративных тарифов под разные потребности пользователя.

Персональные

Бесплатный. В день можно расшифровать аудио или видео общей длиной 15 минут. Подойдет, например, если нужно переводить в текст собственные заметки или небольшие комментарии или видео. Если нужно распознать более длинный файл, можно разово доплатить по 2 рубля за минуту. К примеру, за получасовое аудио на бесплатном тарифе надо будет внести 30 рублей (15 бесплатных + 15 платных минут).

Старт за 360 рублей в месяц. Дает обработать 6 часов аудио и видео в месяц, а минута сверх лимита обойдется уже в 1 рубль.

Начальный за 780 рублей в месяц. Позволяет распознавать 1 час в день.

Стандартный тариф стоит 2200 рублей в месяц, и дает 3 часа работы в день. Минуты сверх лимита на двух последних тарифах также обойдутся в 1 рубль.

Корпоративные

Тарифы для компаний также предполагают разную нагрузку. Некоторые из них позволяют работать сразу нескольким сотрудникам одновременно, что подойдет для крупных редакций.

Плюсы и минусы сервиса

И в завершение перечислим преимущества и недостатки сервиса Speech2Text, которые мы отметили в ходе тестирования.

Плюсы

Расшифровка качественная, недочеты есть, но довольно редки.
Есть форматирование, разделение по предложениям, логично расставлены знаки препинания.
Полученный текст делится на абзацы, что помогает лучше ориентироваться в больших документах.
Для расшифровки видео достаточно послать лишь ссылку на файл, сервис сам скачает его и переведет в текст.
Есть деление по собеседникам, что удобно для видео с интервью или подкастов.
Сервис включает в себя плеер с таймкодами, в котором можно пересмотреть или переслушать отрывок, нажав на нужное место в тексте.
Хорошая скорость обработки, часовой видео файл укладывается примерно в 15 минут.

Минусы

Может ошибиться с распознаванием спикеров, если голоса сильно схожи по тембру или собеседники перебивают друг друга.
Деление на абзацы порой происходит не по смыслу.
Бывает, что сервис промахивается и не совсем верно распознает специальные термины и аббревиатуры.

Вывод

Несмотря на незначительные минусы, сервис эффективен при работе с голосовыми материалами. Рекомендуем попробовать самостоятельно, тем более что Speech2Text предоставляет возможность теста без регистрации, а при регистрации дарит 3 часа распознавания.

Понравилась статья? Нажми на Лайфика!

Error get alias

статьи по теме

LMS или LXP: в чем разница и как понять, что нужно вашей компании

Kampus LXP — умный помощник для адаптации и развития сотрудников

Kinescope — видеохостинг с защитой от скачивания

Any2text теперь с выбором языка, разделением на спикеров и субтитрами

Голос в текст с бесплатным периодом, без регистрации и на любом языке — это всё Any2text

Обновленный продукт для «Оценки 360» от iMpact LMS