LIFEL
рекомендует

Speech2Text — сервис для качественного перевода в текст видео- и аудиофайлов

30.03.2024
Андрей Матюков
Обзор нового российского сервиса транскрибации
Рассмотрим сервис Speech2Text, который позволяет переводить аудио- и видеофайлы в текст. Сначала расскажем, кому он может быть нужен, а затем перейдем к интерфейсу и пошаговому порядку работы. В завершение приведем плюсы и минусы сервиса.

Кому нужен сервис

Speech2text в первую очередь пригодится «пишущим» людям, которые ежедневно имеют дело с большими массивами текста и расшифровками. Например, журналисту и копирайтеру. Менее очевидно, но он также будет полезен блогеру, пиарщику или ученому.

Примеры ситуаций, когда пригодится Speech2Text:

  • Корреспонденту-новостнику — чтобы быстро расшифровать полученный комментарий по горячему событию
  • Журналисту бизнес- или лайфстайл-изданий — чтобы не сидеть весь день над расшифровкой большого интервью
  • Копирайтеру — при подготовке статьи по мотивам обучающего видео или поста, фактуру для которого прислали в голосовых сообщениях
  • Пиарщику — чтобы быстро подготовить пресс-релиз по итогам пресс-конференции
  • Автору YouTube-канала — чтобы выложить расшифровку интервью с гостем
  • Блогеру, который на ходу начитывает на диктофон фактуру для будущих постов
  • А также сценаристу, писателю, ученому и другим специалистам, которые также могут записывать аудио со своими идеями и затем быстро переводить их в текст.

Что способен распознавать Speech2Text

  • аудиофайл с цифрового диктофона или с диктофона на смартфоне
  • запись телефонного звонка, в том числе в WhatsApp или Telegram
  • голосовые сообщения в мессенджерах
  • любые аудиофайлы в форматах mp3, ogg, wma и других
  • видео с YouTube, VK, Dzen или любого другого источника

Регистрация нового пользователя

Регистрация в сервисе происходит в привычном порядкн. Нужно ввести телефон, e-mail и свое имя. На электронную почту сразу поступит ссылка с логином и паролем, и Speech2Text станет доступен для работы.

Каждому новому пользователю предоставляется бесплатный тестовый период на 3 дня с 3 часами расшифровки в день — как при самом продвинутом персональном тарифе.
транскрибатор, голос в текст, видео в текст, аудио в текст, speech2text

Порядок работы и интерфейс

Интерфейс сервиса достаточно простой. На экране мы видим 4 вкладки: «Распознавания», «Тарифы», «Контакты» и «Мессенджеры».

Распознавания

Это основное рабочее пространство пользователя, где предлагается загрузить файл или ссылку на него, а также задать основные настройки — язык и количество спикеров. Ниже будут располагаться результаты перевода файлов в текст.
транскрибатор, голос в текст, видео в текст, аудио в текст, speech2text
Мы протестировали несколько аудио и видео, а для обзора выбрали интервью на YouTube с врачом Лео Бокерией «Как дольше жить и быть здоровым». Протяженность интервью составляет 1 час и 23 минуты. На его примере по шагам расскажем, как работает сервис.
Шаг 1. Выбор языка распознавания

Можно задать один из нескольких десятков языков распознавания — от азербайджанского до японского. Если ничего не выбирать, система определит язык автоматически. Так и сделали в примере.
транскрибатор, голос в текст, видео в текст, аудио в текст, speech2text
Шаг 2. Выбор количества спикеров

Далее предлагается указать количество спикеров. В этом случае Speech2Text более адекватно распознает их реплики. Если ничего не указывать, то система сделает это автоматически в процессе, однако в таком случае возможны ошибки. Сервису придется сложнее, если собеседники говорят тихо, перебивают друг друга, если присутствуют посторонние звуки — музыка, аплодисменты, шумы.

Программа способна распознать до 9 спикеров одновременно. Деление текста на спикеров добавит 20% к общему времени распознавания. Мы выбрали двух спикеров.
транскрибатор, голос в текст, видео в текст, аудио в текст, speech2text
Сервис подскажет, как правильно выбрать количество спикеров, и что повлияет на качество
Шаг 3. Загрузить видео или аудио

Ссылку на интервью на YouTube скопировали в адресной строке и вставили ее в соответствующее окошко. Можно загрузить аудио- и видеофайлы или, как в нашем примере, вставить ссылку на видео на YouTube.
транскрибатор, голос в текст, видео в текст, аудио в текст, speech2text
В течение нескольких минут сервис определяет доступность источника и загружает видео.
транскрибатор, голос в текст, видео в текст, аудио в текст, speech2text
Затем появляется сообщение о примерном времени распознавания текста. Еще до результатов расшифровки предлагается скачать источник на компьютер файлом в формате видео и отдельно аудио.
транскрибатор, голос в текст, видео в текст, аудио в текст, speech2text
Шаг 4. Просмотр результатов в плеере

Результат распознавания загрузится в интерактивный плеер. В нижней части вкладки «Распознавания», в общем списке, некоторое время будут храниться все ваши расшифровки с датой обработки и ссылкой, чтобы в них проще было ориентироваться.
транскрибатор, голос в текст, видео в текст, аудио в текст, speech2text
На этапе просмотра результатов будет предложено ввести имена спикеров. Стоит сначала заглянуть в интерактивный плеер и, сверяясь с таймкодами, определить, какому из спикеров принадлежит та или иная реплика. После ввода имен и нажатия кнопки «Применить» условные «Спикер 1» и «Спикер 2» в тексте плеера заменятся на имена.
транскрибатор, голос в текст, видео в текст, аудио в текст, speech2text
Этот этап можно и пропустить, если имена собеседников не важны, либо вы расшифровывается монолог.

Интерактивный плеер дает возможность переслушать или пересмотреть определенные места в аудио или видео по нажатию на таймкоды.
транскрибатор, голос в текст, видео в текст, аудио в текст, speech2text
Интерактивный плеер с видео, текстом и таймкодами
Результатами распознавания можно поделиться прямо из плеера или из общего списка на вкладке «Распознавания». Для этого будет предложено скопировать ссылку на плеер.
транскрибатор, голос в текст, видео в текст, аудио в текст, speech2text
Срок хранения результатов распознавания задается по выбору пользователя в личном кабинете. Хранить их можно от дня до месяца, максимальный срок доступен и на бесплатном тарифе.
транскрибатор, голос в текст, видео в текст, аудио в текст, speech2text
Шаг 5. Скачивание готовой расшифровки

Сервис предлагает скачать получившуюся расшифровку на компьютер в формате DOCX и SRT (субтитры) с несколькими опциями. Для начала определитесь, нужны ли вам в тексте таймкоды. Они пригодятся, если это, к примеру, научный доклад, который изобилует сложными терминами, либо собеседники говорят очень уж невнятно. Удобно будет проверять корректность распознавания, сверяясь с плеером во время правки текста и прослушивая кусочки со спорными местами.

Расшифровку можно скачать в виде:

  • сплошного текста,
  • текста с делением на спикеров,
  • текста с делением на спикеров и на абзацы.

При наведении курсора на кнопки выбора под плеером сервис выдаст подсказки, какой именно вид файла вы собираетесь загрузить.
транскрибатор, голос в текст, видео в текст, аудио в текст, speech2text
Мы выбрали вариант с разбивкой на спикеров и абзацы, и без тайм-кодов, так как собеседники говорили внятно и на общие темы. Загрузка текстового файла на компьютер заняла 1−2 минуты.
транскрибатор, голос в текст, видео в текст, аудио в текст, speech2text
Конечный результат — текстовый файл с разбивкой на спикеров и абзацы
Скачанный файл можно редактировать в Word. В тексте имена собеседников выделены жирным шрифтом, верно расставлены знаки препинания, деление на абзацы произведено адекватно. В нескольких местах Speech2Text перепутал собеседников, когда они обменивались короткими репликами.

Порядок работы и интерфейс

Сервис предлагает несколько персональных и корпоративных тарифов под разные потребности пользователя.

Персональные

  • Бесплатный. В день можно расшифровать аудио или видео общей длиной 15 минут. Подойдет, например, если нужно переводить в текст собственные заметки или небольшие комментарии или видео. Если нужно распознать более длинный файл, можно разово доплатить по 2 рубля за минуту. К примеру, за получасовое аудио на бесплатном тарифе надо будет внести 30 рублей (15 бесплатных + 15 платных минут).

  • Старт за 360 рублей в месяц. Дает обработать 6 часов аудио и видео в месяц, а минута сверх лимита обойдется уже в 1 рубль.

  • Начальный за 780 рублей в месяц. Позволяет распознавать 1 час в день.

  • Стандартный тариф стоит 2200 рублей в месяц, и дает 3 часа работы в день. Минуты сверх лимита на двух последних тарифах также обойдутся в 1 рубль.
транскрибатор, голос в текст, видео в текст, аудио в текст, speech2text

Корпоративные

Тарифы для компаний также предполагают разную нагрузку. Некоторые из них позволяют работать сразу нескольким сотрудникам одновременно, что подойдет для крупных редакций.
транскрибатор, голос в текст, видео в текст, аудио в текст, speech2text

Плюсы и минусы сервиса

И в завершение перечислим преимущества и недостатки сервиса Speech2Text, которые мы отметили в ходе тестирования.

Плюсы

  • Расшифровка качественная, недочеты есть, но довольно редки.
  • Есть форматирование, разделение по предложениям, логично расставлены знаки препинания.
  • Полученный текст делится на абзацы, что помогает лучше ориентироваться в больших документах.
  • Для расшифровки видео достаточно послать лишь ссылку на файл, сервис сам скачает его и переведет в текст.
  • Есть деление по собеседникам, что удобно для видео с интервью или подкастов.
  • Сервис включает в себя плеер с таймкодами, в котором можно пересмотреть или переслушать отрывок, нажав на нужное место в тексте.
  • Хорошая скорость обработки, часовой видео файл укладывается примерно в 15 минут.

Минусы

  • Может ошибиться с распознаванием спикеров, если голоса сильно схожи по тембру или собеседники перебивают друг друга.
  • Деление на абзацы порой происходит не по смыслу.
  • Бывает, что сервис промахивается и не совсем верно распознает специальные термины и аббревиатуры.

Вывод

Несмотря на незначительные минусы, сервис эффективен при работе с голосовыми материалами. Рекомендуем попробовать самостоятельно, тем более что Speech2Text предоставляет возможность теста без регистрации, а при регистрации дарит 3 часа распознавания.
Понравилась статья? Нажми на Лайфика!
Хотите обзор своего продукта или мероприятия? Пишите:
Lifel
опубликует
статьи по теме