Перевод аудио в текст

Содержание:

Голосовые заметки — быстрая запись идей и мыслей
Как включить голосовой ввод в Гугл Документах
- Небольшое напутствие перед тем, как начать свою речь
- Как отключить голосовой ввод в Гугл Документах
# Распознавание речи на языках, отличных от английского
Установка библиотек
Google Документы
Решения завтрашнего дня
- Виртуальные ассистенты
- Голографические ассистенты
Классификация систем распознавания речи[править]
6 лучших программ распознавания голоса 2019
Лучшее программное обеспечение для распознавания голоса для Google Docs: Google Docs Voice Typing
История
Коротко о главном
Регистрация в «Облаке»
Стационарные программы для голосового ввода

Голосовые заметки — быстрая запись идей и мыслей

Приложение «Голосовые заметки — быстрая запись идей и мыслей» можно скачать из Google Play Market здесь. В программе есть два варианта преобразования надиктованного: аудиозапись и распознавание речи в текст. Приоритетный вариант нужно выбрать в настройках приложения.

В приложении имеются следующие функции:

Аудиозапись заметки.
Напоминания.
Редактирование полученного текста.
Разделение заметок на категории.
Выбор цветовых схем.
Экспорт или импорт в машинном формате (JSON) или в текстовом формате (TXT).

Для добавления заметки, пройдите шаги:

Нажмите на кнопку в правом нижнем углу экрана.
Выберите тип заметки: аудиозапись или распознавание речи в текст. После выбора опции по умолчанию, этого шаг в дальнейшем не будет отображаться.
Добавьте заметку в категорию, поделитесь, сохраните на телефоне или отредактируйте заметку.

Как включить голосовой ввод в Гугл Документах

Рис. 3. Включаем голосовой ввод в Гугл Документах.

В Документах кликаем по вкладке «Инструменты» (1 на рис. 3), а в появившемся меню выбираем опцию «Голосовой ввод». Вместо этих двух кликов можно нажать на горячие клавиши Ctrl+Shift+S.

Далее может появиться маленькое окно по поводу вашего согласия на использование микрофона. По крайней мере, так бывает при первом использовании голосового ввода в Документах. Конечно, нужно согласиться и для этого кликнуть по кнопке «Разрешить» доступ к микрофону. Иначе будет невозможно оцифровать свою речь в текст.

После согласия на использование микрофона появится значок микрофона (рис. 4). Теперь можно, наконец, приступить к голосовому вводу.

Рис. 4. Нажав кнопку микрофона, можно говорить в Гугл Документах.

Небольшое напутствие перед тем, как начать свою речь

Чтобы текст получился корректным, нужно добавить в него точки в конце каждого предложения. Кроме того, весьма желательно, чтобы были абзацы.

Если просто говорить текст, то там автоматически, сами по себе не появятся точки и абзацы. Поэтому в речи следует произносить команды: говорить «точка» в конце каждого предложения и произносить «новая строка» в том случае, когда понадобится начать новый абзац.

Возможно, такие команды кому-то покажутся утомительными. Можно их не произносить, но тогда потребуется потратить некоторое время на ручную обработку текста. Понадобится вставить точки, заглавные буквы в начале каждого предложения и разбить текст на абзацы.

Рис. 5. Команды: Точка и Новая строка при голосовом вводе в Гугл Документах.

Ручная коррекция текста может понадобиться в любом случае. Здесь многое зависит от «сноровки» пользователя, четкой дикции и некоторого опыта работы с голосовым вводом.

Для записи речи следует нажать на серенький значок микрофона, он показан на рисунках 4 и 5. После этого значок станет красным (рис. 6). Это означает, что микрофон включен, идет запись, можно говорить и одновременно смотреть на экране, как идет запись текста.

Рис. 6. Микрофон включен, он стал красным. Можно говорить, идет запись речи.

По цвету значка микрофона легко определить, идет запись или нет. Серый значок означает, что запись речи не происходит, а значит, нет смысла говорить в микрофон.

Красный значок сигнализирует о том, что идет запись речи. Следовательно, можно говорить в микрофон, и одновременно будет появляться текст в Документах.

Рис. 7. Микрофон выключен, он серый. Это значит, что запись временно приостановлена или завершена.

Как отключить голосовой ввод в Гугл Документах

Если пользователь закончил запись свой речи, то для отключения голосового ввода нужно нажать на красный значок микрофона (рис. 6), который сразу же сменит свой цвет на серый, микрофон отключится, и речь перестанет записываться.

Также можно закрыть Гугл Документ. Тогда будет отключен не только голосовой ввод, но будет закрыт файл, куда шла запись речи, а также закроется приложение Документы. Можно не беспокоиться про сохранение файла. Известно, что в Гугл Документах происходит автоматическое сохранение всех изменений файла.

Если не нужен Google Chrome, то можно его закрыть. Закроется браузер, Гугл Документы и прекратится запись речи.

Имеется также возможность выключить микрофон в своем устройстве. Для этого имеются встроенные системные средства. Но, на мой взгляд, такой вариант является крайней мерой. Ибо если выключить микрофон, то потом при необходимости понадобится снова включать его. Думаю, что для многих пользователей это неподходящий способ для того, чтобы отключить голосовой ввод.

# Распознавание речи на языках, отличных от английского

Мы распознавали речь на английском языке, который является языком по умолчанию для каждого метода распознавания пакета SpeechRecognition. Тем не менее, это возможно для распознавания речи на других языках.

Чтобы распознавать речь на другом языке, задайте в качестве аргумента ключевого слова языка метода распознавания строку, соответствующую нужному языку. Большинство методов принимают языковой, например, «en-US» для американского английского или «fr-FR» для французского. Например, следующее распознает французскую речь в аудиофайле:

1234567

Только следующие методы принимают аргумент ключевого слова языка:

recognize_bing ()
recognize_google ()
recognize_google_cloud ()
recognize_ibm ()
recognize_sphinx ()

Чтобы выяснить, какие языковые теги поддерживаются используемым API, вам нужно обратиться к соответствующей документации. В этом ответе о переполнении стека можно найти список тегов, принятых функцией accept_google().

Установка библиотек

Объяснение демонстрационной программы подразумевает, что все необходимые речевые библиотеки установлены на вашем компьютере. Чтобы создавать и запускать демонстрационные программы, нужно установить четыре пакета: SDK (обеспечивает возможность создания демонстраций в Visual Studio), исполняющую среду (выполняет демонстрации после их создания), распознаваемый и синтезируемый (произносимый программой) языки.

Чтобы установить SDK, поищите в Интернете по словосочетанию «Speech Platform 11 SDK». Это приведет вас на нужную страницу в Microsoft Download Center (рис. 4). Щелкнув кнопку Download, вы увидите варианты, показанные на рис. 5. SDK поставляется в 32- и 64-разрядной версиях. Я настоятельно советую использовать 32-разрядную версию независимо от разрядности вашей системы. 64-разрядная версия не взаимодействует с некоторыми приложениями.

Рис. 4. Основная страница установки SDK в Microsoft Download Center

Рис. 5. Установка Speech SDK

Вам не нужно ничего, кроме одного файла .msi под x86 (для 32-разрядных систем). Выбрав этот файл и щелкнув кнопку Next, вы можете запустить программу установки прямо отсюда. Речевые библиотеки не дают особой обратной связи насчет того, когда установка закончена, поэтому не ищите никаких сообщений об успешном завершении.

Далее вы должны установить исполняющую среду. Найдя основную страницу и щелкнув кнопку Next, вы увидите варианты, показанные на рис. 6.

Рис. 6. Установка исполняющей среды

Крайне важно выбрать ту же версию платформы (в демонстрации — 11) и разрядность (32 или 64 ), что и у SDK. И вновь я настоятельно советую 32-разрядную версию, даже если вы работаете в 64-разрядной системе

Затем можно установить распознаваемый язык (recognition language). Страница скачивания приведена на рис. 7. В демонстрационной программе используется файл MSSpeech_SR_en-us_TELE.msi (English-U.S.). SR расшифровывается как распознавание речи (speech recognition), а TELE — как телефония; это означает, что распознаваемый язык предназначен для работы с низкокачественным аудиовходом, например от телефона или настольного микрофона.

Рис. 7. Установка распознаваемого языка

Наконец, вы можете установить язык и голос для синтеза речи. Страница скачивания приведена на рис. 8. Демонстрационная программа использует файл MSSpeech_TTS_en-us_Helen.msi. TTS (text-to-speech), по сути, является синонимом синтеза речи (speech synthesis)

Обратите внимание на два доступных голоса English, U.S. Есть и другие голоса English, но не U.S

Создание файлов языка синтеза — задача весьма сложная. Однако можно приобрести и установить другие голоса от множества компаний.

Рис. 8. Установка голоса и языка синтеза

Любопытно, что, хотя язык распознавания речи и голос/язык синтеза речи на самом деле являются совершенно разными вещами, оба пакета являются вариантами на одной странице скачивания. Download Center UI позволяет отметить как язык распознавания, так и язык синтеза, но попытка одновременной их установки оказалась для меня катастрофичной, поэтому я рекомендую устанавливать их по отдельности.

Google Документы

Увеличить

Если имеющаяся аудио или видеозапись имеет хорошее качество и высокую четкость, можно попробовать воспользоваться сервисами распознавания голоса. Одним из наиболее популярных является «Голосовой ввод» от Google Документов.

Достаточно просто запустить функцию в браузере и включить воспроизведение аудио рядом с микрофоном. Конечно, гарантировать точный результат нельзя, поскольку он напрямую зависит от качества записи, дикции автора, наличия сторонних шумов и прочего. Но испытать такой способ никогда не будет лишним.

Для вызова функции голосового ввода в Google Документах, необходимо открыть вкладку «Инструменты» и найти в меню пункт «Голосовой ввод…». Или воспользоваться комбинаций клавиш Ctrl + Shift + S.

Решения завтрашнего дня

Виртуальные ассистенты

Сегодня на рынке присутствует огромное количество разнообразных приложений – помощников, готовых проконсультировать владельца девайса по самым разным вопросам с помощью голоса, текстового запроса или сканирования объекта или штрих-кода, если речь идет о ритейле. Но будущее, по мнению консультантов Accenture, — за помощниками, которым не нужен специальный интерфейс. Согласно данным Accenture, к 2024 г. большинство интерфейсов не будут иметь экрана, виртуальные помощники будут интегрированы в ежедневные задачи, а к 2027 г. цифровые помощники будут круглосуточно работать в фоновом режиме на рабочих местах сотрудников.

Российские эксперты также ожидают бурного роста этого сегмента рынка. По оценкам Кирилла Петрова, основателя и управляющего директора Just AI, к 2022 г. в мире будет более 500 млн. умных колонок, а к 2025 г. их количество превысит миллиард. Такие прогнозы основываются, в частности, на ожиданиях близкого эффекта от синергии нескольких факторов: развития биометрических технологий, повышения качества распознавания речи, совершенствования алгоритмов NLU вкупе с тенденцией интеграция ассистентов B2C-сервисы из «реального мира».

Голографические ассистенты

Отдельное интересное направление – применение в реальных сервисах помощников голографического изображения, что придает ралистичную «человечинку» девайсу с компьютерной платой. Это то направление, по которому хайтек-индустрия устремилась несколько лет назад. И сегодня голографических сотрудников можно встретить в аэропортах разных стран мира, а также за прилавками торговых центров. Например, в решении Accenture для ритейла 3D-проекция продавца разговаривает с покупателем, шевеля губами и выражая эмоции.

Первых пассажиров аэропорта «Симферополь», отрывшегося в 2018 г., встречали не только реальные сотрудники, но и голограмма

На проекции также может отображаться дополнительная информация, например, интересующий товар или навигация по окружающему пространству. Специальное ПО устраняет лишние шумы, мешающие распознаванию голоса покупателя в реальной обстановке.

Между тем, голографические помощники продолжают свое движение в частный сектор. Сегодня они пытаются устроиться на журнальном столике в гостиной в виде изящной безделушки, чаще всего, в виде «говорящего» цилиндра. А вот для виртуального помощника Obexx AI Box одноименной китайской компании, специализирующейся на разработке инновационных голосовых ассистентов, владелец может сам создать образ персонального аватара – соответствующий инструмент встроен в приложение помощника.

Голографический виртуальный ассистент Obexx AI Box имеет свой визуальный образ, который можно менять

«Говорящие» помощники – голограммы становятся элементами современного интерьера

Впрочем, чтобы стать «настоящим человеком», этой «говорящей голограмме» еще предстоит приобрести целый ряд навыков и интегрировать их в единую среду общения – единый контекст, в котором необходимо выделять ряд важных аспектов: настроение, специфика окружающей обстановки, предсказание желаний пользователя и т.д.

Классификация систем распознавания речи[править]

Системы распознавания речи классифицируются:

по размеру словаря (ограниченный набор слов, словарь большого размера);
по зависимости от диктора (дикторозависимые и дикторонезависимые системы);
по типу речи (слитная или раздельная речь);
по назначению (системы диктовки, командные системы);
по используемому алгоритму (нейронные сети, скрытые Марковские модели, динамическое программирование);
по типу структурной единицы (фразы, слова, фонемы, дифоны, аллофоны);
по принципу выделения структурных единиц (распознавание по шаблону, выделение лексических элементов).

6 лучших программ распознавания голоса 2019

Программное обеспечение для распознавания голоса	Лучший для
Дракон	(Лучший результат) Команды, которым нужна лучшая в своем классе точность голоса для диктовки и управления устройством.
Google Assistant	Пользователи Android и Chrome хотят получить доступную помощь без помощи рук при поддержке мощного искусственного интеллекта.
Google Docs Voice Typing	Компании, которым нужен простой и недорогой контроль над Документами Google с помощью голосовых команд.
Siri	Пользователи Mac и организации, использующие экосистему продуктов Apple.
Кортана	Команды, желающие управлять своими компьютерами и осуществлять поиск в Интернете с помощью голосовых команд.
Speechnotes	Компании, которые хотят быстро делать заметки бесплатно в веб-приложении без излишеств.

Лучшее программное обеспечение для распознавания голоса для Google Docs: Google Docs Voice Typing

Google Docs Voice Typing — это бесплатный инструмент, который можно найти в текстовом редакторе Google Docs. Говорите в микрофон вашего компьютера, и программа переведет ваши слова в текст на экране. Вы также можете использовать команды для навигации по документам и их редактирования. Google Docs Voice Typing хорош для пользователей Google Docs, которые хотят получить бесплатное решение без излишеств для диктовки без помощи рук.

Google Docs Voice Typing Ценообразование

Google Docs Voice Typing поставляется бесплатно с Google Docs. Все, что вам нужно сделать, это открыть Google Docs с помощью настольной версии веб-браузера Chrome, и вы можете использовать встроенный микрофон вашего компьютера для диктовки. Это похоже на другие инструменты распознавания голоса, которые также являются бесплатными дополнениями.

Функции голосового набора документов Google Docs

Голосовой ввод Google Docs позволяет диктовать и редактировать файлы Google Docs без помощи рук. Программное обеспечение работает с любой настольной версией Google Chrome и позволяет вам как диктовать текст, так и перемещаться по документам с помощью голосовых команд. Это также позволяет голосовую диктовку на 62 разных языках.

Функции голосового набора документов Google включают в себя:

диктант

Как следует из названия, Google Docs Voice Typing позволяет создавать документы, не касаясь клавиатуры. Вы также можете редактировать свои документы, произнося такие слова, как «выбрать абзац» или «курсив», чтобы отформатировать контент так, как вы этого хотите. Это мощная функция, превосходящая только Dragon. Google Docs Voice Typing хорош для пользователей, которым нужна мощная голосовая диктовка в сочетании с мощным приложением для обработки текста.

автоматизация

Google Docs Voice Typing не такой умный помощник, как Google Assistant. Таким образом, он не может взаимодействовать с другими приложениями или предоставлять вам информацию о трафике. В отличие от Dragon, вы можете диктовать только файлы Google Docs. Это программное обеспечение лучше всего подходит для пользователей, которым подходит голосовой помощник для автоматизации их повседневной работы.

точность

Google Docs Voice Typing очень точный. Он даже понял нашу диктовку, несмотря на сильный фоновый шум. Это впечатляет для бесплатного решения, но все же не так точно, как Dragon. Эта платформа намного лучше справляется с пониманием естественной речи и неправильных произношений. Тем не менее, Google Docs Voice Typing хорош для тех, кто хочет диктовать без помощи рук, который понимает естественную речь.

Языковая поддержка

Программное обеспечение поддерживает 62 языка, включая испанский, французский, немецкий, японский и корейский. Это намного больше, чем у Dragon, который является дорогим продуктом, который поддерживает только до шести языков. Google Docs Голосовая печать идеально подходит для многоязычных пользователей, которым нужна мощная диктовка на разных языках.

Чего не хватает в Google Docs Voice?

Google Docs Voice Typing работает только с собственным текстовым процессором компании. Кроме того, он позволяет только печатать и редактировать текст в этой программе. Если вы хотите диктовать слова во многих различных программах, а также контролировать функциональность вашего ПК, то вам стоит попробовать Dragon. Этот сервис дает вам полный контроль над использованием вашего компьютера, а также возможность диктовать в Microsoft Word.

Что пользователи думают о Google Docs Voice Typing

Документы Google популярны среди бизнес-пользователей, и многие ценят возможность диктовать программное обеспечение и работать без помощи рук. Пользователи сообщают, что точность диктовки в целом хорошая, а опечаток мало. Имея это в виду, есть много жалоб на отсутствие телефонной линии поддержки для Документов Google.

Где найти Google Docs Voice Typing

Google Docs Voice Typing — это бесплатный инструмент для одного из самых популярных текстовых процессоров на рынке. Он предоставляет возможность создавать, редактировать и форматировать документы по своему усмотрению. Проверьте Документы Google, нажав на ссылку ниже.

Посетите Google

История

Впервые устройство, распознававшее речь, появилось в 1952, и было способно распознавать цифры, произнесённые человеком. В 1962 году на ярмарке компьютерных технологий в Нью-Йорке было представлено устройство IBM Shoebox.
Коммерческие программы по распознаванию речи появились в начале девяностых годов. Обычно их используют люди, которые из-за травмы руки не в состоянии набирать большое количество текста. Эти программы (например, Dragon NaturallySpeaking, VoiceNavigator (англ.)) переводят голос пользователя в текст, таким образом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.
Увеличение вычислительных мощностей мобильных устройств позволило и для них создать программы с функцией распознавания речи. Среди таких программ стоит отметить приложение Microsoft Voice Command, которое позволяет работать со многими приложениями при помощи голоса. Например, можно включить воспроизведение музыки в плеере или создать новый документ.
Все большую популярность применение распознавания речи находит в различных сферах бизнеса, например, врач в поликлинике может проговаривать диагнозы, которые тут же будут внесены в электронную карточку. Или другой пример. Наверняка каждый хоть раз в жизни мечтал с помощью голоса выключить свет или открыть окно. В последнее время в телефонных интерактивных приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так как выбор в нём может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека.
Следующим шагом технологий распознавания речи можно считать развитие так называемых интерфейсов безмолвного доступа (silent speech interfaces, SSI). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикулирования. Данный этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: чрезмерная чувствительность к шумам, а также необходимость четкой и ясной речи при обращении к системе распознавания. Подход, основанный на SSI, заключается в том, чтобы использовать новые сенсоры, не подверженные влиянию шумов в качестве дополнения к обработанным акустическим сигналам.

Коротко о главном

— Высококачественное аудио можно попробовать расшифровать автоматически — тогда потребуется минимум правок. Чем хуже качество, чем больше шумов, чем тише голос — тем дольше нужно будет возиться с текстом после автотранскрибации. Примеры инструментов: Google Docs, RealSpeaker, Dictation, Voco.

— Если аудио неважного качества и с обилием посторонних звуков, а у говорящего тихая речь, много слов-паразитов и отвлечений не по теме — пожалуй, стоит выбрать ручную расшифровку. Главное, облегчить ее с помощью специальных решений: oTranscribe, Express Scribe, Transcriber Pro, LossPlay или Transcribe (wreally.com)

У последнего также есть платный автотранскрибатор.

— Можно просто делегировать это дело фрилансерам — они сами разберутся, какой способ расшифровки аудио им выбрать и использовать. Как правило, стоимость часа работы опытного автора/редактора/журналиста в разы выше, чем цена на транскрибацию текста. Выгоднее заплатить сторонним исполнителям, а не тратить часы на рутину. Специалистов можно найти на Zapisano, YouDo, FL, Kwork и других площадках.

Регистрация в «Облаке»

Для этого нам понадобится Яндекс-аккаунт: заведите новый, если его у вас нет, или войдите в него под своим логином.

Если аккаунт уже есть — переходим на страницу сервиса cloud.yandex.ru и нажимаем «Подключиться»:

На следующем шаге подтверждаем согласие с условиями, и мы у цели:

На главной странице «Облака» активируем пробный период, чтобы бесплатно использовать все возможности сервиса, в том числе и SpeechKit:

Единственное, что нам осталось из формальностей, — заполнить данные о себе и привязать банковскую карту. С неё спишут два рубля и сразу вернут их, чтобы убедиться, что карта активна. Она нужна для того, чтобы пользоваться сервисами после окончания пробного периода. Если вам это будет не нужно — просто удалите карту, когда закончите проект.

Когда подключите карту — нажмите «Активировать».

Когда всё будет готово, вы попадёте на главную страницу сервиса, где увидите что-то подобное:

Вместо статуса Active вы увидите статус «Пробный период» и баланс в 3000 ₽ без кредитного лимита.

Стационарные программы для голосового ввода

Кроме перечисленных сервисов существуют разнообразные стационарные программы, позволяющие перевести речь в текст. Обычно они имеют в своей структуре встроенный механизм для распознавания текста, работают с множеством языков, и во многих случаях не требуют постоянного подключения к Интернету.

Среди таких программ отметим следующие:

«Dictate» — специальная программа-надстройка для MS Word. После установки программы в системе откройте ваш Ворд, и выберите в нём вкладку «Dictation». Появится значок с микрофоном. Рядом с последним выберите русский язык и начните запись;
«Dragon Professional Individual» (Windows, Mac) – одна из лучших платных программ в своём сегменте. Включает множество инноваций, поддерживает различные голосовые команды формата, имеют мощные возможности транскрибации;
«Braina Pro» (Windows) – это целый виртуальный ассистент, управляемый искусственным интеллектом. Вы можете диктовать ему текст более чем на 100 языках, он отлично понимает различные компьютерные команды, устанавливает будильник, служит как словарь и тезаурус;
«E-speaking.com» (Windows) — Используя программный интерфейс «Microsoft Speech Application» и «Net Framework», программа «e-Speaking» позволяет использовать голос для управления ПК, диктовки документов и электронных писем, прочтения текста вслух. Поддерживается множество голосовых команд для управления ПК.