Facebook открыл систему распознавания речи Wav2Letter

Facebook опубликовал проект Wav2Letter, в котором открыл наработки, связанные с распознаванием речи, созданные в лаборатории искусственного интеллекта Facebook AI Research. Wav2Letter сочетает простоту и высокую эффективность преобразования речи в текст.

Код оформлен в виде модулей к библиотеке глубинного машинного обучения Torch, написанных на языке Lua и распространяемых под лицензией BSD. Для обработки звука применяется библиотека Libsndfile, а для цифровой обработки сигналов при помощи дискретного преобразования Фурье — FFTW. Поставляются готовые натренированные модели для английского языка.

Опубликованный код содержит реализацию архитектуры, основанной на использовании акустической модели и графа декодирования, созданных при помощи системы машинного обучения на базе свёрточной нейронной сети. Система использует посимвольный метод разбора, не требующий предварительного разделения фонем при проведении машинного обучения. В Wav2Letter применяется техника автоматического сегментирования, которая позволяет обучить систему на основе записи звука и текстовой транскрипции, без дополнительных аннотаций.

Для работы декодировщика требуется только список слов и языковая модель — весовые характеристики букв выделяются из акустической модели, без необходимости подключения словарей фонетической лексики. Для ускорения проведения обучения поддерживается задействование GPU NVIDIA (CUDA) или кластерных систем (OpenMPI и TorchMPI).

При проверке на тестовом наборе LibriSpeech система показала одни из лучших результатов по уровню ошибок при разборе как чистой (уровень ошибок 4.8%), так и запутанной (уровень ошибок 14.5%) речи. Для сравнения, уровень ошибок при распознавании человеком оценивается в 5.83%, а уровень ошибок при работе Mozilla Voice составляет 6.5%, Google Speech — 6.64%, wit.ai — 7.94%, Bing Speech — 11.73%, Apple Dictation — 14.24%.

Источник: opennet.ru




(Visited 37 times, 1 visits today)

Добавить комментарий

Войти с помощью: