Есть у меня небольшой чатик в телеграме, где общается 6 человек. В четверг неожиданно большинство начало общаться с помощью голосовых сообщений. Но оказалось, что у 1 девушки не было наушников и она не смогла общаться.
Проснувшись в пятницу, я решил попробовать решить проблему. И за 30 минут прикрутил к боту функции распознавания речи (через Яндекс.speechApi), но в ходе общения выяснился печальный факт, длинные фразы обычной разговорной речи он не распознает.
Сегодня переписал распознание речи через wit.ai, пришлось сделать больше кода, т.к. по документации они не умеют работать с форматом ogg (в котором телеграм пишет голосовые сообщения) но качество распознания обычных фраз получше чем у Яндекса.
Посмотрим как он поведет себя в реальном общении.
23:50:01