用IBM超算完成听写作业 [利用STT引擎实现语音/录音转文字]

Doing-Dictation

虽然这个方法是可行的,但是对于想好好学习语言的同学就不要像我一样投机取巧了。

基础英语课的老师在一个多月前留下了不少Assignment,其中一项就是Dictation,三段时长为12分钟的音频文件,开始的时候没有当回事,于是就一直搁置了。

以一天一篇的速度做完之前的五篇Cloze之后,就开始折腾其他东西了,直到今天,发现还有几天就要提交作业了,然而我还没有做,因为我完全不确信我未来的一段时间内能不能想起来腾出时间给这个东西。

于是开始找程序能不能自动语音转文字。

联想到之前Google Docs可以自动把图片OCR成文字并排版,于是果断把三段音频扔进了Google Drive,然而结果是并无卵用…

这条路放弃了,想起来Youtube可以自动制作听写CC,用Premiere把音频转换成了视频传到了Youtube上,半天之后都没有刷出来CC Automatic,查了一下,说是太长了也不行…虽然我不知道它指的视频太长了是多久,但显然我的不行。

搜索的时候搜到了知乎上有人问类似的问题,但回答也是并无卵用…

无意间突然想到一个问题,如果要是针对英语的话我为什么不直接搜索Speech To Text反而要搜索语音转文字呢?在想明白这个坑之后试了下,果然第一个结果没有出乎我的意料…

Google-STT-result

打开网址

https://speech-to-text-demo.mybluemix.net/

是一个基于IBM Watson云计算的Demo实例,展示了Speech To Text功能,支持几种语言,而且支持中文!云计算嘛精准度肯定是666,直接把音频拽进去,结果报错

Only WAV or FLAC or Opus files can be transcribed, please try another file format

打开Audition,将原始的mp3文件转换成了wave audio,有损变无压缩,由于wave太大了达到了400多MB,在采样设定中改为了单声道,16位音,反正是Vocal嘛。控制在了60MB左右,再次上传

STTing

精准度太赞了,除了云识别也是原始音频就是发音标准清晰的,转换进度也是和上传进度同步的,没过几分钟,就翻译完成了。

出于好奇,点进去看了看IBM Waston上提供的其他Service,还是不少,而且都有API,看来可以先Mark下来以后说不定有机会可以用到。

Waston-Services

顺便说一下,科大讯飞的语音识别也有开放平台…

http://www.xfyun.cn/services/voicedictation

不过我觉得我近期一段时间是用不到了…

发表评论

%d 博主赞过: