多种语音识别、录音转文字的api服务的差别

阿里云实时语音识别
录音时长:
无限制时长。适用于会议演讲、视频直播等长时间不间断识别的场景。
音频格式:
音频格式,包括PCM、WAV、OPUS、SPEEX、AMR、MP3、AAC。
语言种类:
中日韩语、英语、西班牙语、葡萄牙语、方言等支持很多很多。参考 https://help.aliyun.com/zh/isi/developer-reference/api-reference 的语种介绍。

综合来看,我还是比较推荐这个阿里云服务,没有明显的缺点,没有录音时长的限制,还支持多种音频格式,让浏览器端 webrtc 采集到音频,再实时压缩 mp3 ,实时传输的时候体积就比pcm、wav少很多。
我之前验证了,16k采样率,12秒的mp3,24kb的样子,pcm却是 410kb。
目前通过js采集录音,实时通过 web worker 压缩 mp3编码,我已经在项目中真实使用了,感觉挺好。



讯飞听写api
录音时长:
1分钟(60s)。
音频格式:
pcm、speex(8k)、speex-wb(16k)、mp3
语言种类:
中文、英文、小语种以及中文方言,可在控制台-语音听写(流式版)-方言/语种处添加试用或购买

缺点:讯飞听写api,限制录音时长为60秒,难以满足会议录音转文字的需求。



讯飞转写api
录音时长:
无限制时长。音频流长度不做限制,典型的应用场景是大会或者直播的实时字幕。
音频格式:
pcm(采样率16k、位长16bit、单声道)
语言种类:
中文普通话、中英混合识别、英文,小语种以及中文方言可以到控制台-实时语音转写-方言/语种处添加试用或购买

缺点:讯飞转写api,要求pcm数据,在实时文字识别的时候,需要大量的数据传输。如果支持mp3编码,数据传输能减少94%(我之前验证过。)