多种语音识别、录音转文字的api服务的差别

阿里云实时语音识别

录音时长：

无限制时长。适用于会议演讲、视频直播等长时间不间断识别的场景。

音频格式：

音频格式，包括PCM、WAV、OPUS、SPEEX、AMR、MP3、AAC。

语言种类：

中日韩语、英语、西班牙语、葡萄牙语、方言等支持很多很多。参考 https://help.aliyun.com/zh/isi/developer-reference/api-reference 的语种介绍。

综合来看，我还是比较推荐这个阿里云服务，没有明显的缺点，没有录音时长的限制，还支持多种音频格式，让浏览器端 webrtc 采集到音频，再实时压缩 mp3 ，实时传输的时候体积就比pcm、wav少很多。

我之前验证了，16k采样率，12秒的mp3，24kb的样子，pcm却是 410kb。

目前通过js采集录音，实时通过 web worker 压缩 mp3编码，我已经在项目中真实使用了，感觉挺好。

讯飞听写api

录音时长：

1分钟（60s）。

音频格式：

pcm、speex（8k）、speex-wb（16k）、mp3

语言种类：

中文、英文、小语种以及中文方言，可在控制台-语音听写（流式版）-方言/语种处添加试用或购买

缺点：讯飞听写api，限制录音时长为60秒，难以满足会议录音转文字的需求。

讯飞转写api

录音时长：

无限制时长。音频流长度不做限制，典型的应用场景是大会或者直播的实时字幕。

音频格式：

pcm（采样率16k、位长16bit、单声道）

语言种类：

中文普通话、中英混合识别、英文，小语种以及中文方言可以到控制台-实时语音转写-方言/语种处添加试用或购买

缺点：讯飞转写api，要求pcm数据，在实时文字识别的时候，需要大量的数据传输。如果支持mp3编码，数据传输能减少94%（我之前验证过。）

#录音 #语音识别 #语音转文字 #讯飞听写 #讯飞转写 #音频转文字 #api #录音转文字