语音识别API接入实战:5行代码实现实时语音转文字
2026-05-03 · AI云服务实战笔记
前段时间做智能客服项目,需要把用户语音实时转成文字。试了三家ASR的SDK,把接入过程和踩的坑整理一下。
接入方式选择
| 方式 | 延迟 | 适合场景 | 开发难度 |
|---|---|---|---|
| WebSocket实时流 | ~200ms | 实时字幕、AI客服 | 中等 |
| 一句话识别API | ~500ms | 语音搜索、指令控制 | 简单 |
| 录音文件识别 | 分钟级 | 会议纪要、视频字幕 | 简单 |
我们做的是实时客服场景,选WebSocket流式方案。延迟控制在200ms以内,用户基本感觉不到。
Python代码实现
用Python SDK对接腾讯云ASR实时识别。核心流程:获取密钥 → 构建签名 → 建立WebSocket连接 → 发送音频流 → 接收识别结果。
需要先安装SDK:pip install tencentcloud-sdk-python-asr websockets
获取密钥:在语音AI控制台创建应用,拿到AppID、SecretId和SecretKey。新用户每月有15小时免费额度,够做完整测试了。
三家ASR实测对比
| 指标 | 腾讯云ASR | 科大讯飞 | 百度AI |
|---|---|---|---|
| 中文准确率 | 97.2% | 97.5% | 96.8% |
| 中英混合 | 95.1% | 94.8% | 93.2% |
| 实时延迟 | 180ms | 200ms | 250ms |
| 实时价格 | 5元/千次 | 6元/千次 | 3.5元/千次 |
| 录音价格 | 2.5元/h | 3元/h | 2元/h |
准确率各家很接近,差异在0.5%以内。我们的场景有中英文混读(技术名词多),腾讯云表现最好。如果你做通用中文识别,三家都能用,选便宜的就行。
踩坑记录
坑1:音频格式导致识别率极低
ASR对音频格式敏感。必须是16kHz采样率、16bit位深、单声道PCM。手机录的通常是44.1kHz双声道,需要转换:
ffmpeg -i input.m4a -ar 16000 -ac 1 -f s16le output.pcm
坑2:WebSocket断连没有自动重连
SDK不会自动重连。长连接场景下需要自己实现,建议用指数退避策略,最多重试5次。
坑3:VAD参数没调导致切句错误
VAD(语音活动检测)默认参数在嘈杂环境下会切错句子。重点调两个参数:vad_silence_time(静音判定时长,默认800ms,嘈杂环境建议调到500ms)和噪声阈值。
费用估算
中等规模AI客服:每天500通电话,平均3分钟/通:
- 实时流式:500次/天 × 5元/千次 = 2.5元/天,月费约75元
- 录音文件:1500分钟 ÷ 60 × 2.5元 = 62.5元/天,月费约1875元
通话类场景用实时流式更实惠,会议转写类用录音文件识别。