怎么接入语音识别API？

三步：1)在语音AI控制台获取密钥；2)用Python SDK或WebSocket连接API；3)发送16kHz单声道PCM音频流，接收识别结果。

语音识别API多少钱？

腾讯云ASR实时流式5元/千次，录音文件2.5元/小时。科大讯飞和百度价格接近但各有优劣。新用户有免费额度。

标准普通话准确率约97%，中英混合约95%。嘈杂环境会下降5-10%，可通过VAD参数优化。

2026-05-03 · AI云服务实战笔记

相关阅读：
从零部署AI应用 | GPU新手避坑手册

前段时间做智能客服项目，需要把用户语音实时转成文字。试了三家ASR的SDK，把接入过程和踩的坑整理一下。

我们做的是实时客服场景，选WebSocket流式方案。延迟控制在200ms以内，用户基本感觉不到。

用Python SDK对接腾讯云ASR实时识别。核心流程：获取密钥 → 构建签名 → 建立WebSocket连接 → 发送音频流 → 接收识别结果。

需要先安装SDK：pip install tencentcloud-sdk-python-asr websockets

获取密钥：在语音AI控制台创建应用，拿到AppID、SecretId和SecretKey。新用户每月有15小时免费额度，够做完整测试了。

指标	腾讯云ASR	科大讯飞	百度AI
中文准确率	97.2%	97.5%	96.8%
中英混合	95.1%	94.8%	93.2%
实时延迟	180ms	200ms	250ms
实时价格	5元/千次	6元/千次	3.5元/千次
录音价格	2.5元/h	3元/h	2元/h

准确率各家很接近，差异在0.5%以内。我们的场景有中英文混读（技术名词多），腾讯云表现最好。如果你做通用中文识别，三家都能用，选便宜的就行。

ASR对音频格式敏感。必须是16kHz采样率、16bit位深、单声道PCM。手机录的通常是44.1kHz双声道，需要转换：

ffmpeg -i input.m4a -ar 16000 -ac 1 -f s16le output.pcm

SDK不会自动重连。长连接场景下需要自己实现，建议用指数退避策略，最多重试5次。

VAD（语音活动检测）默认参数在嘈杂环境下会切错句子。重点调两个参数：vad_silence_time（静音判定时长，默认800ms，嘈杂环境建议调到500ms）和噪声阈值。

中等规模AI客服：每天500通电话，平均3分钟/通：

通话类场景用实时流式更实惠，会议转写类用录音文件识别。