自托管替代 Deepgram / AssemblyAI:开源、免费、数据不出本地
Deepgram、AssemblyAI、Google/Azure Speech 这类云端语音识别 API 按分钟计费,音频还得上传到第三方。如果你想自己托管、零按量费用、音频不出本地——尤其中文场景——FunASR 是一个直接的开源替代:它自带 OpenAI 兼容的转写 API,客户端只改 base_url 即可。
对比
| FunASR(自托管) | Deepgram / AssemblyAI | |
|---|---|---|
| 价格 | 免费(MIT),无按分钟计费 | 按分钟付费 |
| 部署 | 自托管(本地/私有云/边缘) | 云 API(托管) |
| 数据隐私 | 音频不出本地 | 上传到供应商 |
| 中文/粤语 | 业界领先 | 以英文为主 |
| 接口 | OpenAI 兼容(drop-in) | 各自专有 SDK |
| 离线/CPU | ✅(含 llama.cpp 单二进制) | ❌ 仅云 |
云 API 的优势是免运维、弹性扩缩、英文与增值功能成熟;FunASR 的优势是免费、自托管、隐私、中文。按需求取舍。
起一个 OpenAI 兼容的本地 STT 服务
pip install funasr funasr-server --model sensevoice --device cuda # 或 --device cpu # → POST http://localhost:8000/v1/audio/transcriptions
然后任何 OpenAI 客户端只改 base_url 即可——无需改业务代码:
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="not-needed")
text = client.audio.transcriptions.create(model="sensevoice", file=open("audio.wav","rb")).text
从 Deepgram/AssemblyAI 或 OpenAI Whisper API 迁移:把请求指向你自己的 funasr-server 即可,按量账单归零、数据留在本地。
选模型
多语种 + 情感选 SenseVoice;中文 + 时间戳/热词选 Paraformer;最高精度 + 31 语种选 Fun-ASR-Nano。详见 选型指南。
相关文章
- FunASR vs Whisper 实测对比
- SenseVoice 部署指南
- Fun-ASR-Nano 使用指南
- 说话人分离:谁在何时说话
- 情感与语种检测
- 实时流式语音识别
- 转写超长音频(1小时一次搞定)
- 命令行转写(文本/JSON/SRT)
- 自托管 OpenAI Whisper API 替代
- 自动生成字幕(SRT / VTT)
- Python 语音转文字教程
- FunASR 跑进 llama.cpp(whisper.cpp 替代)
- FunASR vs faster-whisper(中文/粤语)
- 轻量语音识别(CPU 250MB)
- 选哪个 FunASR 模型
- 粤语语音识别(SenseVoice 原生粤语)