自托管替代 Deepgram / AssemblyAI:开源、免费、数据不出本地

Deepgram、AssemblyAI、Google/Azure Speech 这类云端语音识别 API 按分钟计费,音频还得上传到第三方。如果你想自己托管、零按量费用、音频不出本地——尤其中文场景——FunASR 是一个直接的开源替代:它自带 OpenAI 兼容的转写 API,客户端只改 base_url 即可。

对比

FunASR(自托管)Deepgram / AssemblyAI
价格免费(MIT),无按分钟计费按分钟付费
部署自托管(本地/私有云/边缘)云 API(托管)
数据隐私音频不出本地上传到供应商
中文/粤语业界领先以英文为主
接口OpenAI 兼容(drop-in)各自专有 SDK
离线/CPU✅(含 llama.cpp 单二进制)❌ 仅云

云 API 的优势是免运维、弹性扩缩、英文与增值功能成熟;FunASR 的优势是免费、自托管、隐私、中文。按需求取舍。

起一个 OpenAI 兼容的本地 STT 服务

pip install funasr
funasr-server --model sensevoice --device cuda      # 或 --device cpu
# → POST http://localhost:8000/v1/audio/transcriptions

然后任何 OpenAI 客户端只改 base_url 即可——无需改业务代码:

from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="not-needed")
text = client.audio.transcriptions.create(model="sensevoice", file=open("audio.wav","rb")).text

从 Deepgram/AssemblyAI 或 OpenAI Whisper API 迁移:把请求指向你自己的 funasr-server 即可,按量账单归零、数据留在本地。

选模型

多语种 + 情感选 SenseVoice;中文 + 时间戳/热词选 Paraformer;最高精度 + 31 语种选 Fun-ASR-Nano。详见 选型指南

FunASR 全家桶开源、可商用、可自托管。觉得有用点个 Star 👇

⭐ Star FunASR

也欢迎:SenseVoice · Fun-ASR · FunClip

相关文章