FunASR 模型
根据应用场景选择最合适的模型 — 从极速多语种识别到中文最高精度。
快速对比
| 模型 | 速度 | 语种 | 参数量 | 适用场景 |
|---|---|---|---|---|
| SenseVoice Small | 170 倍实时 | 50+ | 234M | 多语种、情感检测 |
| Paraformer-zh | 13 倍实时 | 中文、粤语 | 220M | 中文最高精度 |
| Fun-ASR-Nano | vLLM 加速 | 31 | 800M | 时间戳、LLM 级别输出 |
| cam++ | 实时 | 通用 | 7.2M | 说话人分离与确认 |
ASR 模型
SenseVoice Small
极速语音识别,内置情感和音频事件检测。支持 50+ 语种,包括中文、英文、日文、韩文、法文、德文等。非自回归架构在 GPU 上实现 170 倍实时速度。
170 倍实时
50+ 语种
情感检测
音频事件
支持 CPU
适用场景
多语种应用、实时流式识别、大规模音频批处理、需要情感或音频事件检测的场景。
from funasr import AutoModel model = AutoModel(model="iic/SenseVoiceSmall") result = model.generate(input="audio.wav") print(result[0]["text"])
Paraformer-zh Large
中文语音识别最高精度模型。基于 CTC 引导注意力的非自回归架构,使用 60,000+ 小时普通话语音训练。内置标点恢复和时间戳预测。
13 倍实时
中文 + 粤语
最高精度
时间戳
标点恢复
适用场景
中文专用场景,精度优先 — 会议转写、字幕生成、语音输入、训练数据标注。
from funasr import AutoModel
model = AutoModel(
model="iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch",
vad_model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch",
punc_model="iic/punc_ct-transformer_cn-en-common-vocab471067-large",
)
result = model.generate(input="audio.wav")
print(result[0]["text"])
Fun-ASR-Nano
新一代 LLM 架构 ASR 模型。融合 SenseVoice 音频编码器与 Qwen3-0.6B 语言模型,具备更强的上下文理解能力。支持 vLLM 加速的高吞吐批量推理,输出字级时间戳。
vLLM 加速
31 语种
时间戳
LLM 级别
适用场景
需要精确时间戳、高吞吐批处理、LLM 级别上下文理解可提升输出质量的场景(如专有名词、代码混合语音)。
# vLLM 加速推理 from funasr import AutoModel model = AutoModel(model="FunAudioLLM/Fun-ASR-Nano-2512", device="cuda", backend="vllm") result = model.generate(input="audio.wav") print(result[0]["text"])
辅助模型
cam++ (说话人分离)
轻量级说话人嵌入模型,用于说话人分离(谁在什么时候说话)和说话人确认(是否同一个人)。仅 7.2M 参数,CPU 上可实时运行。
7.2M 参数
说话人分离
说话人确认
CPU 实时
FSMN-VAD
前馈序列记忆网络语音活动检测器。准确检测音频中的语音片段,处理静音、噪声和音乐。作为所有 ASR 模型的预处理步骤。
VAD
轻量级
CT-Transformer(标点恢复)
自动为 ASR 输出添加标点符号 — 逗号、句号、问号等。支持中英文。显著提升转写输出的可读性。
标点恢复
中文 + 英文
OpenAI 兼容 API
所有模型均可通过 funasr-server 使用,提供 OpenAI 兼容的 /v1/audio/transcriptions 接口:
# 启动服务 pip install funasr vllm fastapi uvicorn python-multipart funasr-server --device cuda --port 8000 # 使用任意 OpenAI 兼容客户端调用 curl http://localhost:8000/v1/audio/transcriptions \ -F file=@audio.wav \ -F model=SenseVoiceSmall
即插即用:任何使用 OpenAI Whisper API 的应用,只需更改 base URL 即可切换到 FunASR。无需修改代码 — 相同的 API 格式,相同的返回结构。
部署方式
| 方式 | 命令 | 适用场景 |
|---|---|---|
| pip | pip install funasr && funasr-server | 开发测试 |
| Docker | docker run -d --gpus all -p 8000:8000 ... | 生产部署 |
| Python API | from funasr import AutoModel | 嵌入应用 |
| ONNX | 通过 Sherpa-ONNX | 移动端、边缘、浏览器 |