FunASR 模型

根据应用场景选择最合适的模型 — 从极速多语种识别到中文最高精度。

快速对比

模型速度语种参数量适用场景
SenseVoice Small170 倍实时50+234M多语种、情感检测
Paraformer-zh13 倍实时中文、粤语220M中文最高精度
Fun-ASR-NanovLLM 加速31800M时间戳、LLM 级别输出
cam++实时通用7.2M说话人分离与确认

ASR 模型

SenseVoice Small
234M 参数 · 非自回归 · GitHub (8.3K stars) · HuggingFace
极速语音识别,内置情感和音频事件检测。支持 50+ 语种,包括中文、英文、日文、韩文、法文、德文等。非自回归架构在 GPU 上实现 170 倍实时速度。
170 倍实时 50+ 语种 情感检测 音频事件 支持 CPU

适用场景

多语种应用、实时流式识别、大规模音频批处理、需要情感或音频事件检测的场景。

from funasr import AutoModel
model = AutoModel(model="iic/SenseVoiceSmall")
result = model.generate(input="audio.wav")
print(result[0]["text"])
Paraformer-zh Large
220M 参数 · 非自回归 · HuggingFace
中文语音识别最高精度模型。基于 CTC 引导注意力的非自回归架构,使用 60,000+ 小时普通话语音训练。内置标点恢复和时间戳预测。
13 倍实时 中文 + 粤语 最高精度 时间戳 标点恢复

适用场景

中文专用场景,精度优先 — 会议转写、字幕生成、语音输入、训练数据标注。

from funasr import AutoModel
model = AutoModel(
    model="iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch",
    vad_model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch",
    punc_model="iic/punc_ct-transformer_cn-en-common-vocab471067-large",
)
result = model.generate(input="audio.wav")
print(result[0]["text"])
Fun-ASR-Nano
800M 参数 · LLM 架构 (SenseVoice 编码器 + Qwen3-0.6B) · GitHub (1.2K stars) · HuggingFace
新一代 LLM 架构 ASR 模型。融合 SenseVoice 音频编码器与 Qwen3-0.6B 语言模型,具备更强的上下文理解能力。支持 vLLM 加速的高吞吐批量推理,输出字级时间戳。
vLLM 加速 31 语种 时间戳 LLM 级别

适用场景

需要精确时间戳、高吞吐批处理、LLM 级别上下文理解可提升输出质量的场景(如专有名词、代码混合语音)。

# vLLM 加速推理
from funasr import AutoModel
model = AutoModel(model="FunAudioLLM/Fun-ASR-Nano-2512", device="cuda", backend="vllm")
result = model.generate(input="audio.wav")
print(result[0]["text"])

辅助模型

cam++ (说话人分离)
7.2M 参数 · HuggingFace
轻量级说话人嵌入模型,用于说话人分离(谁在什么时候说话)和说话人确认(是否同一个人)。仅 7.2M 参数,CPU 上可实时运行。
7.2M 参数 说话人分离 说话人确认 CPU 实时
FSMN-VAD
内置 · 语音活动检测
前馈序列记忆网络语音活动检测器。准确检测音频中的语音片段,处理静音、噪声和音乐。作为所有 ASR 模型的预处理步骤。
VAD 轻量级
CT-Transformer(标点恢复)
内置 · 标点恢复
自动为 ASR 输出添加标点符号 — 逗号、句号、问号等。支持中英文。显著提升转写输出的可读性。
标点恢复 中文 + 英文

OpenAI 兼容 API

所有模型均可通过 funasr-server 使用,提供 OpenAI 兼容的 /v1/audio/transcriptions 接口:

# 启动服务
pip install funasr vllm fastapi uvicorn python-multipart
funasr-server --device cuda --port 8000

# 使用任意 OpenAI 兼容客户端调用
curl http://localhost:8000/v1/audio/transcriptions \
  -F file=@audio.wav \
  -F model=SenseVoiceSmall
即插即用:任何使用 OpenAI Whisper API 的应用,只需更改 base URL 即可切换到 FunASR。无需修改代码 — 相同的 API 格式,相同的返回结构。

部署方式

方式命令适用场景
pippip install funasr && funasr-server开发测试
Dockerdocker run -d --gpus all -p 8000:8000 ...生产部署
Python APIfrom funasr import AutoModel嵌入应用
ONNX通过 Sherpa-ONNX移动端、边缘、浏览器