FunASR 模型

根据应用场景选择最合适的模型 — 从极速多语种识别到中文最高精度。

快速对比

模型	速度	语种	参数量	适用场景
Fun-ASR-Nano ⭐	vLLM 340x	中/英/日 + 中文方言/口音	800M	旗舰 · LLM-ASR · 难例最强
Fun-ASR-MLT-Nano	vLLM	31	800M	独立多语 checkpoint
SenseVoice Small	170 倍实时	50+	234M	多语种、情感检测
Paraformer-zh	120 倍实时	中文、粤语	220M	中文最高精度
cam++	实时	通用	7.2M	说话人分离与确认

ASR 模型

Fun-ASR-Nano ⭐ 旗舰 / 默认推荐

800M 参数 · LLM 架构 (SenseVoice 编码器 + Qwen3-0.6B) · GitHub · HuggingFace

新一代 LLM 架构 ASR 模型。融合 SenseVoice 音频编码器与 Qwen3-0.6B 语言模型，具备更强的上下文理解能力。支持 vLLM 加速的高吞吐批量推理与实时流式服务。发布的 model.pt checkpoint 不提供可靠的原生字级时间戳（issue #106）。

vLLM 加速中/英/日 + 中文方言/口音实时流式 LLM 级别

适用场景

适合高吞吐批处理、实时字幕，以及 LLM 级别上下文理解可提升输出质量的场景（如专有名词、代码混合语音）；需要可靠字级时间戳时请使用 Paraformer。

# vLLM 加速推理
from funasr import AutoModel
model = AutoModel(model="FunAudioLLM/Fun-ASR-Nano-2512", device="cuda", backend="vllm")
result = model.generate(input="audio.wav")
print(result[0]["text"])

Fun-ASR-MLT-Nano 31 语种

800M 参数 · 独立多语 checkpoint · HuggingFace · ModelScope

面向广泛多语种识别的独立 checkpoint，覆盖 31 种语言。它与旗舰 Fun-ASR-Nano 的模型 ID 和语言范围不同。

vLLM 加速 31 语种独立 checkpoint

适用场景

需要跨 31 种语言识别时选择 MLT-Nano；主要识别中英日及中文方言/口音时选择旗舰 Nano。

from funasr import AutoModel
model = AutoModel(model="FunAudioLLM/Fun-ASR-MLT-Nano-2512", device="cuda")
result = model.generate(input="audio.wav")

SenseVoice Small

234M 参数 · 非自回归 · GitHub · HuggingFace

极速语音识别，内置情感和音频事件检测。支持 50+ 语种，包括中文、英文、日文、韩文、法文、德文等。非自回归架构在 GPU 上实现 170 倍实时速度。

170 倍实时 50+ 语种情感检测音频事件支持 CPU

适用场景

多语种应用、实时流式识别、大规模音频批处理、需要情感或音频事件检测的场景。

from funasr import AutoModel
model = AutoModel(model="iic/SenseVoiceSmall")
result = model.generate(input="audio.wav")
print(result[0]["text"])

Paraformer-zh Large

220M 参数 · 非自回归 · HuggingFace

中文语音识别最高精度模型。基于 CTC 引导注意力的非自回归架构，使用 60,000+ 小时普通话语音训练。内置标点恢复和时间戳预测。

120 倍实时中文 + 粤语最高精度时间戳标点恢复

适用场景

中文专用场景，精度优先 — 会议转写、字幕生成、语音输入、训练数据标注。

from funasr import AutoModel
model = AutoModel(
    model="iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch",
    vad_model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch",
    punc_model="iic/punc_ct-transformer_cn-en-common-vocab471067-large",
)
result = model.generate(input="audio.wav")
print(result[0]["text"])

辅助模型

cam++ (说话人分离)

7.2M 参数 · HuggingFace

轻量级说话人嵌入模型，用于说话人分离（谁在什么时候说话）和说话人确认（是否同一个人）。仅 7.2M 参数，CPU 上可实时运行。

7.2M 参数说话人分离说话人确认 CPU 实时

FSMN-VAD

内置 · 语音活动检测

前馈序列记忆网络语音活动检测器。准确检测音频中的语音片段，处理静音、噪声和音乐。作为所有 ASR 模型的预处理步骤。

VAD 轻量级

CT-Transformer（标点恢复）

内置 · 标点恢复

自动为 ASR 输出添加标点符号 — 逗号、句号、问号等。支持中英文。显著提升转写输出的可读性。

标点恢复中文 + 英文

OpenAI 兼容 API

所有模型均可通过 funasr-server 使用，提供 OpenAI 兼容的 /v1/audio/transcriptions 接口：

# 启动服务
pip install funasr vllm fastapi uvicorn python-multipart
funasr-server --device cuda --port 8000

# 使用任意 OpenAI 兼容客户端调用
curl http://localhost:8000/v1/audio/transcriptions \
  -F file=@audio.wav \
  -F model=SenseVoiceSmall

即插即用：任何使用 OpenAI Whisper API 的应用，只需更改 base URL 即可切换到 FunASR。无需修改代码 — 相同的 API 格式，相同的返回结构。

部署方式

方式	命令	适用场景
pip	`pip install funasr && funasr-server`	开发测试
Docker	`docker run -d --gpus all -p 8000:8000 ...`	生产部署
Python API	`from funasr import AutoModel`	嵌入应用
ONNX	通过 Sherpa-ONNX	移动端、边缘、浏览器