选哪个 FunASR 模型?SenseVoice vs Paraformer vs Fun-ASR-Nano

2026-06-23 · FunASR 团队

FunASR 有三个主力语音识别模型,各有侧重。一句话:多语种 + 情感/事件、要快 → SenseVoice;中文生产 + 词级时间戳/热词 → Paraformer;最高精度 + 上下文/热词、31 语种 → Fun-ASR-Nano。下面是详细对比。

一张表选型

模型	语种	中文 CER ↓	架构 / 速度	特色	最适合
SenseVoice	50+(中/粤/英/日/韩…)	7.81%	非自回归 CTC,~170x	情感 + 音频事件 + 语种识别	多语种、情感分析、实时/低延迟
Paraformer	中文(另有英文版)	10.18%	非自回归 CIF,~120x	词级时间戳、热词(SeACo)、流式版	中文生产、字幕/时间戳、热词定制
Fun-ASR-Nano	31 种	8.06%	LLM(Qwen3-0.6B),vLLM 340x	上下文/热词提示、LLM 解码	最高精度、上下文感知、广语种

(中文 CER 为同一 184 集 micro-average + normalize_zh 口径;速度为 GPU 实时倍数。)

SenseVoice —— 多面手,默认首选

一次非自回归前向同时给出转写 + 语种 + 情感 + 音频事件,50+ 语种,中文 CER 最低,速度快。多数场景的默认选择。

from funasr import AutoModel
m = AutoModel(model="iic/SenseVoiceSmall", vad_model="fsmn-vad")
res = m.generate(input="audio.wav", language="auto", use_itn=True)

Paraformer —— 中文生产 + 时间戳/热词

工业级中文,提供词级时间戳(做字幕)、热词定制(SeACo-Paraformer)、以及低延迟流式版(paraformer-zh-streaming)。需要时间戳或热词时选它。

m = AutoModel(model="paraformer-zh", vad_model="fsmn-vad", punc_model="ct-punc")
res = m.generate(input="audio.wav")

Fun-ASR-Nano —— LLM-ASR,最高精度 + 上下文

基于 Qwen3-0.6B 的 LLM-ASR,31 种语言,支持上下文/热词提示,离线精度强;vLLM 加速可达 340x。要最高质量、上下文感知时选它。

m = AutoModel(model="FunAudioLLM/Fun-ASR-Nano-2512", trust_remote_code=True, hub="hf")
res = m.generate(input="audio.wav", language="中文", hotwords=["开放时间"])

快速决策

要多语种 / 情感 / 实时 → SenseVoice
要词级时间戳 / 热词 / 流式 → Paraformer
要最高精度 / 上下文 / 31 语种 → Fun-ASR-Nano
要在 CPU/边缘无 Python 跑 → 三者都有 llama.cpp / GGUF 版

FunASR 全家桶开源、可商用。觉得有用点个 Star 👇

⭐ Star FunASR

也欢迎:SenseVoice · Fun-ASR · FunClip