选哪个 FunASR 模型?SenseVoice vs Paraformer vs Fun-ASR-Nano

FunASR 有三个主力语音识别模型,各有侧重。一句话:多语种 + 情感/事件、要快 → SenseVoice;中文生产 + 词级时间戳/热词 → Paraformer;最高精度 + 上下文/热词、31 语种 → Fun-ASR-Nano。下面是详细对比。

一张表选型

模型语种中文 CER ↓架构 / 速度特色最适合
SenseVoice50+(中/粤/英/日/韩…)7.81%非自回归 CTC,~170x情感 + 音频事件 + 语种识别多语种、情感分析、实时/低延迟
Paraformer中文(另有英文版)10.18%非自回归 CIF,~120x词级时间戳、热词(SeACo)、流式版中文生产、字幕/时间戳、热词定制
Fun-ASR-Nano31 种8.06%LLM(Qwen3-0.6B),vLLM 340x上下文/热词提示、LLM 解码最高精度、上下文感知、广语种

(中文 CER 为同一 184 集 micro-average + normalize_zh 口径;速度为 GPU 实时倍数。)

SenseVoice —— 多面手,默认首选

一次非自回归前向同时给出转写 + 语种 + 情感 + 音频事件,50+ 语种,中文 CER 最低,速度快。多数场景的默认选择。

from funasr import AutoModel
m = AutoModel(model="iic/SenseVoiceSmall", vad_model="fsmn-vad")
res = m.generate(input="audio.wav", language="auto", use_itn=True)

Paraformer —— 中文生产 + 时间戳/热词

工业级中文,提供词级时间戳(做字幕)、热词定制(SeACo-Paraformer)、以及低延迟流式版(paraformer-zh-streaming)。需要时间戳或热词时选它。

m = AutoModel(model="paraformer-zh", vad_model="fsmn-vad", punc_model="ct-punc")
res = m.generate(input="audio.wav")

Fun-ASR-Nano —— LLM-ASR,最高精度 + 上下文

基于 Qwen3-0.6B 的 LLM-ASR,31 种语言,支持上下文/热词提示,离线精度强;vLLM 加速可达 340x。要最高质量、上下文感知时选它。

m = AutoModel(model="FunAudioLLM/Fun-ASR-Nano-2512", trust_remote_code=True, hub="hf")
res = m.generate(input="audio.wav", language="中文", hotwords=["开放时间"])

快速决策

FunASR 全家桶开源、可商用。觉得有用点个 Star 👇

⭐ Star FunASR

也欢迎:SenseVoice · Fun-ASR · FunClip

相关文章