选哪个 FunASR 模型?SenseVoice vs Paraformer vs Fun-ASR-Nano
FunASR 有三个主力语音识别模型,各有侧重。一句话:多语种 + 情感/事件、要快 → SenseVoice;中文生产 + 词级时间戳/热词 → Paraformer;最高精度 + 上下文/热词、31 语种 → Fun-ASR-Nano。下面是详细对比。
一张表选型
| 模型 | 语种 | 中文 CER ↓ | 架构 / 速度 | 特色 | 最适合 |
|---|---|---|---|---|---|
| SenseVoice | 50+(中/粤/英/日/韩…) | 7.81% | 非自回归 CTC,~170x | 情感 + 音频事件 + 语种识别 | 多语种、情感分析、实时/低延迟 |
| Paraformer | 中文(另有英文版) | 10.18% | 非自回归 CIF,~120x | 词级时间戳、热词(SeACo)、流式版 | 中文生产、字幕/时间戳、热词定制 |
| Fun-ASR-Nano | 31 种 | 8.06% | LLM(Qwen3-0.6B),vLLM 340x | 上下文/热词提示、LLM 解码 | 最高精度、上下文感知、广语种 |
(中文 CER 为同一 184 集 micro-average + normalize_zh 口径;速度为 GPU 实时倍数。)
SenseVoice —— 多面手,默认首选
一次非自回归前向同时给出转写 + 语种 + 情感 + 音频事件,50+ 语种,中文 CER 最低,速度快。多数场景的默认选择。
from funasr import AutoModel m = AutoModel(model="iic/SenseVoiceSmall", vad_model="fsmn-vad") res = m.generate(input="audio.wav", language="auto", use_itn=True)
Paraformer —— 中文生产 + 时间戳/热词
工业级中文,提供词级时间戳(做字幕)、热词定制(SeACo-Paraformer)、以及低延迟流式版(paraformer-zh-streaming)。需要时间戳或热词时选它。
m = AutoModel(model="paraformer-zh", vad_model="fsmn-vad", punc_model="ct-punc") res = m.generate(input="audio.wav")
Fun-ASR-Nano —— LLM-ASR,最高精度 + 上下文
基于 Qwen3-0.6B 的 LLM-ASR,31 种语言,支持上下文/热词提示,离线精度强;vLLM 加速可达 340x。要最高质量、上下文感知时选它。
m = AutoModel(model="FunAudioLLM/Fun-ASR-Nano-2512", trust_remote_code=True, hub="hf") res = m.generate(input="audio.wav", language="中文", hotwords=["开放时间"])
快速决策
- 要多语种 / 情感 / 实时 → SenseVoice
- 要词级时间戳 / 热词 / 流式 → Paraformer
- 要最高精度 / 上下文 / 31 语种 → Fun-ASR-Nano
- 要在 CPU/边缘无 Python 跑 → 三者都有 llama.cpp / GGUF 版
相关文章
- FunASR vs Whisper 实测对比
- SenseVoice 部署指南
- Fun-ASR-Nano 使用指南
- 说话人分离:谁在何时说话
- 情感与语种检测
- 实时流式语音识别
- 转写超长音频(1小时一次搞定)
- 命令行转写(文本/JSON/SRT)
- 自托管 OpenAI Whisper API 替代
- 自动生成字幕(SRT / VTT)
- Python 语音转文字教程
- FunASR 跑进 llama.cpp(whisper.cpp 替代)
- FunASR vs faster-whisper(中文/粤语)
- 轻量语音识别(CPU 250MB)
- 自托管替代 Deepgram/AssemblyAI
- 粤语语音识别(SenseVoice 原生粤语)