FunASR vs Whisper 实测对比:中文语音识别谁更快更准?
我们在 184 个中文长音频文件(共 11,539 秒 ≈ 192 分钟) 上、同一块 NVIDIA H100 上,实测了 FunASR 系列模型与 OpenAI Whisper 的速度(RTFx)和准确率(CER)。结论很直接:在中文场景,FunASR 又快又准。
| 模型 | 设备 | RTFx(越高越快) | CER(越低越准) |
|---|---|---|---|
| SenseVoice-Small | GPU | 169.6x | 7.81% |
| Paraformer-Large | GPU | 119.6x | 10.18% |
| Fun-ASR-Nano | GPU | 340x (vLLM) | 8.20% |
| Whisper-large-v3-turbo | GPU | 46.1x | 21.71% |
| Whisper-large-v3 | GPU | 13.4x | 20.02% |
| SenseVoice-Small | CPU | 17.2x | 7.81% |
速度
SenseVoice-Small 达到 169.6x 实时速度,是 Whisper-large-v3(13.4x)的约 12 倍;即使在 CPU 上,SenseVoice 也有 17.2x,比 Whisper 的 GPU 还快。Paraformer-Large 119.6x,同样远超 Whisper。
准确率
中文 CER:SenseVoice 7.81%、Paraformer 10.18%,而 Whisper-large-v3 是 20.02%、turbo 版 21.71%。FunASR 的中文错字率只有 Whisper 的一半甚至更低。
为什么 FunASR 更快
SenseVoice / Paraformer 是非自回归模型:一次前向就出全部结果,不像 Whisper 逐 token 自回归解码。再加上针对中文与亚洲语言的训练数据,中文场景兼顾速度与准确率。
延伸阅读:SenseVoice 部署指南 · Fun-ASR-Nano 指南 · 对比 Whisper
测试条件:184 文件 / 11,539 秒中文音频,NVIDIA H100,RTF=推理时间/音频时长,Speed=1/RTF,CER 为去标点后字错误率。