FunASR vs Whisper 实测对比:中文语音识别谁更快更准?

我们在 184 个中文长音频文件(共 11,539 秒 ≈ 192 分钟) 上、同一块 NVIDIA H100 上,实测了 FunASR 系列模型与 OpenAI Whisper 的速度(RTFx)和准确率(CER)。结论很直接:在中文场景,FunASR 又快又准。

模型设备RTFx(越高越快)CER(越低越准)
SenseVoice-SmallGPU169.6x7.81%
Paraformer-LargeGPU119.6x10.18%
Fun-ASR-NanoGPU340x (vLLM)8.20%
Whisper-large-v3-turboGPU46.1x21.71%
Whisper-large-v3GPU13.4x20.02%
SenseVoice-SmallCPU17.2x7.81%

速度

SenseVoice-Small 达到 169.6x 实时速度,是 Whisper-large-v3(13.4x)的约 12 倍;即使在 CPU 上,SenseVoice 也有 17.2x,比 Whisper 的 GPU 还快。Paraformer-Large 119.6x,同样远超 Whisper。

准确率

中文 CER:SenseVoice 7.81%、Paraformer 10.18%,而 Whisper-large-v3 是 20.02%、turbo 版 21.71%。FunASR 的中文错字率只有 Whisper 的一半甚至更低。

为什么 FunASR 更快

SenseVoice / Paraformer 是非自回归模型:一次前向就出全部结果,不像 Whisper 逐 token 自回归解码。再加上针对中文与亚洲语言的训练数据,中文场景兼顾速度与准确率。

开始使用 FunASR

开源、可商用、支持 CPU/GPU 部署。觉得有用就点个 Star ⭐

FunASR GitHub ★

延伸阅读:SenseVoice 部署指南 · Fun-ASR-Nano 指南 · 对比 Whisper

测试条件:184 文件 / 11,539 秒中文音频,NVIDIA H100,RTF=推理时间/音频时长,Speed=1/RTF,CER 为去标点后字错误率。

相关文章