FunASR vs faster-whisper:中文与粤语语音识别实测对比

faster-whisper 是目前最流行的 Whisper 加速实现(CTranslate2),英语和通用多语种都很强。但在中文、尤其是粤语和方言上,它有明显短板。下面是同样三段音频上 faster-whisper(small)和 FunASR SenseVoice 的逐句实测对比。

实测对比(同样音频,逐字结果)

音频faster-whisper (small)FunASR SenseVoice
普通话开放时间早上九点至下午五点。开放时间早上9点至下午5点。
粤语语言误判为 zh;
這幾個字都表達不到我想講的意思
正确识别 yue;
呢几个字都表达唔到,我想讲嘅意思
日语うちの中学は弁当で…うちの中学は弁当で…

三个关键差异:

整体准确率(184 段中文)

同机 CPU、字符级 CER(越低越准):FunASR SenseVoice 8.0% / Paraformer 9.9% / Fun-ASR-Nano 8.3%;Whisper 系(small/base/large-v3-turbo)约 22–31%。中文上 FunASR 的 CER 低约 2.7 倍,原因=大规模中文训练数据 + 非自回归架构(更快)。完整方法学见 BENCHMARKS.md

FunASR 还多给你什么

该用哪个?

诚实地说:faster-whisper 在英语、通用 99 语种、翻译任务上依然很强,生态也成熟。但如果你的场景是中文、粤语、方言,或需要情感/事件/语种信息,FunASR 更准也更全。两者都开源、都能本地跑。

3 行试 FunASR

pip install funasr
from funasr import AutoModel
m = AutoModel(model="iic/SenseVoiceSmall")
print(m.generate(input="audio.wav", language="auto", use_itn=True)[0]["text"])

FunASR 全家桶开源——ASR / VAD / 标点 / 说话人 / 情感事件 / LLM-ASR / llama.cpp 端侧。觉得有用点个 Star 👇

⭐ Star FunASR

也欢迎 Star:SenseVoice · Fun-ASR · FunClip

相关文章