FunASR vs Whisper:开源语音识别详细对比
FunASR 和 OpenAI Whisper 都是开源语音识别工具。本文从速度、功能、部署等维度进行全面对比。
速度对比
测试条件:184 条长音频(共 192 分钟)。RTF 越高越快。
| 模型 | GPU 速度 | CPU 速度 | vs Whisper-large-v3 |
|---|---|---|---|
| FunASR SenseVoice-Small | 170x 实时 | 17x 实时 | 快 13 倍 |
| FunASR Paraformer-Large | 120x 实时 | 15x 实时 | 快 9 倍 |
| FunASR Fun-ASR-Nano (vLLM) | 393x 实时 | — | 快 30 倍 |
| Whisper-large-v3-turbo | 46x 实时 | ❌ 太慢 | 快 3.4 倍 |
| Whisper-large-v3 | 13x 实时 | ❌ | 基准 |
结论:FunASR 在 CPU 上比 Whisper 在 GPU 上还快。
功能对比
| 功能 | FunASR | Whisper |
|---|---|---|
| 说话人分离 | ✅ 内置 (cam++) | ❌ 需要 pyannote |
| 情感检测 | ✅ 开心/悲伤/愤怒/中性 | ❌ |
| 流式识别 | ✅ WebSocket + vLLM | ❌ |
| 热词 | ✅ 自定义词表增强 | ❌ |
| 中文方言 | 7 大方言 + 26 地方口音 | 有限 |
| OpenAI 兼容 API | ✅ funasr-server | 需额外封装 |
| CPU 推理 | ✅ 17x 实时 | ❌ 不可用 |
| VAD | ✅ 内置 | ❌ 外部 |
| 标点恢复 | ✅ 内置 | 部分 |
| 微调训练 | ✅ DeepSpeed | 社区脚本 |
| 语言数量 | 50+ / 31 | 57 |
| 开源协议 | MIT | MIT |
快速开始
pip install funasr
from funasr import AutoModel
model = AutoModel(
model="iic/SenseVoiceSmall",
vad_model="fsmn-vad",
spk_model="cam++",
device="cuda"
)
result = model.generate(input="meeting.wav")
生态项目
| 项目 | 适用场景 | 链接 |
|---|---|---|
| FunASR | 全功能工具包(所有模型) | GitHub |
| Fun-ASR-Nano | LLM 大模型 ASR,31 语言,流式 | GitHub |
| SenseVoice | 超快 ASR + 情感 + 音频事件 | GitHub |
| FunClip | AI 智能视频剪辑 | GitHub |