轻量语音识别:在 CPU 上用约 250MB 跑中文 ASR(无需 GPU、无需 Python)
大多数语音识别要 GPU、要 Python 环境、模型动辄上 GB。如果你只想在一台普通笔记本、小服务器或边缘设备上把中文转成文字,这些都太重了。
FunASR 的 llama.cpp / GGUF 运行时把这件事压到极简:**一个自包含二进制 + 一个量化模型文件**,纯 CPU、零 Python。SenseVoice 的 q8 量化模型只有 **254MB**,精度几乎不变。
实测:254MB 模型,CPU 上 0.16 秒(真实输出)
下载预编译二进制(Linux/macOS/Windows)+ q8 模型,直接跑:
# 下二进制见 Releases;再拉模型 bash download-funasr-model.sh sensevoice ./gguf llama-funasr-sensevoice -m ./gguf/sensevoice-small-q8.gguf --vad ./gguf/fsmn-vad.gguf -a audio.wav # → 欢迎大家来体验达摩院推出的语音识别模型。 (CPU, 0.16s)
模型 243–254MB、VAD 仅 1.7MB,内置在二进制里,无需 Python detok。
又小又准:对比 whisper.cpp
同样跑在 CPU 上(中文 184 集 micro-CER,越低越准):
| 模型 | 体积 | 中文 CER ↓ |
|---|---|---|
| FunASR SenseVoice q8 | 254 MB | 7.99% |
| FunASR Paraformer q8 | 237 MB | 9.78% |
| whisper.cpp small | 466 MB | 22.12% |
| whisper.cpp large-v3-turbo | 1.6 GB | 23.15% |
FunASR 的 q8 模型**比 whisper.cpp small 还小**,中文准确率却高约 3 倍。
更小的档:量化矩阵
| 模型 | 档 | 体积 | CER |
|---|---|---|---|
| SenseVoice encoder | q8 | 254 MB | 7.99% |
| Paraformer encoder | q8 | 237 MB | 9.78% |
| Fun-ASR-Nano LLM(另需 encoder 470MB) | q4_K_M | 484 MB | 8.35% |
提供 Linux x64/arm64、macOS arm64、Windows x64 预编译二进制——arm64 适合树莓派/边缘盒子等。
从哪拿
- 预编译二进制:GitHub Releases(tag
runtime-llamacpp-v*) - 一站式下载与 quickstart:funasr.com/llama-cpp
- GGUF 模型:Hugging Face / ModelScope