轻量语音识别:在 CPU 上用约 250MB 跑中文 ASR(无需 GPU、无需 Python)

2026-06-22 · FunASR 团队

大多数语音识别要 GPU、要 Python 环境、模型动辄上 GB。如果你只想在一台普通笔记本、小服务器或边缘设备上把中文转成文字,这些都太重了。

FunASR 的 llama.cpp / GGUF 运行时把这件事压到极简:**一个自包含二进制 + 一个量化模型文件**,纯 CPU、零 Python。SenseVoice 的 q8 量化模型只有 **254MB**,精度几乎不变。

实测:254MB 模型,CPU 上 0.16 秒(真实输出)

下载预编译二进制(Linux/macOS/Windows)+ q8 模型,直接跑:

# 下二进制见 Releases;再拉模型
bash download-funasr-model.sh sensevoice ./gguf
llama-funasr-sensevoice -m ./gguf/sensevoice-small-q8.gguf --vad ./gguf/fsmn-vad.gguf -a audio.wav
# → 欢迎大家来体验达摩院推出的语音识别模型。   (CPU, 0.16s)

模型 243–254MB、VAD 仅 1.7MB,内置在二进制里,无需 Python detok。

又小又准:对比 whisper.cpp

同样跑在 CPU 上(中文 184 集 micro-CER,越低越准):

模型	体积	中文 CER ↓
FunASR SenseVoice q8	254 MB	7.99%
FunASR Paraformer q8	237 MB	9.78%
whisper.cpp small	466 MB	22.12%
whisper.cpp large-v3-turbo	1.6 GB	23.15%

FunASR 的 q8 模型**比 whisper.cpp small 还小**,中文准确率却高约 3 倍。

更小的档:量化矩阵

模型	档	体积	CER
SenseVoice encoder	q8	254 MB	7.99%
Paraformer encoder	q8	237 MB	9.78%
Fun-ASR-Nano LLM(另需 encoder 470MB)	q4_K_M	484 MB	8.35%

提供 Linux x64/arm64、macOS arm64、Windows x64 预编译二进制——arm64 适合树莓派/边缘盒子等。

从哪拿

预编译二进制:GitHub Releases(tag runtime-llamacpp-v*)
一站式下载与 quickstart:funasr.com/llama-cpp
GGUF 模型:Hugging Face / ModelScope

FunASR 全家桶开源、可商用。觉得有用就点个 Star 👇

⭐ Star FunASR

也欢迎:SenseVoice · Fun-ASR · FunClip

轻量语音识别:在 CPU 上用约 250MB 跑中文 ASR(无需 GPU、无需 Python)

实测:254MB 模型,CPU 上 0.16 秒(真实输出)

又小又准:对比 whisper.cpp

更小的档:量化矩阵

从哪拿

相关文章