轻量语音识别:在 CPU 上用约 250MB 跑中文 ASR(无需 GPU、无需 Python)

大多数语音识别要 GPU、要 Python 环境、模型动辄上 GB。如果你只想在一台普通笔记本、小服务器或边缘设备上把中文转成文字,这些都太重了。

FunASR 的 llama.cpp / GGUF 运行时把这件事压到极简:**一个自包含二进制 + 一个量化模型文件**,纯 CPU、零 Python。SenseVoice 的 q8 量化模型只有 **254MB**,精度几乎不变。

实测:254MB 模型,CPU 上 0.16 秒(真实输出)

下载预编译二进制(Linux/macOS/Windows)+ q8 模型,直接跑:

# 下二进制见 Releases;再拉模型
bash download-funasr-model.sh sensevoice ./gguf
llama-funasr-sensevoice -m ./gguf/sensevoice-small-q8.gguf --vad ./gguf/fsmn-vad.gguf -a audio.wav
# → 欢迎大家来体验达摩院推出的语音识别模型。   (CPU, 0.16s)

模型 243–254MB、VAD 仅 1.7MB,内置在二进制里,无需 Python detok。

又小又准:对比 whisper.cpp

同样跑在 CPU 上(中文 184 集 micro-CER,越低越准):

模型体积中文 CER ↓
FunASR SenseVoice q8254 MB7.99%
FunASR Paraformer q8237 MB9.78%
whisper.cpp small466 MB22.12%
whisper.cpp large-v3-turbo1.6 GB23.15%

FunASR 的 q8 模型**比 whisper.cpp small 还小**,中文准确率却高约 3 倍。

更小的档:量化矩阵

模型体积CER
SenseVoice encoderq8254 MB7.99%
Paraformer encoderq8237 MB9.78%
Fun-ASR-Nano LLM(另需 encoder 470MB)q4_K_M484 MB8.35%

提供 Linux x64/arm64、macOS arm64、Windows x64 预编译二进制——arm64 适合树莓派/边缘盒子等。

从哪拿

FunASR 全家桶开源、可商用。觉得有用就点个 Star 👇

⭐ Star FunASR

也欢迎:SenseVoice · Fun-ASR · FunClip

相关文章