Whispering:免费开源的语音转文字应用|附本地部署指南

Whispering 是一款完全开源的语音转文字应用,主打本地优先数据透明的理念。只需按下快捷键,说话,就能获得准确的文字转录,完全免费且开源。

💭 站长测评

作为一个对语音转文字功能极度执着的用户,我已经先后购买了科大讯飞录音笔、智能办公本以及汉王墨水屏平板等多款硬件设备,但他们都仅仅限于设备内录音转录,不能导入录音转文字。今天早上起床时(其实是找实时资讯的时候...)偶然发现了这款 Whispering 应用,立即被其开源理念和本地优先的特性所吸引,于是进行了详细的测试体验。

相比于传统的硬件设备,Whispering 最大的优势在于:

  • 成本透明:无需购买昂贵硬件,API 费用直接可控
  • 数据安全:完全开源,音频处理过程一目了然
  • 功能灵活:支持本地/云端双模式,可按需选择
  • 持续更新:开源社区驱动,功能不断完善

对于已经在语音转文字领域投入不少的用户来说,Whispering 提供了一个更加经济、透明且功能强大的软件解决方案。现目前此应用只有英文版本,但模型选择并不限制,因此可以使用它来转录中文音频。

📖 项目背景

作者在使用语音转录工具多年后发现,市面上的产品虽然功能"几乎"够用,但都是闭源的黑盒子,即使那些声称"本地化"或"设备端处理"的工具,用户仍然无法确定音频数据到底去了哪里。

因此,Whispering 应运而生。它具有以下特点:

  • 完全开源透明 - 代码公开,可审计
  • 本地优先 - 数据存储在本地设备上
  • 无中间商 - 音频直接从设备发送到选择的服务提供商
  • 无供应商锁定 - 可自由选择转录服务
  • 成本极低 - 直接向API提供商付费,无需额外订阅

🎯 核心功能

基础转录功能

  • 快捷键激活 - 按下自定义快捷键即可开始录音
  • 实时转录 - 说话后快速获得文字结果
  • 多平台支持 - 支持 macOS、Windows、Linux 和 Web 浏览器
  • 多语言支持 - 支持多种输出语言

高级特性

🎙️ 语音活动检测 (VAD)

支持真正的免手持操作模式,无需一直按住按钮,通过语音检测自动开始和停止录音。

🤖 AI 智能转换

内置可定制的 AI 转换功能,可以:

  • 自动修正语法错误
  • 翻译不同语言
  • 重新格式化文本
  • 使用自定义提示词进行个性化处理
  • 支持任何 LLM 提供商(OpenAI GPT-4、Anthropic Claude、Google Gemini 等)

⚙️ 多服务支持

转录服务选择:

  • 云端服务:OpenAI Whisper、Groq、ElevenLabs 等
  • 本地服务:Speaches、owhisper 等(完全离线,无需网络)

AI 转换服务:

  • OpenAI GPT 系列
  • Anthropic Claude
  • Google Gemini
  • Groq Llama 模型
  • 或任何兼容的 LLM 服务

💰 成本对比

与传统订阅制工具相比,Whispering 的成本优势明显:

服务每小时费用轻度使用(20分钟/天)中度使用(1小时/天)重度使用(3小时/天)传统工具
Groq distil-whisper-large-v3-en$0.02$0.20/月$0.60/月$1.80/月$15-30/月
Groq whisper-large-v3-turbo$0.04$0.40/月$1.20/月$3.60/月$15-30/月
OpenAI gpt-4o-mini-transcribe$0.18$1.80/月$5.40/月$16.20/月$15-30/月
本地处理$0.00$0.00/月$0.00/月$0.00/月$15-30/月

🔒 隐私和数据安全

Whispering 采用极其严格的隐私保护措施:

本地数据存储

  • 语音录音和转录文本存储在 IndexedDB 中
  • 所有用户数据保存在本地设备上
  • 设置和配置信息完全本地化

数据传输透明

  1. 转录服务:只有在需要转录时,音频才会发送到你选择的服务商

    • 可选择外部服务(使用你自己的 API 密钥)
    • 可选择本地服务(如 Speaches,完全离线)
  2. AI 转换服务(可选):

    • 转录后的文本可发送到选择的 LLM 进行后处理
    • 使用你自己的 API 密钥
    • 转换配置和提示词存储在本地
  3. 无中间服务器:音频和文本直接从你的设备发送到 API 提供商

匿名分析

  • 使用开源的 Aptabase 进行匿名事件记录
  • 不收集任何个人数据
  • 可在设置中完全关闭
  • 所有记录的事件都可在源代码中查看

🚀 快速开始

安装步骤

  1. 下载应用

  2. 获取 API 密钥

    • 推荐使用 Groq(速度快、准确度高、免费额度慷慨、价格低至 $0.02/小时)
    • 访问 console.groq.com/keys 注册并创建 API 密钥
    • 无需信用卡即可开始使用免费额度
  3. 配置和测试

    • 打开 Whispering
    • 进入设置 → 转录设置
    • 选择 Groq 并粘贴 API 密钥
    • 点击录音按钮或按下 Cmd+Shift+; 说 "Testing Whispering"
    • 转录文本会自动复制到剪贴板

🏠 本地部署完全指南

如果你希望实现完全离线的语音转录,不依赖任何外部 API 服务,可以选择本地部署 Speaches 转录服务。这样既能保证最高级别的隐私安全,又能避免任何网络费用。

前置依赖:安装 FFmpeg

Whispering 需要 FFmpeg 来处理音频和视频文件格式转换,也支持使用本地的 Whisper C++转写文字,这里我们选择使用 Speaches 转写。

本地 Whisper 模型选择
本地 Whisper 模型选择

Windows 安装方式:

选项 1:自动安装(推荐)

  • 点击应用内的"Install FFmpeg"按钮,Whispering 会自动下载并配置 FFmpeg

选项 2:手动安装

  1. 从官方网站下载 FFmpeg:Download FFmpeg for Windows
  2. 选择 "release builds" → "ffmpeg-release-essentials.zip"
  3. 解压缩到 C:\ffmpeg 目录
  4. C:\ffmpeg\bin 添加到系统 PATH 环境变量
  5. 重启 Whispering 应用使更改生效

验证安装

# 验证 FFmpeg 是否正确安装
ffmpeg -version

使用 Docker 部署 Speaches 服务

第一步:下载配置文件

根据你的硬件配置选择合适的部署方式:

# 下载 Docker Compose 配置文件
curl --silent --remote-name https://raw.githubusercontent.com/speaches-ai/speaches/master/compose.yaml

# 如果有 NVIDIA GPU,下载 CUDA 支持配置
curl --silent --remote-name https://raw.githubusercontent.com/speaches-ai/speaches/master/compose.cuda.yaml

# 设置使用 CUDA 配置(有 GPU 的情况下)
export COMPOSE_FILE=compose.cuda.yaml

第二步:启动服务

# 启动 Speaches 服务(后台运行)
docker compose up --detach

注意:首次启动时,Docker 需要下载 Whisper 模型文件,可能需要等待几分钟时间。

第三步:验证服务状态

# 设置本地服务地址
export SPEACHES_BASE_URL="http://localhost:8000"

# 查看可用模型
curl "$SPEACHES_BASE_URL/v1/registry?task=automatic-speech-recognition"

# 测试服务是否正常运行,下载模型(这里下载的是Systran/faster-whisper-large-v3)
curl "$SPEACHES_BASE_URL/v1/models/Systran/faster-whisper-large-v3"

SPEACHES的更多模型和使用方法详见:Model Discovery - Speaches Documentation。中文的语音转文字模型的选择很多,这里选择的第一个。

模型选择
模型选择

等待几分钟后,成功返回的模型信息示例:

{
  "id": "Systran/faster-whisper-large-v3",
  "created": 1700732060,
  "object": "model",
  "owned_by": "Systran",
  "language": ["en", "zh", "de", "es", "ru", "ko", "fr", "ja", "pt", "tr", ...],
  "task": "automatic-speech-recognition"
}

配置 Whispering 使用本地服务

第一步:选择转录服务

在设置中选择 Speaches 作为转录服务提供商
在设置中选择 Speaches 作为转录服务提供商

第二步:配置服务参数

配置本地 Speaches 服务的 API 地址和模型名称
配置本地 Speaches 服务的 API 地址和模型名称

配置参数:

  • API Base URL: http://api_base_url:8000
  • 模型名称: Systran/faster-whisper-large-v3

第三步:测试转录功能

上传音频或视频文件进行转录测试(支持自动格式转换)
上传音频或视频文件进行转录测试(支持自动格式转换)

速度很快,还没反应过来就已经处理好了(GPU)。

成功转录的文本结果,可以看到准确识别了语音内容
成功转录的文本结果,可以看到准确识别了语音内容

可选:文本后处理优化

基础的本地转录可能缺少标点符号和段落分割。你可以配置 AI 转换服务来优化转录结果:

配置 AI 转换服务对转录文本进行标点、分段和格式优化
配置 AI 转换服务对转录文本进行标点、分段和格式优化

可配置的后处理功能:

  • 添加标点符号
  • 段落分割
  • 语法纠错
  • 格式优化
  • 多语言翻译

本地部署的优势

完全离线:无需网络连接,保证数据隐私

零费用:一次部署,长期使用无额外成本

高性能:本地处理速度快,无网络延迟

可定制:可以选择不同的 Whisper 模型版本

数据安全:音频文件不离开本地设备

🛠️ 技术特性

现代技术栈

  • 前端:Svelte 5 + SvelteKit
  • 桌面框架:Tauri
  • 语言:TypeScript + Rust
  • 数据库:IndexedDB (通过 Dexie.js)
  • UI 组件:shadcn-svelte + TailwindCSS
  • 状态管理:TanStack Query

性能优化

  • 轻量级:应用大小仅约 22MB
  • 快速启动:即开即用,无需等待
  • 资源节约:最小化系统资源占用
  • 高可靠性:使用 Result 类型进行错误处理

架构设计

采用清晰的三层架构,实现 97% 的代码复用:

  • 服务层:平台无关的业务逻辑
  • 查询层:响应式数据管理和缓存
  • UI 层:干净的 Svelte 5 组件

🔧 高级配置

自定义快捷键

可以在设置中配置个性化的录音快捷键,支持全局快捷键操作。

转换管道

设置复杂的文本处理流程:

  • 语法纠错
  • 格式化
  • 翻译
  • 自定义 AI 提示词处理
  • 多步骤转换链

📊 使用场景

日常办公

  • 会议记录
  • 邮件撰写
  • 文档编辑
  • 快速笔记

开发工作

  • 代码注释
  • 技术文档
  • 问题描述
  • 思路整理

创作内容

  • 文章写作
  • 博客内容
  • 社交媒体
  • 创意思考

🆚 与其他工具对比

传统转录工具

  • 问题:订阅费用高($15-30/月)、数据不透明、供应商锁定
  • Whispering:按用量付费($1-5/月)、完全透明、自由选择服务商

本地转录工具

  • 问题:功能有限、准确度不足、无 AI 增强
  • Whispering:可选本地/云端、AI 智能转换、功能完整

在线转录服务

  • 问题:隐私担忧、网络依赖、功能单一
  • Whispering:隐私优先、离线可用、功能丰富

🌟 社区和支持

开源理念

Whispering 采用 MIT 许可证,完全开源。作者相信基础工具不应该要求用户信任黑盒子。公司可能转型、被收购或关闭,但开源是永恒的。

社区支持

赞助支持

项目得到了众多开发者和组织的支持,包括多位 GitHub 赞助者的持续贡献。

📈 发展路线

Whispering 正在持续发展,目标是构建比任何闭源替代品都更好的开源、本地优先的语音转录解决方案。通过社区的共同努力,我们相信可以创造出真正属于用户的、透明可信的生产力工具。

注意:Whispering 专为快速转录设计,不适合长时间录音。对于长时间录制需求,建议使用专门的录音应用,如 Hyprnote

您可能感兴趣的文章

发现更多精彩内容