Whispering:免费开源的语音转文字应用|附本地部署指南
Whispering 是一款完全开源的语音转文字应用,主打本地优先和数据透明的理念。只需按下快捷键,说话,就能获得准确的文字转录,完全免费且开源。
💭 站长测评
作为一个对语音转文字功能极度执着的用户,我已经先后购买了科大讯飞录音笔、智能办公本以及汉王墨水屏平板等多款硬件设备,但他们都仅仅限于设备内录音转录,不能导入录音转文字。今天早上起床时(其实是找实时资讯的时候...)偶然发现了这款 Whispering 应用,立即被其开源理念和本地优先的特性所吸引,于是进行了详细的测试体验。
相比于传统的硬件设备,Whispering 最大的优势在于:
- 成本透明:无需购买昂贵硬件,API 费用直接可控
- 数据安全:完全开源,音频处理过程一目了然
- 功能灵活:支持本地/云端双模式,可按需选择
- 持续更新:开源社区驱动,功能不断完善
对于已经在语音转文字领域投入不少的用户来说,Whispering 提供了一个更加经济、透明且功能强大的软件解决方案。现目前此应用只有英文版本,但模型选择并不限制,因此可以使用它来转录中文音频。
📖 项目背景
作者在使用语音转录工具多年后发现,市面上的产品虽然功能"几乎"够用,但都是闭源的黑盒子,即使那些声称"本地化"或"设备端处理"的工具,用户仍然无法确定音频数据到底去了哪里。
因此,Whispering 应运而生。它具有以下特点:
- 完全开源透明 - 代码公开,可审计
- 本地优先 - 数据存储在本地设备上
- 无中间商 - 音频直接从设备发送到选择的服务提供商
- 无供应商锁定 - 可自由选择转录服务
- 成本极低 - 直接向API提供商付费,无需额外订阅
🎯 核心功能
基础转录功能
- 快捷键激活 - 按下自定义快捷键即可开始录音
- 实时转录 - 说话后快速获得文字结果
- 多平台支持 - 支持 macOS、Windows、Linux 和 Web 浏览器
- 多语言支持 - 支持多种输出语言
高级特性
🎙️ 语音活动检测 (VAD)
支持真正的免手持操作模式,无需一直按住按钮,通过语音检测自动开始和停止录音。
🤖 AI 智能转换
内置可定制的 AI 转换功能,可以:
- 自动修正语法错误
- 翻译不同语言
- 重新格式化文本
- 使用自定义提示词进行个性化处理
- 支持任何 LLM 提供商(OpenAI GPT-4、Anthropic Claude、Google Gemini 等)
⚙️ 多服务支持
转录服务选择:
- 云端服务:OpenAI Whisper、Groq、ElevenLabs 等
- 本地服务:Speaches、owhisper 等(完全离线,无需网络)
AI 转换服务:
- OpenAI GPT 系列
- Anthropic Claude
- Google Gemini
- Groq Llama 模型
- 或任何兼容的 LLM 服务
💰 成本对比
与传统订阅制工具相比,Whispering 的成本优势明显:
服务 | 每小时费用 | 轻度使用(20分钟/天) | 中度使用(1小时/天) | 重度使用(3小时/天) | 传统工具 |
---|---|---|---|---|---|
Groq distil-whisper-large-v3-en | $0.02 | $0.20/月 | $0.60/月 | $1.80/月 | $15-30/月 |
Groq whisper-large-v3-turbo | $0.04 | $0.40/月 | $1.20/月 | $3.60/月 | $15-30/月 |
OpenAI gpt-4o-mini-transcribe | $0.18 | $1.80/月 | $5.40/月 | $16.20/月 | $15-30/月 |
本地处理 | $0.00 | $0.00/月 | $0.00/月 | $0.00/月 | $15-30/月 |
🔒 隐私和数据安全
Whispering 采用极其严格的隐私保护措施:
本地数据存储
- 语音录音和转录文本存储在 IndexedDB 中
- 所有用户数据保存在本地设备上
- 设置和配置信息完全本地化
数据传输透明
转录服务:只有在需要转录时,音频才会发送到你选择的服务商
- 可选择外部服务(使用你自己的 API 密钥)
- 可选择本地服务(如 Speaches,完全离线)
AI 转换服务(可选):
- 转录后的文本可发送到选择的 LLM 进行后处理
- 使用你自己的 API 密钥
- 转换配置和提示词存储在本地
无中间服务器:音频和文本直接从你的设备发送到 API 提供商
匿名分析
- 使用开源的 Aptabase 进行匿名事件记录
- 不收集任何个人数据
- 可在设置中完全关闭
- 所有记录的事件都可在源代码中查看
🚀 快速开始
安装步骤
下载应用
- 访问 GitHub Releases 下载对应平台版本
- 或在浏览器中试用:whispering.epicenter.so
获取 API 密钥
- 推荐使用 Groq(速度快、准确度高、免费额度慷慨、价格低至 $0.02/小时)
- 访问 console.groq.com/keys 注册并创建 API 密钥
- 无需信用卡即可开始使用免费额度
配置和测试
- 打开 Whispering
- 进入设置 → 转录设置
- 选择 Groq 并粘贴 API 密钥
- 点击录音按钮或按下
Cmd+Shift+;
说 "Testing Whispering" - 转录文本会自动复制到剪贴板
🏠 本地部署完全指南
如果你希望实现完全离线的语音转录,不依赖任何外部 API 服务,可以选择本地部署 Speaches 转录服务。这样既能保证最高级别的隐私安全,又能避免任何网络费用。
前置依赖:安装 FFmpeg
Whispering 需要 FFmpeg 来处理音频和视频文件格式转换,也支持使用本地的 Whisper C++
转写文字,这里我们选择使用 Speaches 转写。
Windows 安装方式:
选项 1:自动安装(推荐)
- 点击应用内的"Install FFmpeg"按钮,Whispering 会自动下载并配置 FFmpeg
选项 2:手动安装
- 从官方网站下载 FFmpeg:Download FFmpeg for Windows
- 选择 "release builds" → "ffmpeg-release-essentials.zip"
- 解压缩到
C:\ffmpeg
目录 - 将
C:\ffmpeg\bin
添加到系统 PATH 环境变量 - 重启 Whispering 应用使更改生效
验证安装
# 验证 FFmpeg 是否正确安装
使用 Docker 部署 Speaches 服务
第一步:下载配置文件
根据你的硬件配置选择合适的部署方式:
# 下载 Docker Compose 配置文件
第二步:启动服务
# 启动 Speaches 服务(后台运行)
注意:首次启动时,Docker 需要下载 Whisper 模型文件,可能需要等待几分钟时间。
第三步:验证服务状态
# 设置本地服务地址
# 查看可用模型
SPEACHES的更多模型和使用方法详见:Model Discovery - Speaches Documentation。中文的语音转文字模型的选择很多,这里选择的第一个。
等待几分钟后,成功返回的模型信息示例:
配置 Whispering 使用本地服务
第一步:选择转录服务
第二步:配置服务参数
配置参数:
- API Base URL:
http://api_base_url:8000
- 模型名称:
Systran/faster-whisper-large-v3
第三步:测试转录功能
速度很快,还没反应过来就已经处理好了(GPU)。
可选:文本后处理优化
基础的本地转录可能缺少标点符号和段落分割。你可以配置 AI 转换服务来优化转录结果:
可配置的后处理功能:
- 添加标点符号
- 段落分割
- 语法纠错
- 格式优化
- 多语言翻译
本地部署的优势
✅ 完全离线:无需网络连接,保证数据隐私
✅ 零费用:一次部署,长期使用无额外成本
✅ 高性能:本地处理速度快,无网络延迟
✅ 可定制:可以选择不同的 Whisper 模型版本
✅ 数据安全:音频文件不离开本地设备
🛠️ 技术特性
现代技术栈
- 前端:Svelte 5 + SvelteKit
- 桌面框架:Tauri
- 语言:TypeScript + Rust
- 数据库:IndexedDB (通过 Dexie.js)
- UI 组件:shadcn-svelte + TailwindCSS
- 状态管理:TanStack Query
性能优化
- 轻量级:应用大小仅约 22MB
- 快速启动:即开即用,无需等待
- 资源节约:最小化系统资源占用
- 高可靠性:使用 Result 类型进行错误处理
架构设计
采用清晰的三层架构,实现 97% 的代码复用:
- 服务层:平台无关的业务逻辑
- 查询层:响应式数据管理和缓存
- UI 层:干净的 Svelte 5 组件
🔧 高级配置
自定义快捷键
可以在设置中配置个性化的录音快捷键,支持全局快捷键操作。
转换管道
设置复杂的文本处理流程:
- 语法纠错
- 格式化
- 翻译
- 自定义 AI 提示词处理
- 多步骤转换链
📊 使用场景
日常办公
- 会议记录
- 邮件撰写
- 文档编辑
- 快速笔记
开发工作
- 代码注释
- 技术文档
- 问题描述
- 思路整理
创作内容
- 文章写作
- 博客内容
- 社交媒体
- 创意思考
🆚 与其他工具对比
传统转录工具
- 问题:订阅费用高($15-30/月)、数据不透明、供应商锁定
- Whispering:按用量付费($1-5/月)、完全透明、自由选择服务商
本地转录工具
- 问题:功能有限、准确度不足、无 AI 增强
- Whispering:可选本地/云端、AI 智能转换、功能完整
在线转录服务
- 问题:隐私担忧、网络依赖、功能单一
- Whispering:隐私优先、离线可用、功能丰富
🌟 社区和支持
开源理念
Whispering 采用 MIT 许可证,完全开源。作者相信基础工具不应该要求用户信任黑盒子。公司可能转型、被收购或关闭,但开源是永恒的。
社区支持
- GitHub Issues:功能请求和 Bug 报告
- Discord 社区:加入讨论
- 文档齐全:详细的安装和使用指南
赞助支持
项目得到了众多开发者和组织的支持,包括多位 GitHub 赞助者的持续贡献。
📈 发展路线
Whispering 正在持续发展,目标是构建比任何闭源替代品都更好的开源、本地优先的语音转录解决方案。通过社区的共同努力,我们相信可以创造出真正属于用户的、透明可信的生产力工具。
注意:Whispering 专为快速转录设计,不适合长时间录音。对于长时间录制需求,建议使用专门的录音应用,如 Hyprnote。