在Linux上使用基于Whisper的应用进行语音输入

Mark Do 2026年4月19日评论已关闭阅读 6,926 次

你的嘴巴比你的手打字更快，但语音输入很少作为桌面上的主要输入方法（大多数人在移动设备上使用它时并不觉得有什么特别）。

尽管语音转文本功能在桌面操作系统上已经存在了几十年，无论是原生功能还是通过专用应用程序，但它从未流行起来，因为它不准确且速度慢（而且因为你在键盘上做的事情用说出来效率较低，但这是另一个问题）。

然后是Whisper，这是OpenAI在2022年发布的语音识别模型，专门用于将音频转换为文本。由于其足够准确的多语言转录能力，以及完成这项工作的重要性，它被证明非常受欢迎。

整个音频到文本的工具类别已经涌现出来，从播客转录工具到自动字幕（VLC也在使用它开发实时字幕插件）。

现在，一个新的桌面Linux应用程序使用Whisper让你通过语音在应用程序中输入文字。

Speed of sound是一个语音转文本工具

Speed of Sound是一个新的Linux应用程序，它使用Whisper模型的小版本，让你可以通过说话在任何聚焦的文本字段中输入文字（如果设备有麦克风）。它也是多语言的，因此你可以设置主要和次要语言，并在它们之间切换。

当应用程序运行时，你在应用程序内点击按钮（或按super + z）开始监听，说出你的想法，然后停止录音。模型将你的语音转换为文字，并将其输入到打开的应用程序或搜索框中。

它能够通过XDG桌面门户模拟打字。根据项目文档，这适用于所有主要的桌面环境，包括GNOME和KDE，以及在X11和Wayland上运行。当你运行它时，应用程序会提示你授予相关权限。

提供你的写作风格细节以及定义你使用的任何自定义词汇或缩写，将帮助在模型尝试识别你所说的内容时进行”个性化”。

语音到文本的处理在本地和离线进行，因此没有录音会离开你的设备。然而，这不是真正意义上的实时转录，因为你需要记住在正确的时间按下正确的键/按钮，否则你的解释可能会丢失到以太网中。

到目前为止，效果还不错。如果准确性不佳，可以在应用程序内下载更多模型，或者连接到云或自托管的大语言模型。该应用程序还提供使用大语言模型进行”文本润色”的帮助 – 大概是拼写和自动更正，但大多数大语言模型无法抵制重写的冲动。

就像所有”AI”任务一样，它并不完美。对于需要记录的事情，需要人的耳朵。但对于日常需求，比如记笔记、用意识流写电子邮件，它比让大语言模型为你写东西要好得多。

用嘴巴写作（可以说是）至少比盯着空页面上的闪烁光标更快（尽管在实践中，不断的开始/停止一旦感觉像单人播客/治疗聊天的 novelty 消失，最终会变得乏味）。

如果你的手在写论文或 dictate 后续电子邮件时想做些别的事情，值得一试。它永远不会完全取代打字（你的手必须回到键盘上按enter），但在适当的上下文中，它有其用途。

Speed of Sound是免费的开源软件，可以从Flathub和Snap Store安装，也可以从GitHub发布页面获取AppImage、Deb和RPM软件包。

微信捐赠	支付宝捐赠