热烈祝贺
你的嘴巴比你的手打字更快,但语音输入很少作为桌面上的主要输入方法(大多数人在移动设备上使用它时并不觉得有什么特别)。
尽管语音转文本功能在桌面操作系统上已经存在了几十年,无论是原生功能还是通过专用应用程序,但它从未流行起来,因为它不准确且速度慢(而且因为你在键盘上做的事情用说出来效率较低,但这是另一个问题)。
然后是Whisper,这是OpenAI在2022年发布的语音识别模型,专门用于将音频转换为文本。由于其足够准确的多语言转录能力,以及完成这项工作的重要性,它被证明非常受欢迎。
整个音频到文本的工具类别已经涌现出来,从播客转录工具到自动字幕(VLC也在使用它开发实时字幕插件)。
现在,一个新的桌面Linux应用程序使用Whisper让你通过语音在应用程序中输入文字。
Speed of Sound是一个新的Linux应用程序,它使用Whisper模型的小版本,让你可以通过说话在任何聚焦的文本字段中输入文字(如果设备有麦克风)。它也是多语言的,因此你可以设置主要和次要语言,并在它们之间切换。
当应用程序运行时,你在应用程序内点击按钮(或按super + z)开始监听,说出你的想法,然后停止录音。模型将你的语音转换为文字,并将其输入到打开的应用程序或搜索框中。
它能够通过XDG桌面门户模拟打字。根据项目文档,这适用于所有主要的桌面环境,包括GNOME和KDE,以及在X11和Wayland上运行。当你运行它时,应用程序会提示你授予相关权限。
提供你的写作风格细节以及定义你使用的任何自定义词汇或缩写,将帮助在模型尝试识别你所说的内容时进行”个性化”。

语音到文本的处理在本地和离线进行,因此没有录音会离开你的设备。然而,这不是真正意义上的实时转录,因为你需要记住在正确的时间按下正确的键/按钮,否则你的解释可能会丢失到以太网中。
到目前为止,效果还不错。如果准确性不佳,可以在应用程序内下载更多模型,或者连接到云或自托管的大语言模型。该应用程序还提供使用大语言模型进行”文本润色”的帮助 – 大概是拼写和自动更正,但大多数大语言模型无法抵制重写的冲动。
就像所有”AI”任务一样,它并不完美。对于需要记录的事情,需要人的耳朵。但对于日常需求,比如记笔记、用意识流写电子邮件,它比让大语言模型为你写东西要好得多。
用嘴巴写作(可以说是)至少比盯着空页面上的闪烁光标更快(尽管在实践中,不断的开始/停止一旦感觉像单人播客/治疗聊天的 novelty 消失,最终会变得乏味)。
如果你的手在写论文或 dictate 后续电子邮件时想做些别的事情,值得一试。它永远不会完全取代打字(你的手必须回到键盘上按enter),但在适当的上下文中,它有其用途。
Speed of Sound是免费的开源软件,可以从Flathub和Snap Store安装,也可以从GitHub发布页面获取AppImage、Deb和RPM软件包。
原文: https://www.omgubuntu.co.uk/2026/04/speed-of-sound-linux-voice-typing-app
| 投稿作者 | 作者网站 |
|---|---|
你必须 登录 才能发表评论.
| 微信捐赠 | 支付宝捐赠 |
|---|---|
![]() |
![]() |


热烈祝贺
imcn成功拥抱人工智能。
Zorin OS 很久没有使用,开箱即用…
elementaryOS 5.0中文版安…
写个桌面启动器创建工具吧
还没有任何评论,你来说两句吧!