
今年4月,Canonical的Jon Seager曾对外公布了Ubuntu在AI领域的整体规划。这套方案将AI功能划分为两大类别:一类是隐式AI,默默优化现有操作体验;另一类是显式AI,需要用户主动调用的特性。当时,Jon还特意举了语音转文字和文字转语音的例子,说明隐式AI的具体形态。几周后,这个蓝图中的一部分已经成真——名为Myna的新工具正式问世。
尽管该工具仍处于开发早期阶段,但Canonical已确认它将随Ubuntu 26.10一同亮相,这个版本预计于2026年10月发布。
Canonical桌面工程总监Jean-Baptiste Lallement在公告中表示,语音听写如今已成为各大主流平台的标配功能。在Ubuntu 26.10中,Myna的初始版本将定位为基于GNOME与Wayland的桌面听写工具,采用“按下即说”机制,只有在用户按下热键时麦克风才会接收输入。
具体操作流程非常简单:按住热键、开始说话、松手结束。一个小型活动指示器会在Myna聆听时亮起,而转录后的文字将直接出现在开始听写时光标所在的位置。
语音识别的核心运算在一个名为Canonical Inference Snap的沙盒化组件内部完成。同时,语音编排器(Speech Orchestrator)负责管理整个会话流程,音频适配器(Audio Adapter)则处理麦克风捕捉到的声音——在将音频送入模型之前,它会先进行降噪和分段处理。
这个Snap包将携带三种尺寸的语音模型:轻量型、默认型和高质量型,并配有一个可根据硬件自动匹配的运行环境。无论是NVIDIA GPU、Intel NPU,还是仅使用CPU,Myna都能正常工作。
如果你担心数据上传到云端,大可放心——语音识别完全在本地进行。只要安装了合适的模型,无需联网即可使用。另外,文本只有在最终确定后才会显示,因此你不会看到类似某些助手实时字幕那种半成品文字闪烁的情况。音频数据也不会被长期保存,它们只存在于一个小型的内存缓冲区中,会话一旦结束立即被丢弃。
目前,Myna明确不支持以下功能:
以上所有功能都尚未最终敲定。目前Myna的GitHub仓库中仅包含一个许可证、一份README文件以及一个存放文档和架构规格的文件夹。根据以往过渡版Ubuntu的特性发布节奏,预计未来几周内,Myna就可能出现在Ubuntu 26.10每日构建版中。
需要特别注意的是,Canonical希望在Myna的规格敲定前收集社区反馈,尤其是那些已在Linux上依赖听写或辅助工具的用户意见。
关注微信号:智享开源 ,及时了解更新信息。
原文链接:https://feed.itsfoss.com/link/24361/17363827/myna-ai-speech-to-text-tool
你必须 登录 才能发表评论.
| 微信捐赠 | 支付宝捐赠 |
|---|---|
![]() |
![]() |
扫码关注公众号:智享开源

[blog_mailer_subscribe]
还没有任何评论,你来说两句吧!