Ubuntu 26.10新工具Myna：语音输入告别键盘敲击

Mark Do 7 小时前暂无评论阅读 32 次

今年4月，Canonical的Jon Seager曾对外公布了Ubuntu在AI领域的整体规划。这套方案将AI功能划分为两大类别：一类是隐式AI，默默优化现有操作体验；另一类是显式AI，需要用户主动调用的特性。当时，Jon还特意举了语音转文字和文字转语音的例子，说明隐式AI的具体形态。几周后，这个蓝图中的一部分已经成真——名为Myna的新工具正式问世。

尽管该工具仍处于开发早期阶段，但Canonical已确认它将随Ubuntu 26.10一同亮相，这个版本预计于2026年10月发布。

AI驱动的无障碍功能拉开帷幕

Canonical桌面工程总监Jean-Baptiste Lallement在公告中表示，语音听写如今已成为各大主流平台的标配功能。在Ubuntu 26.10中，Myna的初始版本将定位为基于GNOME与Wayland的桌面听写工具，采用“按下即说”机制，只有在用户按下热键时麦克风才会接收输入。

具体操作流程非常简单：按住热键、开始说话、松手结束。一个小型活动指示器会在Myna聆听时亮起，而转录后的文字将直接出现在开始听写时光标所在的位置。

工作原理详解

语音识别的核心运算在一个名为Canonical Inference Snap的沙盒化组件内部完成。同时，语音编排器（Speech Orchestrator）负责管理整个会话流程，音频适配器（Audio Adapter）则处理麦克风捕捉到的声音——在将音频送入模型之前，它会先进行降噪和分段处理。

这个Snap包将携带三种尺寸的语音模型：轻量型、默认型和高质量型，并配有一个可根据硬件自动匹配的运行环境。无论是NVIDIA GPU、Intel NPU，还是仅使用CPU，Myna都能正常工作。

如果你担心数据上传到云端，大可放心——语音识别完全在本地进行。只要安装了合适的模型，无需联网即可使用。另外，文本只有在最终确定后才会显示，因此你不会看到类似某些助手实时字幕那种半成品文字闪烁的情况。音频数据也不会被长期保存，它们只存在于一个小型的内存缓冲区中，会话一旦结束立即被丢弃。

目前，Myna明确不支持以下功能：