Ubuntu 26.10新工具Myna:语音输入告别键盘敲击

Ubuntu 26.10新工具Myna:语音输入告别键盘敲击

今年4月,Canonical的Jon Seager曾对外公布了Ubuntu在AI领域的整体规划。这套方案将AI功能划分为两大类别:一类是隐式AI,默默优化现有操作体验;另一类是显式AI,需要用户主动调用的特性。当时,Jon还特意举了语音转文字和文字转语音的例子,说明隐式AI的具体形态。几周后,这个蓝图中的一部分已经成真——名为Myna的新工具正式问世。

尽管该工具仍处于开发早期阶段,但Canonical已确认它将随Ubuntu 26.10一同亮相,这个版本预计于2026年10月发布。

AI驱动的无障碍功能拉开帷幕

Canonical桌面工程总监Jean-Baptiste Lallement在公告中表示,语音听写如今已成为各大主流平台的标配功能。在Ubuntu 26.10中,Myna的初始版本将定位为基于GNOME与Wayland的桌面听写工具,采用“按下即说”机制,只有在用户按下热键时麦克风才会接收输入。

具体操作流程非常简单:按住热键、开始说话、松手结束。一个小型活动指示器会在Myna聆听时亮起,而转录后的文字将直接出现在开始听写时光标所在的位置。

工作原理详解

语音识别的核心运算在一个名为Canonical Inference Snap的沙盒化组件内部完成。同时,语音编排器(Speech Orchestrator)负责管理整个会话流程,音频适配器(Audio Adapter)则处理麦克风捕捉到的声音——在将音频送入模型之前,它会先进行降噪和分段处理。

这个Snap包将携带三种尺寸的语音模型轻量型默认型高质量型,并配有一个可根据硬件自动匹配的运行环境。无论是NVIDIA GPU、Intel NPU,还是仅使用CPU,Myna都能正常工作。

如果你担心数据上传到云端,大可放心——语音识别完全在本地进行。只要安装了合适的模型,无需联网即可使用。另外,文本只有在最终确定后才会显示,因此你不会看到类似某些助手实时字幕那种半成品文字闪烁的情况。音频数据也不会被长期保存,它们只存在于一个小型的内存缓冲区中,会话一旦结束立即被丢弃。

目前,Myna明确不支持以下功能:

  • 在密码字段中进行听写
  • 唤醒词触发
  • 持续聆听
  • 语音助手
  • 语音指令
  • 翻译
  • 说话人识别
  • 自动语言检测

细节须知

以上所有功能都尚未最终敲定。目前Myna的GitHub仓库中仅包含一个许可证、一份README文件以及一个存放文档和架构规格的文件夹。根据以往过渡版Ubuntu的特性发布节奏,预计未来几周内,Myna就可能出现在Ubuntu 26.10每日构建版中。

需要特别注意的是,Canonical希望在Myna的规格敲定前收集社区反馈,尤其是那些已在Linux上依赖听写或辅助工具的用户意见。


关注微信号:智享开源 ,及时了解更新信息。

原文链接:https://feed.itsfoss.com/link/24361/17363827/myna-ai-speech-to-text-tool

评论列表

发表评论

你必须 登录 才能发表评论.

为您推荐


请支持IMCN发展!

谁在捐赠

微信捐赠 支付宝捐赠
微信捐赠 支付宝捐赠
ta的个人站点

发表文章4374篇

关注我的头条 不要放弃,百折不挠,坚强、自信。


扫码关注公众号:智享开源

最新科技信息


[blog_mailer_subscribe]

归档

近期评论