AItoType – 开源、免费的桌面端语音转文字工具
办公效率
AItoType – 开源、免费的桌面端语音转文字工具
🔥 热度:14

APIWINmacOSLinux

DeepSeek 导航网:免费开源语音转文字工具「AItoType」据介绍基于 Tauri v2 构建,旨在提供极致轻量、高效的语音输入体验。提供 Windows、Linux、macOS 版本。核心理念极简设计、高效生产力,提供全局快捷键唤起、无缝嵌入工作流、历史记录优化、极致 UI 设计等等。

使用介绍

  • 首次配置:首次打开需进入配置界面,分两步完成:(1) 选择供应商;(2) 填入 API Key 。
  • 界面交互:点击主界面“录制”按钮开始,再次点击停止。识别结果会显示在主界面并可一键复制。
  • 后台/快捷键模式:支持关闭主窗口后台运行。通过预设快捷键唤醒录制,再次按键停止。识别完成后会自动写入当前光标所在输入框(自动粘贴)。
  • 历史记录:History 页面按条目卡片展示,每条可点击直接复制内容。
  • 权限引导:首次使用会引导完成麦克风与辅助功能授权,确保可录音和后台自动写入。
  • 供应商:目前支持 OpenRouter 和 SiliconFlow 。 OpenRouter 默认使用 Gemini 3.0 Flash ,SiliconFlow 默认使用 TeleAI 模型。划重点,现在硅基流动的 TeleAI/TeleSpeechASR 完全免费,速度快且随便用。

功能特性

  • 全局快捷键唤起:默认 Alt+Space(Windows 默认 Ctrl+Shift+Space)一键录音,再次按下即可停止并识别。
  • 无缝嵌入工作流
    • 自动写入(自动粘贴):识别完成后,结果自动“打字”到你当前光标所在的输入框(Chatbox、文档、编辑器等)。
    • 自动复制:可选自动复制结果到剪贴板。
  • 历史记录优化
    • 历史页面保持大面板展示,每条记录使用独立小卡片显示时间与文本。
    • 点击任意历史卡片可立即复制该条内容,便于二次使用。
  • 极致 UI 设计
    • "Glass Monolith" 玻璃拟态设计风格。
    • 沉浸式动效与交互反馈。
    • 后台悬浮条:在后台录音时,屏幕底部显示灵动胶囊状态条,不干扰视线。
  • 权限引导更清晰
    • 启动后按提示完成系统权限授权(麦克风、辅助功能)。
    • 未授权时会给出可操作提示,减少“录了但不能写入”的问题。
  • 灵活的模型支持
    • 内置 OpenRouter 支持。
    • 默认配置 Gemini 3.0 Flash(速度快、精度高、免费额度充裕)。
    • 可自定义 API Key 和 Model(如 GPT-4o, Claude 3.5 Sonnet ,DeepSeek 等)。
  • 隐私安全
    • 音频数据仅在您的设备上录制,并直接发送至您配置的 API 服务商。
    • 本地不留存录音音频文件;会保存必要配置(如 API Key、Model、快捷键)以便下次使用。

下载地址

相关推荐