github ErlichLiu/Proma v0.9.15
0.9.15

4 hours ago

Proma v0.9.15

对比基准:v0.9.12

新功能

  • 豆包流式语音输入 — 新增系统级语音输入能力,可通过 Ctrl+~ 唤起独立浮窗,把语音实时转写为文本并写回 Proma 或当前光标位置 (#377)

    • 豆包大模型流式 ASR — 主进程接入火山引擎 OpenSpeech WebSocket,支持豆包语音识别模型 2.0,并处理自定义鉴权 Header、gzip 帧、增量转写和最终结果
    • 独立语音输入浮窗 — 浮窗不抢焦点、不进入任务栏,录音时展示状态、音量反馈和实时转写内容;再次按快捷键可停止并自动提交
    • 多种输出方式 — 默认模式下,如果从 Proma 内唤起会写入当前 Chat / Agent 输入框;如果从其他应用唤起,则优先写入当前系统光标位置;也可设置为仅复制到剪贴板或仅写入 Proma 输入框
    • 外部应用自动粘贴 — 通过临时剪贴板 + 系统粘贴快捷键把文本写入前台应用,失败时保留文本到剪贴板;macOS 下会提示需要辅助功能权限
    • 语音输入设置页 — 设置中新增语音输入配置,支持启用开关、APP ID、Access Token、Resource ID、连接模式、识别语言、输出方式和连接测试;Access Token 保存时走加密配置
    • 连接模式与语言选择 — 支持双向流式优化版 / 标准版,支持自动识别、中文普通话、英语、粤语、日语、韩语
    • macOS 麦克风权限声明 — 打包配置新增 NSMicrophoneUsageDescription,系统会明确说明 Proma 访问麦克风是为了实时语音转写
  • 菜单栏会话快捷操作 — 系统菜单栏新增最近 Agent 会话入口和快速创建入口 (#376)

    • 最近会话 — 菜单栏展示最近 3 个未归档 Agent 会话,并显示所属工作区;更多最近会话收纳到「更多」子菜单
    • 快速打开 Agent 会话 — 从菜单栏直接打开指定 Agent 会话,并自动切换到对应工作区和标签页
    • 快速新建 — 支持从菜单栏新建 Chat 对话或 Agent 会话
    • 动态刷新 — 点击或右键菜单栏图标时重新读取会话列表,保证菜单内容接近当前状态
  • Dock / Launcher 角标未读数 — 新增应用级角标,汇总需要用户处理的 Agent 状态 (#373)

    • 角标数量包含:已完成但未查看的 Agent 会话、待审批权限请求、待回答 AskUser 请求、待审批 ExitPlan 请求
    • macOS 显示在 Dock 图标上,Linux 在支持 Unity Launcher 的环境下显示;数量归零时自动清除
    • 新增 dock-badge-count 计数工具及 BDD 风格测试覆盖

Bug 修复

  • 权限模式彻底按 session 隔离 — 进一步移除工作区级权限模式读写入口,热切换和错误重试不再把当前 session 的权限模式写回工作区,避免不同会话之间继续出现状态污染 (#374)
  • 粘贴链接稳定性修复 — 富文本输入禁用 TipTap 自动链接和粘贴自动链接,减少普通文本粘贴时被错误转换为链接的情况 (#375)
  • 工作区文件监听修复 — 文件监听统一规范化 Windows / Unix 路径,只忽略工作区顶层 config.json,会话目录里的同名用户文件不再被误忽略 (#375)
  • 历史工具动画关闭 — 已完成的历史 Agent 消息不再播放工具活动动画,降低回看历史时的视觉干扰
  • Agent 消息加载误判修正 — Agent 消息区域改为基于 SDKMessage 统一判断内容状态,避免空的旧消息数组影响空状态和淡入逻辑

界面与体验优化

  • 语音按钮升级为系统级入口 — Chat / Agent 输入框里的麦克风按钮不再依赖浏览器 Web Speech API,统一唤起新的豆包流式语音输入浮窗
  • 语音文本优先插入当前编辑器光标 — Proma 内回填语音结果时会优先写入最后聚焦的富文本输入框;如果无法定位光标,则回退写入当前 Chat / Agent 草稿
  • 全局快捷键语义修正Ctrl+~ 保持为物理 Control 键,不再在 macOS 上被转换成 CommandOrControl,避免和其他快捷键语义混淆
  • Agent 工具渲染路径简化 — 移除旧版 AgentMessage 工具详情渲染组件,Agent 消息展示继续向统一 SDKMessage 渲染路径收敛,减少维护分叉

开发与打包

  • 版本更新@proma/electron0.9.12 升级到 0.9.15@proma/shared0.1.17 升级到 0.1.19
  • 新增依赖ws@8.19.0 用于主进程连接豆包 OpenSpeech WebSocket
  • 新增协作说明 — 仓库根目录新增 AGENTS.md,沉淀项目结构、架构约束、常用命令和 Agent SDK 集成注意事项
  • 语音输入 MVP 设计文档 — 新增 docs/plans/2025-05-05-doubao-streaming-voice-input-mvp-design.md,记录豆包流式语音输入的方案与边界

使用提示

  • 使用语音输入前,需要在「设置 → 语音输入」中启用功能并填写火山引擎豆包 ASR 凭证
  • 第一次使用时系统可能请求麦克风权限;如果需要写入其他应用的当前光标位置,macOS 还需要在系统设置中允许 Proma 使用辅助功能
  • 自动粘贴失败时,Proma 会把识别文本保留到剪贴板,避免丢失内容

下载

  • macOS Apple SiliconProma-0.9.15-arm64.dmg
  • macOS IntelProma-0.9.15.dmg
  • WindowsProma-Setup-0.9.15.exe

Don't miss a new Proma release

NewReleases is sending notifications on new releases.