Proma v0.9.15
对比基准:v0.9.12
新功能
-
豆包流式语音输入 — 新增系统级语音输入能力,可通过
Ctrl+~唤起独立浮窗,把语音实时转写为文本并写回 Proma 或当前光标位置 (#377)- 豆包大模型流式 ASR — 主进程接入火山引擎 OpenSpeech WebSocket,支持豆包语音识别模型 2.0,并处理自定义鉴权 Header、gzip 帧、增量转写和最终结果
- 独立语音输入浮窗 — 浮窗不抢焦点、不进入任务栏,录音时展示状态、音量反馈和实时转写内容;再次按快捷键可停止并自动提交
- 多种输出方式 — 默认模式下,如果从 Proma 内唤起会写入当前 Chat / Agent 输入框;如果从其他应用唤起,则优先写入当前系统光标位置;也可设置为仅复制到剪贴板或仅写入 Proma 输入框
- 外部应用自动粘贴 — 通过临时剪贴板 + 系统粘贴快捷键把文本写入前台应用,失败时保留文本到剪贴板;macOS 下会提示需要辅助功能权限
- 语音输入设置页 — 设置中新增语音输入配置,支持启用开关、APP ID、Access Token、Resource ID、连接模式、识别语言、输出方式和连接测试;Access Token 保存时走加密配置
- 连接模式与语言选择 — 支持双向流式优化版 / 标准版,支持自动识别、中文普通话、英语、粤语、日语、韩语
- macOS 麦克风权限声明 — 打包配置新增
NSMicrophoneUsageDescription,系统会明确说明 Proma 访问麦克风是为了实时语音转写
-
菜单栏会话快捷操作 — 系统菜单栏新增最近 Agent 会话入口和快速创建入口 (#376)
- 最近会话 — 菜单栏展示最近 3 个未归档 Agent 会话,并显示所属工作区;更多最近会话收纳到「更多」子菜单
- 快速打开 Agent 会话 — 从菜单栏直接打开指定 Agent 会话,并自动切换到对应工作区和标签页
- 快速新建 — 支持从菜单栏新建 Chat 对话或 Agent 会话
- 动态刷新 — 点击或右键菜单栏图标时重新读取会话列表,保证菜单内容接近当前状态
-
Dock / Launcher 角标未读数 — 新增应用级角标,汇总需要用户处理的 Agent 状态 (#373)
- 角标数量包含:已完成但未查看的 Agent 会话、待审批权限请求、待回答 AskUser 请求、待审批 ExitPlan 请求
- macOS 显示在 Dock 图标上,Linux 在支持 Unity Launcher 的环境下显示;数量归零时自动清除
- 新增
dock-badge-count计数工具及 BDD 风格测试覆盖
Bug 修复
- 权限模式彻底按 session 隔离 — 进一步移除工作区级权限模式读写入口,热切换和错误重试不再把当前 session 的权限模式写回工作区,避免不同会话之间继续出现状态污染 (#374)
- 粘贴链接稳定性修复 — 富文本输入禁用 TipTap 自动链接和粘贴自动链接,减少普通文本粘贴时被错误转换为链接的情况 (#375)
- 工作区文件监听修复 — 文件监听统一规范化 Windows / Unix 路径,只忽略工作区顶层
config.json,会话目录里的同名用户文件不再被误忽略 (#375) - 历史工具动画关闭 — 已完成的历史 Agent 消息不再播放工具活动动画,降低回看历史时的视觉干扰
- Agent 消息加载误判修正 — Agent 消息区域改为基于 SDKMessage 统一判断内容状态,避免空的旧消息数组影响空状态和淡入逻辑
界面与体验优化
- 语音按钮升级为系统级入口 — Chat / Agent 输入框里的麦克风按钮不再依赖浏览器 Web Speech API,统一唤起新的豆包流式语音输入浮窗
- 语音文本优先插入当前编辑器光标 — Proma 内回填语音结果时会优先写入最后聚焦的富文本输入框;如果无法定位光标,则回退写入当前 Chat / Agent 草稿
- 全局快捷键语义修正 —
Ctrl+~保持为物理 Control 键,不再在 macOS 上被转换成CommandOrControl,避免和其他快捷键语义混淆 - Agent 工具渲染路径简化 — 移除旧版
AgentMessage工具详情渲染组件,Agent 消息展示继续向统一 SDKMessage 渲染路径收敛,减少维护分叉
开发与打包
- 版本更新 —
@proma/electron从0.9.12升级到0.9.15,@proma/shared从0.1.17升级到0.1.19 - 新增依赖 —
ws@8.19.0用于主进程连接豆包 OpenSpeech WebSocket - 新增协作说明 — 仓库根目录新增
AGENTS.md,沉淀项目结构、架构约束、常用命令和 Agent SDK 集成注意事项 - 语音输入 MVP 设计文档 — 新增
docs/plans/2025-05-05-doubao-streaming-voice-input-mvp-design.md,记录豆包流式语音输入的方案与边界
使用提示
- 使用语音输入前,需要在「设置 → 语音输入」中启用功能并填写火山引擎豆包 ASR 凭证
- 第一次使用时系统可能请求麦克风权限;如果需要写入其他应用的当前光标位置,macOS 还需要在系统设置中允许 Proma 使用辅助功能
- 自动粘贴失败时,Proma 会把识别文本保留到剪贴板,避免丢失内容
下载
- macOS Apple Silicon —
Proma-0.9.15-arm64.dmg - macOS Intel —
Proma-0.9.15.dmg - Windows —
Proma-Setup-0.9.15.exe