v2.5 新增:
- 引入 Qwen3-ASR-1.7B:140ms 极速推理,准确率夯爆。Decoder Vulkan 加速默认打开,需占 1.6GB 显存。显卡空闲时,会降低显存频率,冷启动转录延迟升至 300ms。若用管理员权限运行
nvidia-smi -lmc 9000锁定显存不降频,实测 RTX5050 转录延迟可降至 100ms - 集成 Force Aligner:辅助 Qwen3-ASR 支持时间戳,按需加载、超时释放,仅文件转录时占用资源
- 热词别名:热词支持用
|分隔定义多个别名 - 角色别名:
name用|分隔定义多个别名,解决 ASR 对角色名识别不准的问题 - 移除纠错历史:热词别名已能覆盖纠错历史的需求,移除
hot-rectify.txt及相关逻辑 - 文件转录支持热词:文件转录现在也可以使用热词功能
- 语言配置:
config_client.py新增language选项,支持指定识别目标语言 - 架构重构:进行了大量重构,方便后续维护
- 日志优化:只保留一份日志文件
此处发布的 zip 打包,仅适用于 Windows:
- CapsWriter-Offline 包含客户端、服务端,适用于 Windows10 64位及以上
- CapsWriter-Offline-Client 仅包含客户端,适用于 Windows7 64位及以上
模型选择:
- 独显电脑优先用 Qwen3-ASR-1.7B-q5_k,准确率夯爆
- 集显电脑可尝试 Qwen3-ASR-1.7B-q4_k,如果延迟太高,可降至 Fun-ASR-Nano
- 性能太差则建议 SenseVoice-Small
模型文件请到 Models 或百试网盘链接下载。
百度网盘(程序打包和模型都有):
- 链接: https://pan.baidu.com/s/1GsrHynsRg3bAvNFoj8GuJQ
- 提取码: ngjo