github HaujetZhao/CapsWriter-Offline v2.1
v2.1 - 如臂使指

latest releases: v2.6, v2.5, v2.5-alpha...
5 months ago

阔别两年,CapsWriter-Offline 迎来大升级:

  • 更强的模型:内置多种模型可选(FunASR-Nano,SenseVoice,Paraformer),准确率大幅提升。
  • 更准的 ITN:重新编写了数字 ITN 逻辑,日期、时间、数值、分数、范围转换更智能。
  • RAG 检索增强:热词识别不再死板,支持音素级的 Fuzzy 匹配,可调阈值,就算发音稍有偏差也能认出。
  • LLM 角色系统:支持接入 Ollama 或在线 API,提供润色、翻译、代码助手等多种角色,能获取鼠标所选。
  • 纠错检索:可记录纠错历史,辅助 LLM 润色。
  • 托盘化运行:新增托盘图标,可以完全隐藏前台窗口。
  • 完善的日志:全链路日志记录(logs/ 文件夹),方便排查问题。

这个项目鸽了整整两年,真不是因为我懒。在这段时间里,我一直在等一个足够惊艳的离线语音模型。Whisper 虽然名气大,但它实际的延迟和准确率始终没法让我完全满意。直到 FunASR-Nano 开源发布,实测其优异的识别表现让我特别心动,它的 LLM Decoder 能识别我讲话的意图进而调整输出,甚至通过我的语速决定在何时添加顿号,就是它了!必须快马加鞭,做出这个全新版本。

此处发布的 zip 打包,仅适用于 Windows:

  • CapsWriter-Offline 包含客户端、服务端,适用于 Windows10 64位及以上
  • CapsWriter-Offline-Client 仅包含客户端,适用于 Windows7 64位及以上

模型文件请到 Models 下载。

另附百度网盘(程序打包和模型都有):

有朋友反馈,FunASR-nano 在他的电脑上识别结果较差,我暂时无力解决,只能等待模型更新,如果遇到这个问题的朋友,请在配置中把模型改为 SenseVoice 或者 Paraformer,这两个模型虽然准确率差了一些,但是速度非常快,再结合热词替换和本地 Ollama 的润色,也是能给出非常不错的输入效果的。

Don't miss a new CapsWriter-Offline release

NewReleases is sending notifications on new releases.