github amzxyz/RIME-LMDG LTS
Rime万象语法模型长期支持版本正式发布

latest release: dict-nightly
8 hours ago

词库与模型紧耦合的说明:
例子:模型添加“山势由” 则输入时候容易打出 “山势由高到低” 这是因为词库没有这三个字属于2+1结构容易被替换,作为模型元数据命中具有很高的权重,可以理解为hold住了,此时很容易顺滑出 由高到低 这四个字是词库的词汇,如果你的模型分词成了“山势由高” 词库优先原则,词库是“膳食 由高到低” 因为你太长了,给了“膳食”机会占位,当分词结构出现错误且长度不一致就很难被替换掉了,此时只有"山势$"这样的高频数据可以替换掉,但是如果模型有了这样的数据,同码只要打出来就是“山势”,这是致命的 ;
这里还有一个编码优先原则, 模型有两个数据“还不是50000”,“还不时40000” 如果是传统双拼永远打出来得是:还不是,只能在句子更长的时候按照语义纠正过来,对于龙码双拼则因为带声调可以精准打出”还不时“的拼音,此时在同一个编码范围内就没有“还不是”存在了,因此模型利用率更高!
总结就是词库是模型的基础,是一个引子,模型无法打破词库原本的分词结构,且越长越难,一个结构词放在词库还是放在模型是有考究的,词库能尽量的给出一个基础的分词结构,再通过模型去替换纠正,最终实现了我们想要的效果!

最新的LTS配合词库可以完整打出“青花瓷”“最炫民族风”两首歌曲,试着玩玩吧,这两首歌词更能说明问题,同时也说明依靠大语料难以做到的,因此有了这个LTS的出现,最后一公里只能依靠“人工”智能。

2025.03.21 注意最新的更新200M已经囊括了全数据,历时20天租用服务器持续分词和计算,现在我们将真真的进去lts阶段,没有更好的条件不会再有新的进步。

⚠️⚠️⚠️ 云插件和模型二者不可兼得,云插件会无差别占用翻译器特定长度的候选,因此就等于模型失效,所以使用云就放弃模型好了!
有的朋友老是问手机上能不能用?
手机:Fcitx5-Android+rime插件 ; ios仓输入法 ;同文输入法Trime ; 中文输入法
PC: Linux Fcitx5+rime插件+librime-plugin-octagram ;小狼毫Windows ; 鼠须管Squirrel macOS ;Fcitx5+rime插件 macOS

Don't miss a new RIME-LMDG release

NewReleases is sending notifications on new releases.