amzxyz/RIME-LMDG LTS on GitHub

词库与模型紧耦合的说明：
例子:模型添加“山势由” 则输入时候容易打出 “山势由高到低” 这是因为词库没有这三个字属于2+1结构容易被替换，作为模型元数据命中具有很高的权重，可以理解为hold住了，此时很容易顺滑出由高到低这四个字是词库的词汇，如果你的模型分词成了“山势由高” 词库优先原则，词库是“膳食由高到低” 因为你太长了，给了“膳食”机会占位，当分词结构出现错误且长度不一致就很难被替换掉了，此时只有"山势$"这样的高频数据可以替换掉，但是如果模型有了这样的数据，同码只要打出来就是“山势”，这是致命的；
这里还有一个编码优先原则，模型有两个数据“还不是50000”，“还不时40000” 如果是传统双拼永远打出来得是：还不是，只能在句子更长的时候按照语义纠正过来，对于龙码双拼则因为带声调可以精准打出”还不时“的拼音，此时在同一个编码范围内就没有“还不是”存在了，因此模型利用率更高！
总结就是词库是模型的基础，是一个引子，模型无法打破词库原本的分词结构，且越长越难，一个结构词放在词库还是放在模型是有考究的，词库能尽量的给出一个基础的分词结构，再通过模型去替换纠正，最终实现了我们想要的效果！

最新的LTS配合词库可以完整打出“青花瓷”“最炫民族风”两首歌曲，试着玩玩吧，这两首歌词更能说明问题，同时也说明依靠大语料难以做到的，因此有了这个LTS的出现，最后一公里只能依靠“人工”智能。

2025.03.21 注意最新的更新200M已经囊括了全数据，历时20天租用服务器持续分词和计算，现在我们将真真的进去lts阶段，没有更好的条件不会再有新的进步。

⚠️⚠️⚠️ 云插件和模型二者不可兼得，云插件会无差别占用翻译器特定长度的候选，因此就等于模型失效，所以使用云就放弃模型好了！
有的朋友老是问手机上能不能用？
手机：Fcitx5-Android+rime插件； ios仓输入法；同文输入法Trime ；中文输入法
PC: Linux Fcitx5+rime插件+librime-plugin-octagram ；小狼毫Windows ；鼠须管Squirrel macOS ；Fcitx5+rime插件 macOS

amzxyz/RIME-LMDG LTS Rime万象语法模型长期支持版本正式发布 on GitHub

amzxyz/RIME-LMDG LTS
Rime万象语法模型长期支持版本正式发布

on GitHub