1、归一化的词频适用于在输入法中使用,采用词库+模型的方式配合使用,词库主要词频位于基础词库,四个字的词库中不包含基础词库中高频词汇之间得组合,这些词组占比将近60%。模型开始逐步下探到2字的数据,千万行数据量,实现不加模型也好用,加上模型更好用,长期支持版本将持续迭代让词库和模型两个库更加匹配,一起使用更加香;
2、全面修订的带声调词库,词库最大程度保留多音字的读音特征词,在保持精简的同时保留其特征,将在词语组合成句子后最大程度保证读音的正确性;
词库与模型紧耦合的说明:
例子:模型添加“山势由” 则输入时候容易打出 “山势由高到低” 这是因为词库没有这三个字属于2+1结构容易被替换,作为模型元数据命中具有很高的权重,可以理解为hold住了,此时很容易顺滑出 由高到低 这四个字是词库的词汇,如果你的模型分词成了“山势由高” 词库优先原则,词库是“膳食 由高到低” 因为你太长了,给了“膳食”机会占位,当分词结构出现错误且长度不一致就很难被替换掉了,此时只有"山势$"这样的高频数据可以替换掉,但是如果模型有了这样的数据,同码只要打出来就是“山势”,这是致命的 ;
这里还有一个编码优先原则, 模型有两个数据“还不是50000”,“还不时40000” 如果是传统双拼永远打出来得是:还不是,只能在句子更长的时候按照语义纠正过来,对于龙码双拼则因为带声调可以精准打出”还不时“的拼音,此时在同一个编码范围内就没有“还不是”存在了,因此模型利用率更高!
总结就是词库是模型的基础,是一个引子,模型无法打破词库原本的分词结构,且越长越难,一个结构词放在词库还是放在模型是有考究的,词库能尽量的给出一个基础的分词结构,再通过模型去替换纠正,最终实现了我们想要的效果!
最新的LTS配合词库可以完整打出“青花瓷”“最炫民族风”两首歌曲,试着玩玩吧,这两首歌词更能说明问题,同时也说明依靠大语料难以做到的,因此有了这个LTS的出现,最后一公里只能依靠“人工”智能。
2025.03.21 注意最新的更新200M已经囊括了全数据,历时20天租用服务器持续分词和计算,现在我们将真真的进去lts阶段,没有更好的条件不会再有新的进步。
可以参照说明进行词库迁移,它将超越你现在所使用的任何拼音方案:
https://github.com/amzxyz/rime_wanxiang
https://github.com/amzxyz/rime_wanxiang_pro
可以参照我开发的几个lua,让声调有更好的用途显示到输入码的位置,显示到注释的位置,基础词库直接用于反查滤镜无需挂载额外的表:
https://github.com/amzxyz/rime_wanxiang/blob/main/lua/super_preedit.lua
⚠️⚠️⚠️ 云插件和模型二者不可兼得,云插件会无差别占用翻译器特定长度的候选,因此就等于模型失效,所以使用云就放弃模型好了!
有的朋友老是问手机上能不能用?
手机:Fcitx5-Android+rime插件 ; ios仓输入法 ;同文输入法Trime ; 中文输入法
PC: Linux Fcitx5+rime插件+librime-plugin-octagram ;小狼毫Windows ; 鼠须管Squirrel macOS ;Fcitx5+rime插件 macOS
其中需要注意,安卓小企鹅在复制数据的时候将rime里面的清空不要删除rime,可能会遇到权限问题,也不要用mt之类的,要通过小企鹅中州韵插件区域的用户目录入口进入安卓文件管理框架操作,最近一部分人把锅扣到了模型上面,什么660 770,实际上只读就够了。
能不能每次更新发布新的release?
不能,就这一个LTS,提供md5和time,别的自适应。