github gaboolic/rime-frost 0.0.2
0.0.2 分词 重新统计字频、词频,归一化

latest releases: 0.0.6, 0.0.5, 0.0.4.1...
17 months ago

使用745396750字的高质量语料,进行分词,重新统计字频、词频,归一化。
原始配置和词库由雾凇拼音af2480b commit 修改而来。

雾凇词库里的词比较全但也不是非常全,主要的问题是字频和词频不太对,废词有点多,于是重新制作。

主要维护词库、词频。在雾凇词库的基础上删除了不健康词汇,删除了大量冷僻词(频率==1 且分词器分不出的词),删除/调整了诸如“的吧”、“的了”这种不是词的词。手动大量修改了字频 词频。第一步是做了减法。

然后使用745396750字的高质量语料,进行分词,重新统计字频、词频,归一化,以达到更好的输入效果。全拼和双拼都可以使用。

使用方法同雾凇拼音。

todo:
拆分细胞词库,加上长尾词,重新分词

训练一个智能语言模型

Don't miss a new rime-frost release

NewReleases is sending notifications on new releases.