Releases · amzxyz/RIME-LMDG

1、归一化的词频适用于在输入法中使用，采用词库+模型的方式配合使用，词库主要词频位于基础词库，四个字的词库中不包含基础词库中高频词汇之间得组合，这些词组占比将近60%。模型不干预2-3字组词逻辑。模型负责次频率之间得词组组合，千万行数据量，实现不加模型也好用，加上模型更好用，长期支持版本将持续迭代让词库和模型两个库更加匹配，一起使用更加香；
2、全面修订的带声调词库，词库最大程度保留多音字的读音特征词，在保持精简的同时保留其特征，将在词语组合成句子后最大程度保证读音的正确性；

词库与模型紧耦合的说明：
例子:模型添加“山势由” 则输入时候容易打出 “山势由高到低” 这是因为词库没有这三个字属于2+1结构容易被替换，作为模型元数据命中具有很高的权重，可以理解为hold住了，此时很容易顺滑出由高到低这四个字是词库的词汇，如果你的模型分词成了“山势由高” 词库优先原则，词库是“膳食由高到低” 因为你太长了，给了“膳食”机会占位，当分词结构出现错误且长度不一致就很难被替换掉了，此时只有"山势$"这样的高频数据可以替换掉，但是如果模型有了这样的数据，同码只要打出来就是“山势”，这是致命的；
这里还有一个编码优先原则，模型有两个数据“还不是50000”，“还不时40000” 如果是传统双拼永远打出来得是：还不是，只能在句子更长的时候按照语义纠正过来，对于龙码双拼则因为带声调可以精准打出”还不时“的拼音，此时在同一个编码范围内就没有“还不是”存在了，因此模型利用率更高！
总结就是词库是模型的基础，是一个引子，模型无法打破词库原本的分词结构，且越长越难，一个结构词放在词库还是放在模型是有考究的，词库能尽量的给出一个基础的分词结构，再通过模型去替换纠正，最终实现了我们想要的效果！

最新的LTS配合词库可以完整打出“青花瓷”“最炫名族风”两首歌曲，试着玩玩吧，这两首歌词更能说明问题，同时也说明依靠大语料难以做到的，因此有了这个LTS的出现，最后一公里只能依靠“人工”智能。

可以参照说明进行词库迁移，它将超越你现在所使用的任何拼音方案：

https://github.com/amzxyz/rime_wanxiang
https://github.com/amzxyz/rime_wanxiang_pro
可以参照我开发的几个lua，让声调有更好的用途显示到输入码的位置，显示到注释的位置，基础词库直接用于反查滤镜无需挂载额外的表：
https://github.com/amzxyz/rime_wanxiang/blob/main/lua/pro_preedit_format.lua

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Releases: amzxyz/RIME-LMDG

每夜构建-词库更新

Rime万象原子词库、万象语法模型长期支持版本正式发布

Rime语法模型3gram-v2更新发布

Rime语法模型3gram-v1版本