Releases: amzxyz/RIME-LMDG
每夜构建-词库更新
Rime万象原子词库、万象语法模型长期支持版本正式发布
1、归一化的词频适用于在输入法中使用,采用词库+模型的方式配合使用,词库主要词频位于基础词库,四个字的词库中不包含基础词库中高频词汇之间得组合,这些词组占比将近60%。模型不干预2-3字组词逻辑。模型负责次频率之间得词组组合,千万行数据量,实现不加模型也好用,加上模型更好用,长期支持版本将持续迭代让词库和模型两个库更加匹配,一起使用更加香;
2、全面修订的带声调词库,词库最大程度保留多音字的读音特征词,在保持精简的同时保留其特征,将在词语组合成句子后最大程度保证读音的正确性;
词库与模型紧耦合的说明:
例子:模型添加“山势由” 则输入时候容易打出 “山势由高到低” 这是因为词库没有这三个字属于2+1结构容易被替换,作为模型元数据命中具有很高的权重,可以理解为hold住了,此时很容易顺滑出 由高到低 这四个字是词库的词汇,如果你的模型分词成了“山势由高” 词库优先原则,词库是“膳食 由高到低” 因为你太长了,给了“膳食”机会占位,当分词结构出现错误且长度不一致就很难被替换掉了,此时只有"山势$"这样的高频数据可以替换掉,但是如果模型有了这样的数据,同码只要打出来就是“山势”,这是致命的 ;
这里还有一个编码优先原则, 模型有两个数据“还不是50000”,“还不时40000” 如果是传统双拼永远打出来得是:还不是,只能在句子更长的时候按照语义纠正过来,对于龙码双拼则因为带声调可以精准打出”还不时“的拼音,此时在同一个编码范围内就没有“还不是”存在了,因此模型利用率更高!
总结就是词库是模型的基础,是一个引子,模型无法打破词库原本的分词结构,且越长越难,一个结构词放在词库还是放在模型是有考究的,词库能尽量的给出一个基础的分词结构,再通过模型去替换纠正,最终实现了我们想要的效果!
最新的LTS配合词库可以完整打出“青花瓷”“最炫名族风”两首歌曲,试着玩玩吧,这两首歌词更能说明问题,同时也说明依靠大语料难以做到的,因此有了这个LTS的出现,最后一公里只能依靠“人工”智能。
可以参照说明进行词库迁移,它将超越你现在所使用的任何拼音方案:
https://github.com/amzxyz/rime_wanxiang
https://github.com/amzxyz/rime_wanxiang_pro
可以参照我开发的几个lua,让声调有更好的用途显示到输入码的位置,显示到注释的位置,基础词库直接用于反查滤镜无需挂载额外的表:
https://github.com/amzxyz/rime_wanxiang/blob/main/lua/pro_preedit_format.lua
Rime语法模型3gram-v2更新发布
优化语料结构,精简不优质语料,采用百度深度学习框架分词并生成
Rime语法模型3gram-v1版本
提供100M、200M、300M 3种数据级别