- CharType的二进制由程序自动生成,版本库内全部词典/模型实现明文文本储存维护
- 支持逗号分割的.csv格式词典(感谢@driventokill)
- 移除用于加载语料和训练模型的main方法,方便Spring用户:#391
- 在机构名识别的时候,词语保持自己的词性,而不是未##团的词性:#403 (comment)
- 增加一些方便语料处理的方法
- 机构名识别限定nrf为特征词的译名性前缀,删除一些类似于"的""之"等不能构成机构名的助词成分
- 修正一个拼音(感谢@mudsu)
- 移除TextRankKeyword中逻辑重复的语句(感谢@jsksxs360)
- 优化索引分词,以字典序保证子成分的顺序稳定:#496 (comment) ,改进索引分词的完整性,修复了索引分词中的各种问题(感谢@gxy0451和@panhaidong的issue)
- 微调BiGram模型、人名识别模型、机构名识别模型
- 去掉了portable版的文件存在校验逻辑,使其完整地支持root配置项和IOAdapter。旧版用户如果遇到兼容性问题,请参考升级指南
- 新版数据包data-for-1.3.3.zip: 网盘分流 或 电信下载 或 海外連結
md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
Portable版同步升级到v1.3.3
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.3.3</version>
</dependency>
🎉感谢所有contributors、所有在issue中提出宝贵建议的用户!