hankcs/HanLP v1.3.3 on GitHub

CharType的二进制由程序自动生成，版本库内全部词典/模型实现明文文本储存维护
支持逗号分割的.csv格式词典（感谢@driventokill）
移除用于加载语料和训练模型的main方法，方便Spring用户：#391
在机构名识别的时候，词语保持自己的词性，而不是未##团的词性：#403 (comment)
增加一些方便语料处理的方法
机构名识别限定nrf为特征词的译名性前缀，删除一些类似于"的""之"等不能构成机构名的助词成分
修正一个拼音（感谢@mudsu）
移除TextRankKeyword中逻辑重复的语句（感谢@jsksxs360）
优化索引分词，以字典序保证子成分的顺序稳定：#496 (comment) ，改进索引分词的完整性，修复了索引分词中的各种问题（感谢@gxy0451和@panhaidong的issue）
微调BiGram模型、人名识别模型、机构名识别模型
去掉了portable版的文件存在校验逻辑，使其完整地支持root配置项和IOAdapter。旧版用户如果遇到兼容性问题，请参考升级指南
新版数据包data-for-1.3.3.zip：网盘分流或电信下载或海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c

Portable版同步升级到v1.3.3

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.3.3</version>
        </dependency>

🎉感谢所有contributors、所有在issue中提出宝贵建议的用户！

hankcs/HanLP v1.3.3 v1.3.3常规维护 on GitHub

hankcs/HanLP v1.3.3
v1.3.3常规维护

on GitHub