github hankcs/HanLP v1.7.0
v1.7.0新增文本聚类、流水线分词

latest releases: v1.8.4, v1.8.3, v2.1.0-beta.0...
5 years ago
  • 🚩新增文本聚类模块(k-means和repeated bisection)
  • 🚩词法分析器新增流水线模式
  • 词法分析器加入规则 enableRuleBasedSegment #991
  • 支持通过JVM的启动参数指定data路径:java -DHANLP_ROOT=/opt/hanlp 则加载/opt/hanlp/data #983
  • 分词断句支持指定断句颗粒 #1018
  • CustomDictionary.insert("新词语", "词性标签") 支持省略频次
  • NeuralNetworkDependencyParser构造函数接受Segment
  • TextRankKeyword支持构造自任意分词器
  • 优化双数组trie树,构建后自动shrink到最低内存 #984
  • 修订简繁词典
  • 微调ngram和nr模型
  • 新数据包data-for-1.7.0.zip MD5 = 4c396f3039230ddfcef20865264512b1
  • Portable版同步升级到v1.7.0
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.7.0</version>
        </dependency>

🎉节日快乐!感谢所有在issue中提出宝贵建议的用户!

Don't miss a new HanLP release

NewReleases is sending notifications on new releases.