huggingface/tokenizers python-v0.5.0
Python v0.5.0

on GitHub

latest releases: v0.20.1, v0.20.1rc1, v0.20.0...

4 years ago

Changes:

BertWordPieceTokenizer now cleans up some tokenization artifacts while decoding (cf #145)
ByteLevelBPETokenizer now has dropout (thanks @colinclement with #149)
Added a new Strip normalizer
do_lowercase has been changed to lowercase for consistency between the different tokenizers. (Especially ByteLevelBPETokenizer and CharBPETokenizer)
Expose __len__ on Encoding (cf #139)
Improved padding performances.

Fixes:

#145: Decoding was buggy on BertWordPieceTokenizer.
#152: Some documentation and examples were still using the old BPETokenizer

Check out latest releases or
releases around huggingface/tokenizers python-v0.5.0

Don't miss a new tokenizers release

NewReleases is sending notifications on new releases.

Get notifications