kreuzberg-dev/kreuzberg v4.3.3 on GitHub

What's New in v4.3.3

106+ language support via 12 script families: PaddleOCR recognition models now cover english, chinese (simplified+traditional+japanese), latin, korean, east slavic (cyrillic), thai, greek, arabic, devanagari, tamil, telugu, and kannada script families.
Per-family recognition model architecture: Shared detection/classification models with per-family recognition models and dictionaries, downloaded on demand from HuggingFace.
Engine pool for concurrent multi-language OCR: Replaced single-engine architecture with a per-family engine pool, enabling concurrent OCR across different languages.
Backend-agnostic --ocr-language CLI flag: Works with all OCR backends (tesseract, paddle-ocr, easyocr).
SHA256 checksum verification: All model downloads verified against embedded checksums.

Shared process_images_with_ocr function for all document extractors (DOCX, PPTX, Jupyter, Markdown).

DocumentStructure generation, pages field population, OCR on embedded images.
Typed metadata fields, style-based heading detection, markdown formatting.
Performance optimizations: eliminated 3x code duplication, removed unnecessary clones.

See CHANGELOG.md for full details.