github hiroi-sora/Umi-OCR alpha/2.1.0
Umi-OCR v2.1.0 alpha

latest releases: v2.1.4, v2.1.3, v2.1.3.beta.1...
pre-release7 months ago

v2.1.0 alpha 大版本前的测试版

经过一段时间的 爆肝 高强度开发,“批量PDF文档识别”功能已基本完成。不过,仍有一些繁琐的辅助功能没写完,仍有一些代码待优化。这些将在v2.1.0正式版中完善。

考虑到有不少用户急需批量文档识别,故提前发布测试版。大家可以用自己的文件来检测这个新功能的稳定性与兼容性。

我也许会摸鱼一段时间,休息一下。祝用户朋友们,新年快乐~🎉🎉🎉

v2.1.0 主要更新

  • 更新:批量文档标签页。支持导入pdf, xps, epub, mobi, fb2, cbz格式的文件,识别图片或提取原有文字。支持生成可搜索双层PDF
  • 更新:完全重写的排版解析功能(代替原来的段落合并)。基于自研的 间隙树排序算法 ,能有效解析多栏布局图片与文档。
  • 更新一些辅助功能,修复一些Bug,优化一些UI表现。

注意

  • 目前仅支持通过原PDF文档生成双层PDF。xps等格式不支持生成PDF,仅支持生成txt等文本文件。未来可能补全该功能。
  • 为了适应排版解析等新功能,HTTP接口的参数作出了对应调整,但文档我还没写。HTTP接口用户请暂时不要更新到测试版

与测试版PDF识别相关的问题,可以在 Issue #333 中提出。

配置文件迁移

v2.0.x 用户升级时,将旧版软件的UmiOCR-data/.settings拷贝到新版相同位置即可。

下载说明

不同版本仅OCR引擎插件不同,其它功能完全一致。
均支持 win7 x64 及以上的系统,附带多国语言识别库。

.7z.exe为自解压包,可以用压缩软件打开,也可以在没有安装压缩软件的电脑上直接双击解压。

Paddle 引擎插件版

(性能好,速度快,占用率高,适合高配机器。不兼容奔腾、赛扬、凌动CPU

重要提示:如果执行OCR时报错[Error] OCR init fail,大概率是CPU不兼容Paddle,请换用Rapid版本。

Umi-OCR_Paddle_v2.1.0_alpha_1.7z.exe (128MB)
SHA256: a654aef09ca4f8ea71d5d498de79140f206786915b473134753503da3a5c01b9

Rapid 引擎插件版

(速度稍慢,内存占用低,适合低配机器,兼容性好)

Umi-OCR_Rapid_v2.1.0_alpha_1.7z.exe (97MB)
SHA256: 61d3fb8ac95af0d63b45829104dfa8e2cfa141f1bc6386cbf15b217ffb0995ab

Download Umi-OCR

Don't miss a new Umi-OCR release

NewReleases is sending notifications on new releases.