v2.1.0 alpha
大版本前的测试版
经过一段时间的 爆肝 高强度开发,“批量PDF文档识别”功能已基本完成。不过,仍有一些繁琐的辅助功能没写完,仍有一些代码待优化。这些将在v2.1.0正式版中完善。
考虑到有不少用户急需批量文档识别,故提前发布测试版。大家可以用自己的文件来检测这个新功能的稳定性与兼容性。
我要摸鱼一段时间,休息一下。祝用户朋友们,新年快乐~🎉🎉🎉
协助翻译!
如果您擅长简体中文
和另外一门语言,可参与本项目翻译,或校对当前翻译!
在线翻译平台: https://hosted.weblate.org/engage/umi-ocr/
v2.1.0
主要更新
- 更新:批量文档标签页。支持导入
pdf, xps, epub, mobi, fb2, cbz
格式的文件,识别图片或提取原有文字。支持生成可搜索双层PDF。 - 更新:完全重写的排版解析功能(代替原来的段落合并)。基于自研的 间隙树排序算法 ,能有效解析多栏布局图片与文档。
- 更新一些辅助功能,修复一些Bug,优化一些UI表现。
注意
- 目前仅支持通过原PDF文档生成双层PDF。xps等格式不支持生成PDF,仅支持生成txt等文本文件。未来可能补全该功能。
- 为了适应排版解析等新功能,HTTP接口的参数作出了对应调整,但文档我还没写。HTTP接口用户请暂时不要更新到测试版。
与测试版PDF识别相关的问题,可以在 Issue #333 中提出。
配置文件迁移
v2.0.x 用户升级时,将旧版软件的UmiOCR-data/.settings
拷贝到新版相同位置即可。
下载说明
不同版本仅OCR引擎插件不同,其它功能完全一致。
均支持 win7 x64 及以上的系统,附带多国语言识别库。
.7z.exe
为自解压包,可以用压缩软件打开,也可以在没有安装压缩软件的电脑上直接双击解压。
Paddle 引擎插件版
(性能好,速度快,占用率高,适合高配机器。不兼容奔腾、赛扬、凌动CPU)
重要提示:如果执行OCR时报错[Error] OCR init fail
,大概率是CPU不兼容Paddle,请换用Rapid版本。
Umi-OCR_Paddle_v2.1.0_alpha_1.7z.exe (128MB)
SHA256: a654aef09ca4f8ea71d5d498de79140f206786915b473134753503da3a5c01b9
Rapid 引擎插件版
(速度稍慢,内存占用低,适合低配机器,兼容性好)
Umi-OCR_Rapid_v2.1.0_alpha_1.7z.exe (97MB)
SHA256: 61d3fb8ac95af0d63b45829104dfa8e2cfa141f1bc6386cbf15b217ffb0995ab