Tesseract字库编辑器使用说明
提示
- 该产品用于训练Tesseract的字库,基于jTessBoxEditor二次开发,简化操作,在处理字库上,更容易编辑
- 训练好的Tesseract字库,适用于EC的安卓、iOS USB版本、iOS脱机版本、鸿蒙Next版本等
下载安装
- 进入EC的网盘下载区域,找到【开发工具-Ocr资源文件夹】下载【EasyClick-TesseractOCR-字库编辑器.zip文件】
- 下载解压后,打开【tessocr-editor.exe】文件
- 注意:解压的路径不要有中文、空格等特殊字符,否则可能无法进行验证结果集
- 找不到下载网址,点这里 下载区域
训练字库
- 打开【tessocr-editor.exe】文件界面如下

- Tesseract路径选项不用更改,默认已经选择了自带的tesseract训练库,如果更改,请选择到tesseract.exe文件
第一步:合并图片为tif文件
按钮
- 该功能是将jpg、png、bmp文件合并为tif图像文件,点击后可以选中一个文件夹或者选择一个图像文件进行合并
- 例如我们选择
E:/jtess/img/
文件夹,然后输入新字库名称为newfont
进行合并,在日志界面会提示生成tif文件成功



第二步:选择tif文件
- 点击
选择按钮
, 进行选择tif文件

第三步:生成box字库文件
- 选择
生成box文件
选项,点击开始
按钮,这里默认PSM是6,基础语言集是中文加英文,也就是chi_sim+eng
- 生成box的日志

- 系统会在你的tif对应的文件夹生成一个系统文件名的box文件

第四步:训练字库
- 这一步是生成tesseract的traineddata文件
- 选择
生成traineddata训练集文件
选项,点击开始
按钮,观察日志,就会在提示生成的traineddata文件夹路径

第五步: 验证
- 点击
验证
按钮,选择一张图片,对tesseract生成的类库进行验证