博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【OCR】CentOS7下编译安装tesseract-ocr
阅读量:6436 次
发布时间:2019-06-23

本文共 1110 字,大约阅读时间需要 3 分钟。

什么是tesseract-ocr

OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别,获取的过程。

Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。

现在托管在GitHub中~

源代码位置

托管于

目前项目转移到GitHub

下载源代码

最终选定的是托管在GitHub上的3.0.2分支

wget https://github.com/tesseract-ocr/tesseract/archive/3.04.zip

编译安装

unzip 3.04.zipcd tesseract-3.04/./configure

安装leptonica

报错:

leptonica... configure: error: leptonica not found

解决方案: 安装 leptonica

官网地址:

wget http://www.leptonica.org/source/leptonica-1.72.tar.gz tar xvzf leptonica-1.72.tar.gz cd leptonica-1.72/ ./configure  make && make install

完成安装

./configuremake && make installsudo ldconfig

配置文件位置

/usr/local/share/tessdata

语言文件

文件源码

我们需要下载支持的语言对应的配置中

GitHub地址

修改变量

创建存放语言文件的文件夹 /usr/local/share/tessdata/lang

修改配置的变量 export TESSDATA_PREFIX=/some/path/to/tessdata

这里注意的是,我们修改的是路径的前缀,真实的语言文件的路径实际是/usr/local/share/tessdata/lang/tessdata

否则就会出现下面的错误

这里写图片描述

放到配置文件夹

解压之后放到语言配置文件夹中wget https://github.com/tesseract-ocr/tessdata/archive/master.zip

使用

准备测试图片

这里写图片描述

上传到测试服务器

scp code.jpg root@xxx.xxx.xx.xx:/data/

验证

tesseract /data/code.jpg out

查看结果

cat out.txt

0376

安装完成,验证正确~

)

参考资料

你可能感兴趣的文章
Linux命令之cd
查看>>
MyEclipse移动开发教程:移动Web模拟器指南(一)
查看>>
Hinton神经网络公开课编程练习3 Optimization and generalization
查看>>
Java序列化简单例子
查看>>
第一篇博文——沉淀
查看>>
Direct2D (2) : 基本图形命令测试
查看>>
linux开通vsftpd服务过程
查看>>
我的友情链接
查看>>
常用 API 函数(3): 文件处理函数
查看>>
代码需要不断进化和改变
查看>>
SqlServer转换为Mysql的一款工具推荐(mss2sql)
查看>>
ELK安装文档及相关优化
查看>>
解决 SQLSERVER 2008 无法删除作业
查看>>
DHCP+TFTP+VSFTP+pxelinux+kickstart实现RedHat的自动安装
查看>>
git使用的一些常用命令
查看>>
Apache应用实例:建立yum服务器
查看>>
功能表单之树形选择字段类型的高级使用——JEPLUS软件快速开发平台
查看>>
servlet监听器
查看>>
查看mysql进程--show processlist
查看>>
我的友情链接
查看>>