本文探讨基于tesseract的多线程OCR服务器的JAVA实现,可同时对多个android手机客户端提供图片OCR服务
project源码下载http://download.csdn.net/user/yangliuy
最近接手一个项目,项目的背景是要开发一个CS架构的发票真伪识别系统,客户端为android手机,采集发票图像传到服务器做OCR识别,识别出来的发票号码和发票密码发送到国税局官网发票真伪查询页面,然后将真伪信息返回给手机用户。为了开发一个多线程OCR服务器,我研究了JAVA图像处理及OCR技术。JAVA的强大的图形处理相关库如java.awt.image等为采集图像的裁剪、放缩、二值化、去噪等提供了良好的基础,而OCR主要采用了Goolgetesseract开源OCR引擎,tesseract安装在本地后可以用cmd命令行调用,而JAVA支持cmd命令的调用。此外还用到了JAVA线程池、互斥锁等多线程编程技术及socket等网络编程技术。源码如下
多线程Server端 Server.java
Server端任务ServerRun.java
图形处理类
图像过滤背景色及黑白二值化SoundBinImage.java
图片裁剪OperateImage.java
测试客户端Client.java 大家测试的话注意修改服务器地址为本机地址,待识别图片为F://Helios//android//invoice_test.jpg
分享到:
相关推荐
Tesseract OCR多线程并发识别案例----只演示多线程并发识别,此工具不关注识别正确率,可通过训练tessdata来获得更高的识别正确率。
一个Google支持的开源的OCR图文识别开源项目。去持多语言(当前3.02 版本支持包括英文,简体中文,繁体中文),支持Windows,Linux,Mac OSX 多平台。使用中Tesseract 的识别率非常高。可以参考网上的相关资料进行对...
包括一个公共类和一个内部类,能实现为多个客户提供连续的服务
通过java调用OCR来对图片进行识别,本人这里是做了一个小的应用,自己玩玩,用来识别一个试卷的题目,并处理出题目编号、题目名、小题数目及分值 等信息。
把项目导入到eclipse中无需修改,使用Junit直接运行Tesseract1Test即可看到效果。
c#实现基于tesseract的ocr识别 ,二值化图片效果好
基于Tesseract-OCR实现自动扫描识别手机号.zip,基于Tesseract-OCR实现自动扫描识别手机号
Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而,HP不久便决定放弃OCR业务,Tesseract也从此尘封。数年以后,HP意识到,与其将Tesseract束之高阁,...
安装完成之后设置pytesseract.py中的tesseract_cmd为'C:/Program Files (x86)/Tesseract-OCR/tesseract',tessdata_dir_config = '--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"'赋值给def ...
tess4j的demo开发, 中文识别率高,把项目导入到eclipse中无需修改,使用Junit直接运行Tesseract1Test即可看到效果
基于opencv+Tesseract-OCR的银行卡图片处理,智能识别银行卡号
delphi 源码Tesseract3.0 ocr 不错可以直接编译,值得学习哦
toBraille是一个基于Tesseract OCR 的 Java 盲文库 toBraille is a open
1.支持拍照 2.拖动矩形框 3.图片旋转 4.增强 5.增强并锐化 6.灰度模式 7.灰白文档 8.识别结果分享
基于Git上的MAImage lib及Tesseract-OCR-iOS lib整合起来的OCR识别Demo, http://blog.csdn.net/ouq68/article/details/44015483
tesseract-ocr的语言库识别库文件,下载解压后放到tesseract-ocr安装目录下的tessdata 目录,存放的是语言字库文件,和在命令行界面中可能用到的参数所对应的文件. 这个安装程序默认包含了英文字库。
tesseract-ocr安装包和中文语言包.rar
用python编写的封装tesseract框架的ocr识别批处理脚本【亲测可用,可作为一种辅助手段】。 需要安装tesseract,python, 并且在python virtual环境下运行。