Java 实现OCR 识别图像文字(手写中文)----tess4j

时间：2019-10-13 16:21:18

Java 实现OCR 识别图像文字(手写中文)----tess4j

最近有个需要,小程序端手写中文之后生成图像,后端需识别图片上中文..;刚开始想到第三方收费api试试,先用了百度AI开放平台的通用字体识别的API,后来又找到了Tessearct-OCR,参考了几篇文摘整合了一下

准备:

1.下载Tessearct-COR 3.0以上版本:/download/qq_26161693/10646074

2. 在安装时选择chi_sim.traineddata 语言库;之后在程序中需加载安装目录tessdata下的中文包(chi_sim.traineddata );

maven依赖:

<groupId>net.sourceforge.tess4j</groupId>

</dependency>

/**

* @param srImage 图片路径

* @param ZH_CN 是否使用中文训练库,true-是

* @return 识别结果

public static String discernWord(String imagePath) {

try {

File image = new File(imagePath);

BufferedImage textImage = ImageIO.read(image);

Tesseract instance = Tesseract.getInstance();

instance.setDatapath("C:\\Program Files (x86)\\Tesseract-OCR\\tessdata");// 设置语言库

instance.setLanguage("chi_sim");// 中文识别

String words = null;

words = instance.doOCR(textImage);

return words;

}

catch (Exception e) {

e.printStackTrace();

}

public static void main(String[] args) throws Exception {

String words = discernWord("F:/test_used_url/ocr/originalPic/hotkidclub.jpg", true);//需识别的图文件路径

System.out.println(words);

}

随后在部署到Linux环境下运行会有种种的坑

解决:1)linux安装Tesseract-OCR之后,将.so相关文件复制到/usr/lib目录

2)在项目的根目录(maven的话就是resources)下添加:linux-86-64文件夹

3)配置Linux的语言环境变量

4)若访问量大的情况tomcat也容易崩掉,需设置好线程数或并发量;

详情参考:/zlAurora/p/9266039.html;

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。