MAC上Tesseract识别中文乱码问题

1.使用此庫封装好的https://github.com/madmaze/pytesseract
2.下载中文语音库到/usr/local/Cellar/tesseract/3.04.01_2/share/tessdata/目录下面

3.下载语言包https://github.com/tesseract-ocr/tessdata

# -*- coding: utf-8 -*-

try:
   import Image
except ImportError:
   from PIL import Image
import pytesseract

tex = pytesseract.image_to_string(Image.open('WX20180111-152648@2x.png'), lang='chi_sim')
print(tex);

chi_sim就是我们中文简体


image.png
image.png

注意引入pytesseract依赖,需要单独下载tessdata识别包
MAC上执行 brew install tesseract 此命令即可

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容