登录注册写文章

MAC上Tesseract识别中文乱码问题

Lazy1

MAC上Tesseract识别中文乱码问题

1.使用此庫封装好的https://github.com/madmaze/pytesseract
2.下载中文语音库到/usr/local/Cellar/tesseract/3.04.01_2/share/tessdata/目录下面

3.下载语言包https://github.com/tesseract-ocr/tessdata

# -*- coding: utf-8 -*-

try:
   import Image
except ImportError:
   from PIL import Image
import pytesseract

tex = pytesseract.image_to_string(Image.open('WX20180111-152648@2x.png'), lang='chi_sim')
print(tex);

chi_sim就是我们中文简体

image.png

注意引入pytesseract依赖，需要单独下载tessdata识别包
MAC上执行 brew install tesseract 此命令即可

推荐阅读更多精彩内容

Python--Flask Django等常用库总结
# Python 资源大全中文版我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列...
aimaile阅读 26,616评论 6赞 427
mac+python+tesseract识别中文
想识别图片中的一些文字，最终还是选择了谷歌的tesseract，即使它对中文的识别度还不是特别高，比如左右偏旁的字...
逆风g阅读 11,066评论 2赞 6
中文OCR小测——tesseract
故事的开始：某年的一个暑期，初恋在学校找了个兼职，内容是把图书馆中旧一点的书籍打字录到电脑。她高兴的和我说...
graphic_zhang阅读 1,423评论 0赞 0
Android文字识别tesseract ocr -训练样本库识别字库
目录安装tesseract ocr引擎和jTessBoxEditor 安装jTessBoxEditor 开始制作...
喵了个呜s阅读 10,599评论 12赞 28
Java 线程中断与睡眠
1.sleep 让线程睡眠通过源码可以看出，最终sleep的时间粒度是毫秒数，虽然第一个方法存在有纳秒级的参数，...
酱油和醋阅读 1,038评论 0赞 0

赞1赞

赞赏

手机看全文