本文,介绍一下用pytesseract模块识别图片里面的文字的方法。
工具/原料
1
python3.6(anaconda)
2
pytesseract模块
方法/步骤
1
准备一幅图,待识别。
2
用pip安装pytesseract模块。
3
尝试识别图中的文字,代码如下:from PIL import Imageimport pytesseractimg = Image.open('1.jpg')text = pytesseract.image_to_string(img,lang='chi_sim')print(text)
4
运行的时候报错了,原因是没找到中文语言包。
5
可以在pan.baidu.com/s/1ntIoKentq2B1FS_EDmTUUg里面下载中文语言包。下载密码是q4zw
6
解压之后,双击tesseract-ocr-setup,安装这个软件。
7
安装完成之后,把《中文语言包》文件夹里面的文件(chi_sim.traineddata),拿到《Tesseract-OCR》目录下的《tessdata》文件夹里面,这样,就可以识别中文了。
8
打开pytesseract.py文件,修改tesseract_cmd后面的参数,然后保存。
下一篇:荒野行动手柄进阶攻略