OCR 是“光学字符识别”的意思,主要用于把图像中的文字,转换成可以在字处理软件中编辑的文字字符。在 Ubuntu 平台下,使用开源的光学字符识别软件,可以实现把扫描图像中的汉字,转换成字处理软件可以编辑的计算机字符文字。
工具/原料
1
Ubuntu 15.10。
2
OCRFeeder 0.8.1-2。
3
tesseract-ocr-chi-sim 3.04.00-1。
方法/步骤
1
在 Ubuntu 软件中心,搜索、安装 OCRFeeder 这个软件。
2
继续搜索、安装 tesseract-ocr-chi-sim 这个软件包。此软件包为上述 OCRFeeder 软件,提供识别汉字的能力。
3
Ctrl+Alt+t,打开终端,键入 ocrfeeder,启动这个软件。界面真够简洁的。
4
在使用前,先改一个参数。菜单“工具”——》OCR 引擎,在弹出的对话框中,点击右侧的“编辑”按钮,再次弹出“Tesseract 引擎“对话框,在“引擎语言”后面的文本框中,将“zh:“后面的 chi-sim,改为:“chi_sim”,也就是把减号改为下划线。
5
现在可以开始工作了。点击 OCRFeeder 窗口左上角的“+”号按钮,弹出打开文件的对话框,选择一个 TIFF 格式的图像文件,打开。
6
在打开的扫描图片上,用拖动鼠标的方法,在要识别的文字图像周围画一个方框,然后点击右侧出现的“OCR”按钮。
7
稍等片刻,窗口右下角的“文字”框里,就会显示出识别的结果。可以把这些识别出来的文字字符复制出来,用于编辑。
注意事项
OCRFeeder 软件安装后,Ubuntu 屏幕左侧的启动器栏上,会出现它的图标,但是点击无法启动。
上一篇:OCR文字识别软件如何操作
下一篇:不连接高拍仪实现文字识别 OCR