Ubuntu下使用OCR软件将图像文字变成可编辑文字

OCR 是“光学字符识别”的意思，主要用于把图像中的文字，转换成可以在字处理软件中编辑的文字字符。在 Ubuntu 平台下，使用开源的光学字符识别软件，可以实现把扫描图像中的汉字，转换成字处理软件可以编辑的计算机字符文字。

工具/原料

Ubuntu 15.10。

OCRFeeder 0.8.1-2。

tesseract-ocr-chi-sim 3.04.00-1。

方法/步骤

在 Ubuntu 软件中心，搜索、安装 OCRFeeder 这个软件。

继续搜索、安装 tesseract-ocr-chi-sim 这个软件包。此软件包为上述 OCRFeeder 软件，提供识别汉字的能力。

Ctrl＋Alt＋t，打开终端，键入 ocrfeeder，启动这个软件。界面真够简洁的。

在使用前，先改一个参数。菜单“工具”——》OCR 引擎，在弹出的对话框中，点击右侧的“编辑”按钮，再次弹出“Tesseract 引擎“对话框，在“引擎语言”后面的文本框中，将“zh:“后面的 chi-sim，改为：“chi_sim”，也就是把减号改为下划线。

现在可以开始工作了。点击 OCRFeeder 窗口左上角的“＋”号按钮，弹出打开文件的对话框，选择一个 TIFF 格式的图像文件，打开。

在打开的扫描图片上，用拖动鼠标的方法，在要识别的文字图像周围画一个方框，然后点击右侧出现的“OCR”按钮。

稍等片刻，窗口右下角的“文字”框里，就会显示出识别的结果。可以把这些识别出来的文字字符复制出来，用于编辑。

注意事项

OCRFeeder 软件安装后，Ubuntu 屏幕左侧的启动器栏上，会出现它的图标，但是点击无法启动。

欧尼酱