ABBYY FineReader Engine工具包深度解析

ABBYY FineReader Engine是一个软件开发工具包，用来开发功能强大的应用程序，以打开图像、PDF文档和扫描文档，分析和解析内容并输出结果。它们几乎能够生成任何一种包含文本结果的导出文件，包括基于文本的PDF格式、微软Office格式、XML格式（尤其有助于让OCR结果与其他系统配套使用）等等。如果开发人员需要开发具有以下任一功能的应用程序，可以考虑使用ABBYY FineReader Engine软件开发工具包（SDK）：•文档转换•文件归档•文件分类•书籍归档•文本提取•字段识别•条码识别•名片识别•图像预处理•扫描这个SDK中包含有十几个应用程序示例，包括C++、C＃、VB.NET、VB、Delphi、Java和几种脚本语言（JavaScript、Perl和VBScript）示例。你可以查看代码开发库（Code Development Library）来快速入门，代码开发库中包含了SDK编程的各个方面。每个截面代码库包含一个或多个代码片段并逐步描述了如何运行一项任务。

工具/原料

ABBYY FineReader Engine

方法/步骤

选择你需要执行的任务，查看操作步骤描述，查阅源代码示例或运行可执行文件。

安装和设置

在开发机上安装FineReader时有几个步骤。首先，必须安装授权服务器。如果只有1个开发人员使用SDK，此时可以将它直接安装在开发机上。如果多个开发人员要从多个工作站使用FineReader，此时应该将授权服务器安装在所有开发人员都能访问的应用程序服务器上。授权服务器必须安装在物理机器上，而不是虚拟机上。（请注意，该技术可以在虚拟机和云环境中运行）。通过授权管理器，您可以添加和激活您的许可证，无论您的许可证是试用版或购买的正品版本。

接下来，可以将FineReader Engine安装在开发机上，并连接到授权服务器。

安装完成后，如果您使用的是Visual Studio 2010或2012，此时必须再完成几个步骤，才能够使用可视化组件（控件）。这些步骤在其自带的SDK帮助文件“在不同版本的Visual Studio中使用可视化组建”页可以找到。

现在您就可以使用SDK进行开发了。你可以按照上文代码开发库中描述的示例应用程序进行开发或你可以着手创建自己的程序。

创建项目

首先，在C＃或Visual Basic中创建1个新的Windows窗体应用程序。我在开发应用程序时使用的是Visual Studio 2010。

随后将ABBYY控件添加到Visual Studio工具箱窗口。我在工具箱中创建了1个新的ABBYY

。

将该项目的引用添加到ABBYY \Inc\.Net Interops\ 文件夹下的三个Interop DLL文件中，在安装过程中，这三个文件都已注册并被添加到了GAC里面。

UI控件

下面介绍设计视图Windows窗体中的五个ABBYY控件。

从左上角开始，沿顺时针方向依次是：文件浏览器 - 该控件显示了从图像/文件加载的页面清单以及每个页面的处理状态。这些页面可以显示为缩略图或详细信息视图。图像浏览器 – 应用程序用户可以通过该控件来查看和编辑在文件浏览器中选中的页面。文本编辑器 – 用户可以使用文本编辑器查看和编辑FREngine在指定页面中识别出来的文字。动态浏览器 - 用户可以使用该控件来放大或缩小图像浏览器中选定的区域。文本校验器 – 用户可以使用该控件来调整扫描和验证过程中未能识别的文本区域。这也是用于文件拼写检查的用户界面。

在这些控件中，将文件和页面同步是非常简单的事情，只需将每个控件添加到代码中的ComponentSynchronizer对象即可：// Attach components to SynchronizerSynchronizer = new FineReaderVisualComponents.ComponentSynchronizerClass();Synchronizer.DocumentViewer = ( FineReaderVisualComponents.DocumentViewer ) documentViewer.GetOcx();Synchronizer.ImageViewer = ( FineReaderVisualComponents.ImageViewer ) imageViewer.GetOcx();Synchronizer.ZoomViewer = ( FineReaderVisualComponents.ZoomViewer ) zoomViewer.GetOcx();Synchronizer.TextEditor = ( FineReaderVisualComponents.TextEditor ) textEditor.GetOcx();

引擎

下面举个简单的例子，来说明如何运用所有五个FineReader控件来打开窗体并加载PDF文件。IEngine engine;FRDocument document;ComponentSynchronizer synchronizer;IEngineLoader loader; private void LoadEngine(){ loader = new FREngine.InprocLoader(); engine = loader.GetEngineObject('xxxx-xxxx-xxxx-xxxx-xxxx-xxxx'); engine.ParentWindow = this.Handle.ToInt32(); engine.ApplicationTitle = this.Text; document = engine.CreateFRDocumentFromImage((@'C:\Users\ABBYYTest\Images\Documents\DemoSample.pdf'); synchronizer.Document = document;} private void SyncComponents(){ synchronizer = new ComponentSynchronizer(); synchronizer.DocumentViewer = (FineReaderVisualComponents.DocumentViewer)DocViewer.GetOcx(); synchronizer.ImageViewer = (FineReaderVisualComponents.ImageViewer)ImgViewer.GetOcx(); synchronizer.TextEditor = (FineReaderVisualComponents.TextEditor)textEdit.GetOcx(); synchronizer.ZoomViewer = (FineReaderVisualComponents.ZoomViewer)zoomView.GetOcx(); synchronizer.TextValidator = (FineReaderVisualComponents.TextValidator)textVal.GetOcx();} private void UnloadEngine(){ // If Engine was loaded, unload it if (engine != null) { engine = null; }} private void DocumentForm_Load(object sender, EventArgs e){ SyncComponents(); LoadEngine();} private void DocumentForm_FormClosing(object sender, FormClosingEventArgs e){ UnloadEngine();}

当然，在实际应用中，您可能会创建一个按钮，用户通过点击这个按钮可以从文件系统中选择需要打开的文件。必须注意的是，卸载引擎非常重要。如果不这样做，就会占用您的工作站所获得的授权，直到手动将它从授权服务器中释放出来为止。我们在进行COM交互操作……资源和内存管理非常重要。

识别

对加载的文件运行识别处理也是一件比较简单的事情。下面是管理该进程的方法：private void RecognizeDocument(){ FREngine.ProcessingParams processingParams = synchronizer.ProcessingParams; FREngine.DIFRDocumentEvents_OnProgressEventHandler progressHandler = new FREngine.DIFRDocumentEvents_OnProgressEventHandler(document_OnProgress); document.OnProgress += progressHandler; document.Process(processingParams.PageProcessingParams, processingParams.SynthesisParamsForPage, processingParams.SynthesisParamsForDocument); document.OnProgress -= progressHandler;}

progressHandler 能够让UI保持响应，并能够让用户启动“取消”命令，以终止某个长时间运行的文档识别进程。

本软件的默认识别语言是英语，如果您需要识别其他语言或任意语言组合的文档，你可以在打开文档前更改RecognizerParams中的SetPredefinedTextLanguage选项，步骤如下：processingParams.PageProcessingParams.RecognizerParams.SetPredefinedTextLanguage(“ChinesePRC,English”);

导出

要导出某个加载文件，可以调用文档对象的Export()方法。以下代码段将加载的文件导出到RTF文件：synthesizeIfNeed();Document.Export(fileName, FREngine.FileExportFormatEnum.FEF_RTF, null);

配置文件

ABBYY FineReader Engine也支持“配置文件”，使引擎能够根据当前使用情况来优化进程。这些配置文件可以使程序自行启动，并自动设置OCR质量的最佳的处理参数。下面是目前可用的配置文件：• DocumentConversion_Accuracy - 在将文档转换为可编辑格式时优化其精确度。• DocumentConversion_Speed - 在将文档转换为可编辑格式时优化其速度。• DocumentArchiving_Accuracy - 在创建电子档案时优化其精确度。• DocumentArchiving_Speed - 在创建电子档案时优化其速度。• BookArchiving_Accuracy - 在建立电子图书馆时优化其精度。• BookArchiving_Speed - 在建立电子图书馆时优化其速度。• TextExtraction_Accuracy - 在从文件中提取文字时优化其精度。• TextExtraction_Speed - 在从文档中提取文字时优化其速度。• FieldLevelRecognition - 识别短的文本片段。• BarcodeRecognition - 提取条形码。• BusinessCardsProcessing –识别名片。•HighCompressedImageOnlyPdf –无损压缩文件，将所有文件以图片的形式保存。

可以用Engine.LoadPredefinedProfile来加载这些配置文件。也可以通过.ini格式来创建自定义的用户定义配置文件。该软件自带的帮助文件中有详细说明，可以帮助用户创建自定义的配置文件。可以调用Engine.LoadProfile来加载自定义的用户配置文件。

其他平台和产品

本文只使用了FineReader Engine的Windows SDK，但ABBYY也提供一些其他产品。FineReader Engine还支持Mac OS、Linux、移动SDK平台使用，其中FlexiCapture Engine SDK还能进行数据采集。通过ABBYY托管在Azure的云环境，开发者还能获得Web API。此外，ABBYY还有某些功能强大的、即装即用的OCR产品和数据采集产品可供用户选择。

后记

ABBYY FineReader Engine 软件开发工具包的设置和使用非常简单，有了它，您也可以开发出具有强大OCR功能的应用程序。

上一篇：MBA备考-历年考研英语大纲规定解析

下一篇：GiliSoft File Lock Pro：[1]加密软件的破解

欧尼酱

ABBYY FineReader Engine工具包深度解析

ABBYY FineReader Engine工具包深度解析

如何在MATLAB中安装Quantum optics toolbox包？

LabVIEW-OpenG工具包

将LabVIEW生成C代码C Generator工具包用法

CorelDRAW X3 的工具箱简单介绍（I）？

医用臭氧可以治疗哪些疾病

电脑工作者防皱秘决

深海迷航缺氧没有氧气怎么办

4大护肤谣言你犯错没？

月经推迟10多天怎么回事，月经推迟10天测试未孕

有哪些水果或食物是不能在同一时间段吃的啊？

高压氧有效改善睡眠(二)

黄皮肤怎么变白？这些美白大招99%人不知道

惊梦手游第二关梦梅攻略

警惕！！12种有毒的家常菜

《lol》小菊是什么英雄

饮用橙汁的六个提示

冬季如何保湿

北加尔Northgard新手入门攻略

冰地玉米系列：[1]什么是冰地玉米

夏季护肤，我有妙招

王者荣耀天狼征服者皮肤怎么预约

光与夜之恋抽卡攻略

文明与征服手游怎么获得诸葛亮集