2.1文通TH-OCR2013数据录入工厂功能简介文通TH-OCR资料数字化系统是一套专业的档案、公文、图书、期刊等纸介质文档以及电子版图像资料的数字录化录入、加工工具。TH-OCR2013数据录入工厂可以将纸质文档、图像资料等快速扫描进入计算机内,在进行图像处理、版面分析、识别、校对等一系列功能后,到处满足客户不同需求的输出类型文件包括:rtf格式、xls格式、txt格式、pdf格式。
2.2文通TH-OCR2013数据录入工厂特色l 识别核心
软件内置文通科技最新研发的高性能文字识别引擎,支持中英日韩四国文字以及对英文的混排,识别率达99.8%以上。
l Unicode编码
采用UNICODE国际编码标准。系统可在一个统一的平台下,同时处理包括中文、日文、韩文、英文在内的多种文字的识别和校对修改。
l 校对方式灵活准确
在横向校对的基础上,提供纵向校对进行校对辅助,尽可能的让校对高效率,文字正确率更高
l 导出格式多样
导出格式多样灵活,支持PDF、TXT、WORD、XLS等格式
l 多种应用模式
该软件即可独立作为数据加工软件使用,也可以针对档案、文档、全文检索系统做接口;
l 脱机批量导入
该软件配套的Image To PDF的批量识别转换功能,可以实现自动监视文件夹,并直接对导入文件批量识别转换问pdf格式的文件,适应无人操作工作模式。
l 集字校对器
该软件配套的集字校对器,可以实现集字校对(即纵向校对)的模式,改变传统的校对模式,避免校对人员陷入文字情节中,增加了校对正确率。
l 画框识别
画框识别功能允许用户只识别手工编辑修改过的或新增加的区域,而保留其他已经完成校对的文字区域,为用户使用提供最大的灵活性与方便性。
l 版面还原
强大的版面还原技术,可将识别后的报刊、杂志、图书等多种形式的文档,通过还原字体、字号、版面位置、字体颜色等信息以原版原式呈现在读者面前,最终生成优质的全息PDF文档。
l Image to PDF批量转换工具
在2013安装目录下,提供了Image to PDF的批量转换工具,可以实现扫描、识别、转换、导出文件自动流程化的工作,可以做到人机分离,节约人力操作成本的目的。
2.3文通TH-OCR2013数据录入工厂功能介绍
2.3.1图片导入文通TH-OCR2013数据录入工厂支持扫描导入和本地文件导入两种方式来导入要识别的图片信息;同时可以在导入后通过本软件对图像文件进行处理,以达到更好的识别效果。
2.3.2图像处理l 翻转
对扫描结果和导入图片,进行顺时针90度翻转,可以对颠倒、翻转的图片进行回复向上,使图像识别效果更佳完美。
l 裁切
由于图像在拍摄等捕获方式中,会出现有效图像信息边缘出现冗余图像部分,可以通过裁切,确保获得的都是有效图像信息。
l 抹白
当扫描一些古典书籍,由于纸张久远,且书本有一定厚度的时候,常常会出现黑边或者其它一些杂点,启用抹白功能可以大大优化图像的效果。
l 倾斜校正
在文件自动扫描过程中,扫描文件经常会出现倾斜情况,自动倾斜校正功能可以将倾斜(15°以内为佳)的图像自动矫正,使原件调整到整齐的位置,使扫描的文档更加完美;对于大于15°的倾斜图像,可以用手动校正功能,对图像进行任意角度的倾斜校正。
l 识别区域顺序调整
对于报刊,杂志等排版顺序不是简单的从上而下,或从左至右的情况;可以手动调整识别区域的顺序,以达到正确时文章顺序,使得导出的文本信息有章有序。
区域识别顺序视图
l 添加表格线
对于文档中出现的表格线,由于扫描时不清晰的原因,或者为了达到方便识别的目的,可以手动的添加绘制表格线,使得最终文件表格被更好的识别,从而达到直接导出完美的excel表格。
l 文章划分
对于报纸、杂志、期刊等文件,当图片中出现对各文章并存,且分部不是标准矩形,可以通过文章划分,将版面划分为多个可自由拓展的多边形文本框。
l 遗漏检测
在图像识别之后,通过遗漏检测,软件会给出图像中未被分析识别的图像部分,以防止漏识。
l 画框建字
在图像识别后,通过画框建字,创建单个区域内的单字识别,避免由于换行等原因造成的个别字误识、错识。
2.3.3版面分析可以对档案、图书、公文、报纸等进行自动版面分析。将版面分为横排文本(蓝色框线)、竖排文本(红色框线)、图像(绿色框线)、表格(紫色框线)四种类型。用户也可以根据需求,进行手动版面分析;同时将文本信息按照语言划分语言种类,包括中文,英文,日文,韩文。
SHAPE \* MERGEFORMAT
|
|
|
|
|
|
|
|
版面分析
2.3.4校对2.3.4.1横向校对在识别结果区域中,系统会首先判断出可疑字并标出。通过人工逐字逐句比较识别结果与原始图像,找到错误的地方并修改。
浮动跟踪条可以提高横向校对的速度,它是将识别的原始图像块跟踪显示在识别结果上,使识别结果与原始图像一一对应的显示,并且可以根据使用者习惯改变浮动条前景色和背景色、以及可疑字颜色。直观、方便、快捷。
横向校对视图
2.3.4.2集字校对(纵向校对)1.查错率高,集字校对编辑器把识别结果相同的文字对应的图像显示在一起。由于少数错误的字与大量正确的字有差别,可以比较容易地发现错字,不易漏掉错误。
2.集字校对编辑器重新组织文字顺序,不会使校对人员陷入到识别文字的故事情节中。
3.校对效率高,不易疲劳。
4.把集字校对的结果与传统方法校对的结果进行比较、综合,就能得到最高的查错和纠错效果,得到尽可能低的错误率和最好的最终结果。
集字校对视图
2.3.5文件导出识别、校对过程结束后,可以根据用户需求的不同,导出不同格式的文件,包括rtf格式、xls格式、txt格式已经双层PDF、图像PDF、文本PDF等文件。
导出页面视图
2.3.6版面还原功能2013在导出.rtf格式的word文件时,提供了版面还原功能,该功能为了方便用户在word中排版,最大程度上的按照原文件的格式对文字进行重新排版,而不是简单的文本文字。
在一些杂志、期刊、报纸等的浏览上更加符合用户要求,能够完整的体现出文件原貌。