请输入您要查询的百科知识:

 

词条 文档图像处理技术
释义

概述

文档作为信息的载体,在社会生活中占有着十分重要的地位。通常,我们可以把存储在计算机中或纸上的一切具有阅读意义的信息称为文档。为能简便有效地使用和管理信息,自上世纪六十年代以来,人们进行了大量关于文档处理系统的研究。文档可以通过扫描仪、数码相机或文档处理系统进入计算机,转化为文档图像或者电子文档,从而使人们能够方便有效地对其进行存储、管理、传输。

涉及技术

文档图像获取

近年来,数字化文档被广泛应用于办公自动化、数字化图书馆、工业自动化等领域。随着科技的发展,传统扫描仪体积大、效率低、携带不方便等不足之处日益突出,而数字照相机体积小、价位低,可以很容易地携带并结合到手机、 手提电脑以及各种网络设备中去,它还可以远距离地对背景文字及脆弱的珍贵文档拍照, 更适用于无约束环境下的数字化操作。因此,将数字照相机引入文档图像分析已经引起越来越多人的关注。

Newman的调查表明,从报纸上提取段落时,基于PC摄像头的OCR操作比基于扫描仪的OCR操作效率高得多;Fisher等调查了在战场上用数字摄像机替换士兵携带sheet-fed扫描仪的可能性。经证实,数字摄像机能够以200dpi拍摄整张A4文档纸,已经达到OCR所要求的分辨率。

在过去的20年中,基于摄像机的文档分析已经有一定的应用,如自动阅读执照、书籍杂志分类,货运车ID、公路挂牌、危险标志识别等。

文档图像获取中的难题

用数字照相机拍摄的文档图像也有新问题需要解决:当文档表面弯曲变形时,数字相机拍到的文字及图形图像将会产生畸变;在扫描仪中,也会出现这一现象。文档图像的变形对后续处理工作,如 OCR识别、 数字文档的版面分析、格式处理以及文档自动化都带来极大困难,因此必须首先通过图像矫正的方法对这种变形文档进行图像恢复。

在2001年的数字化项目中,德国代表哲学家Nietzsche在Duisburg–Essen大学对创作于1865至1945年的文本文档做了数字转换。这次转化的过程既复杂又耗时。很多文档使用德国哥特体(fraktur)活字技术印刷出来,而现在的OCR程序对fraktur活字识别不很理想,因此常常伴随着人工修改。对于那些质量差一些的以原始影印文件为主的文学来源,数字化过程则需要进一步的人工互动。其中阴影、倾斜和扭曲都会极大的降低 OCR识别的准确度。

文档图像处理内容

文档图像处理包含许多方面,下面对一些重要的技术做简要说明。

1、图像去色及二值化

存储在纸上的文档,若要输入计算机中,首先要通过扫描仪扫描成为数字图像。它可以是彩色图像,也可以是灰度图像,或者是二值图像,取决于扫描的具体过程。但一般文档处理系统要处理的是灰度图像,而且很多成熟的图像处理算法和工具包也是针对灰度图像的。在进入识别阶段时,识别引擎一般是针对二值图像的。因此,我们必须对输入的图像进行处理,将其二值化。

图像的二值化处理就是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果。

将256亮度等级的灰度图像通过适当的阀值选取而获得仍然可以反映图像整体和局部特征的二值化图像。在数字图像处理中,二值图像占有非常重要的地位。首先,图像的二值化有利于图像的进一步处理,使图像变得简单,且数据量减小,能凸显出感兴趣的目标轮廓。其次,要进行二值图像的处理与分析,首先要把灰度图像二值化,得到二值化图像。

在我们所研究的文档图像处理这一特定领域中,图像的二值化一般是指将灰度图像转化为只包含黑、白两个灰度的二值图像。文档图像可以看作是由文字、背景、图片三类对象组成,而我们最关心的是文字区域二值化后的结果。

图像的这种转换必然会引起信息丢失,因此采用什么样的算法能够最大限度地保留识别时必需的信息(如字符的连通性),去掉不必要的背景信息和噪声,并且执行时间在实际可接受的范围内,是人们一直以来努力研究的问题。

2、倾斜检测与校正

文档处理系统要求的处理对象是工整的文档图像,或者倾斜角度已知,否则许多对图像的操作,例如投影分析,图像分割等就无法进行。显然,扫描进计算机的文档图像无法保证一定是正的,因此需要利用倾斜检测和校正的方法对其进行处理。经常采用的倾斜角度检测的方法有:基于文本行的检测方法,投影轮廓分析方法,和Hough变换方法等。

基于文本行的检测可以用于已知文本行方向(水平或竖直)的文档图像,它利用了对图像中连通体的分析。我们知道,连通体是一个灰度值相同的像素的集合,这个集合中任意两个像素之间都是8-近邻关系。可以用包含连通体内像素的最小矩形来表示连通体,它描述了连通体的大小和位置信息。如果已知文本行方向,我们就可以将连通体合并成文本行,并用直线逼近。该直线的倾斜角即为文本行的倾斜角。对整幅图像的文本行作同样分析,选出出现频率最高的角度,即可作为图像的倾斜角。

投影操作也是一种基本的图像处理方法。将图像按一定方向作投影,可以得到在该方向坐标轴上分布的波形,它描述了图像沿该方向上的黑像素分布情况。如果图像文本行是水平的,那么沿水平方向的投影波形将具有明显的波峰和波谷。基于这一点,我们可以在候选倾斜角度范围内转动图像,直至出现明显的波峰和波谷为止,这时得到的角度就是倾斜角度。

Hough变换方法是在倾斜检测中最常使用的方法,它抗噪声干扰的能力强,并且不受图像间隙干扰。它的原理是将直线从图像空间映射到参数空间。这样就将原图像中的直线映射到参数空间的一点,而原图像中的一点则对应着参数空间的一条正弦曲线。图像空间中任意两点所对应的正弦曲线在参数空间将相交于一点,进而, 通过的直线上的所有点所对应的正弦曲线在参数空间都将相交于这一点。基于这一点,我们将直线检测问题转化为参数空间寻找局部最大值的问题。以上是标准Hough变换的基本思想。该方法适于文本行方向预先未知的情况。

3、版面结构理解

文档图像几何结构的理解也称为版面拆解,它是文档图像分析中的一个重要问题。版面拆解的目的是生成一个描述文档图像的层次结构:几何结构。它将图像分割成为具有相同特性的区域,为下一步的区域识别和文字识别做好准备。版面拆解的方法一般有如下三种:

自底向上(Bottom-Up,也称为数据驱动)。这类方法利用图像的局部信息,通过逐步将具有相同属性的区域合并,得到对文档版面的拆解。该方法能处理不同版面的文档和具有一定倾斜的文档,但是一般比较慢。

自顶向下(Top-Down,也称模型驱动)。该方法从图像全局出发,逐步对图像进行分割,最后得到图像的几何结构。对Manhattan式的版面,该方法快速而且有效;但是对复杂文档效果欠佳。影响自顶向下方法有效性的因素包括文本行位置的随意性,区域形状的不规则性以及文档图像的倾斜等。

综合方法(Hybrid)则尽量综合上述两种方法的特点,使算法的性能和适应性都得到提高。

4、扭曲文档图像恢复

在扫描、复印或者拍摄文档的过程中造成的图像扭曲在文档理解和处理方面是普遍的问题。这种文档图像的扭曲降低了光学文字辨识(OCR)能力,也严重影响了其使用效果。这是文档打印数字化和自动化过程中的主要障碍。

这种扭曲文档图像采用相关的技术进行一定的恢复,称为扭曲文档图像恢复。实验证明,文档图像扭曲恢复后的OCR识别率要明显高于恢复之前的。具体参考扭曲文档图像恢复一词。

随便看

 

百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。

 

Copyright © 2004-2023 Cnenc.net All Rights Reserved
更新时间:2025/1/9 22:25:53