OCR技术分析

随着人工智能的日益普及，图像识别这一子领域逐渐受到人们的关注。图像识别中最贴近我们生活的大概就是OCR技术了。可能很多同学还不知道OCR是什么。我们先来看看OCR的定义:

今天我们简单分析一下OCR技术的原理，不会涉及具体的算法解释和推导。毕竟每个算法都可以占很长篇幅，每个算法都可以重写。

总的来说，OCR一般分为两大步骤:图像处理和文本识别。

在识别字符之前，我们需要对原始图像进行预处理，以便进行后续的特征提取和学习。这个过程通常包括:灰度化、二值化、降噪、倾斜校正、文本分割等子步骤。每一步都涉及不同的算法。下面就以原图为例来说明一下每一步。

灰度处理，在RGB模型中，如果R=G=B，color表示一种灰色，其中R=G=B的值称为灰度值，所以灰度图像的每个像素只需要一个字节来存储灰度值(也叫强度值和亮度值)，灰度范围为0-255。说白了就是把彩色图片变成黑白图片。

一般来说，彩色图像灰度化有四种方法:分量法、最大值法、平均法和加权平均法。

图像包括目标物体、背景和噪声。从多值数字图像中直接提取目标物体，最常用的方法是设置一个阈值T，用T将图像数据分为大于T的像素组和小于T的像素组两部分..这是研究灰度变换最特殊的方法，称为图像二值化。

二值黑白图片不含灰色，只有纯白和纯黑。

二值化最重要的是阈值的选择，一般分为固定阈值和自适应阈值。常用的二值化方法有:双峰法、P参数法、迭代法和OTSU法。

现实中的数字图像在数字化和传输过程中，往往会受到成像设备和外界环境的噪声干扰，称为噪声图像或噪声图像。降低数字图像中噪声的过程称为图像去噪。

图像中的噪声有很多来源，来自于图像的采集、传输、压缩等各个方面。噪声的类型也不同，如椒盐噪声、高斯噪声等。不同的噪声有不同的处理算法。

在上一步得到的图像中，我们可以看到很多零星的小黑点，这是图像中的噪声，会极大的干扰我们程序对图像的切割和识别，所以需要降噪。降噪在这个阶段非常重要，降噪算法的好坏对特征提取有很大影响。

图像去噪方法一般包括均值滤波、自适应维纳滤波、中值滤波、形态噪声滤波、小波去噪等。

对于用户来说，拍照时不可能做到绝对水平。所以我们需要通过程序旋转图像，找到一个被认为是最水平的位置，这样切割出来的图像才能是最好的效果。

最常用的倾斜校正方法是Hough变换，其原理是将画面展开，将断续的字符连成一条直线，便于直线检测。在计算出直线的角度后，我们可以使用旋转算法将倾斜的图片校正到水平位置。

对于一个多文本的文本，文本分割包括行分割和字符分割两个步骤，而倾斜校正是文本分割的前提。我们将倾斜校正后的文本投影到Y轴上，累加所有的值，这样就可以得到Y轴上的直方图。

直方图的底部是背景，峰值是前景(文本)所在的区域。所以我们确定了每一行文字的位置。

字符分割类似于行分割，只是这次我们要将每行文本投影到X轴上。

但需要注意的是，同一行中的两个字符往往靠得很近，有时会出现垂直重叠。投影时会被当成一个字符，导致切割错误(多为英文字符)；有时同一字符的左右结构在X轴上的投影有很小的间隙，切割时会把一个字符错分成两个字符(多为汉字)。所以字符分割比行分割更难。

在这种情况下，我们可以预先设置一个字符宽度的期望值，如果被切割字符的投影超过期望值太多，则认为是两个字符；如果远小于该期望值，则忽略该间隙，并将该间隙左右两侧的“字符”组合成一个字符进行识别。

经过预处理后，就是字符识别阶段。这个阶段会涉及到一些人工智能的知识，比较抽象，无法用图片表达。我会尽量让它简单易懂。

特征是用来识别字符的关键信息，每个不同的字符都可以通过特征与其他字符区分开来。对于数字和英文字母，这个特征提取比较容易，总共* * *是10+26 x 2 = 52个字符，而且都是小字符集。对于汉字来说，特征提取的难度更大，因为首先汉字是大字符集；其次，国标中有3755个一级汉字。最后，汉字结构复杂，相似字多，所以特征维数比较大。

确定要使用的特征后，可能有必要减小特征的尺寸。在这种情况下，如果特征的维数过高，分类器的效率会受到很大影响。为了提高识别率，往往需要降维。这个过程也很重要，不仅要降低特征维数，还要让降维后的特征向量保留足够的信息(区分不同的字符)。

对于一个文本图像，把特征提取出来扔给分类器，分类器会对它进行分类，告诉你这个特征应该被识别为哪个文本。分类器的设计是我们的任务。分类器的设计方法一般有:模板匹配法、判别函数法、神经网络分类法、基于规则的推理法等等，这里不做描述。在实际识别之前，往往需要训练分类器，这是一个有监督学习的过程。有许多成熟的分类器，如SVM和CNN。

其实就是优化分类器的分类结果，一般涉及到自然语言理解的范畴。

首先是相似字的处理:比如“分”和“xi”这两个字，形状相似，但如果遇到“分数”这两个字，就不要认成“xi数”，因为“分数”是一个正常的字。这需要通过语言模型来纠正。

其次是文字排版的处理:比如有的书分左右两栏，同一行的左右两栏不属于同一个句子，没有语法联系。如果按线切割，会把左线的末端和右线的起点连接起来，这是我们不愿意看到的。这种情况需要特殊对待。

这是OCR的一般原理。总的来说，OCR的步骤比较多，涉及的算法比较复杂。对于每一步，每一个算法都有很多单独的研究论文，无法在本文中深入讨论。如果从零开始做OCR，那将是一个巨大的工程。我只是有点懵懂，在模式识别和机器学习的初级阶段。如有错误，请指正。