姚记棋牌网址

一文全览,深度学习时代下,复姚记棋牌网址杂场景下的 OCR 如何实现?

姚记棋牌网址 7020 姚记棋牌网址

姚记棋牌网址Source: kurzweilai.net

作者 | 北京矩视智能科技有限公司

责编 | 贾伟

文本是人类最重要的信息来源之一,自然场景中充满了形形色色的文字符号。在过去的十几年中,研究人员一直在探索如何能够快速准确的从图像中读取文本信息,也就是现在OCR技术。

工业场景下的图像文本识别更为复杂,它会出现在许多不同的情景下,如医药包装上的文字、各类钢制零部件上的字符、集装箱表面喷印的字符、商铺Logo上的个性化字符等等。

姚记棋牌网址在这类图像中,文字部分可能会呈现为弯曲排列、曲面异形、倾斜分布、褶皱变形、残缺不全等多种形式,与标准字符的特征有较大出入,从而给图像文字的检测与识别带来了困难。

传统算法

传统OCR技术通常使用OpenCV算法库,通过图像处理和统计机器学习方法提取图像中的文字信息,用到的技术包括二值化、噪声滤除、连通域分析和Adaboost、SVM等。

按处理方式可以将传统OCR技术划分为图片预处理、文字识别、后处理三个阶段,其具体的技术流程如下表所示。

针对简单场景下的图片,传统OCR已经取得了很好的识别效果。但是从操作流程可以看出,传统方法是针对特定场景的图像进行建模的,一旦跳出当前场景,模型就会失效。随着近些年深度学习技术的迅速发展,基于深度学习的OCR技术也已逐渐成熟,能够灵活应对不同场景。

深度学习

目前,基于深度学习的场景文字识别主要包括两种方法,第一种是分为文字检测和文字识别两个阶段;第二种则是通过端对端的模型一次性完成文字的检测和识别。

1、文字检测

顾名思义,文字检测就是要检测到图片中文字所在的区域,其核心是区分文字和背景。常用的文字检测算法包括以下几种:

1)CTPN [1]

CTPN是ECCV 2016提出的一种文字检测算法,由Faster RCNN改进而来,结合了CNN与LSTM深度网络,其支持任意尺寸的图像输入,并能够直接在卷积层中定位文本行。

CTPN由检测小尺度文本框、循环连接文本框、文本行边细化三个部分组成,具体实现流程为:

使用VGG16网络提取特征,得到conv5­_3的特征图;

在所得特征图上使用3*3滑动窗口进行滑动,得到相应的特征向量;

将所得特征向量输入BLSTM,学习序列特征,然后连接一个全连接FC层;

最后输出层输出结果。

CTPN是基于Anchor的算法,在检测横向分布的文字时能得到较好的效果。此外,BLSTM的加入也进一步提高了其检测能力。

2)TextBoxes/TextBoxes++ [2,3]

TextBoxes和TextBoxes++模型都来自华中科技大学的白翔老师团队,其中TextBoxes是改进版的SSD,而TextBoxes++则是在前者的基础上继续扩展。

发表评论 (已有0条评论)

还木有评论哦,快来抢沙发吧~