2008年9月13日星期六

印刷体汉字识别系统

一、文字识别概述
汉字是历史悠久的中华民族文化的重要结晶,闪烁着中国人民智慧的光芒。汉字数量众多,仅清朝编纂的《康熙字典》就包含了49,000多个汉字,其数量之大,构思之精,为世界文明史所仅有。由于汉字为非字母化、非拼音化的文字,所以在信息技术及计算机技术日益普及的今天,如何将汉字方便、快速地输入到计算机中已成为关系到计算机技术能否在我国真正普及的关键问题。
图1 文字识别的分类

由于汉字数量众多,汉字识别问题属于超多类模式集合的分类问题。汉字识别技术可以分为印刷体识别及手写体识别技术。而手写体识别又可以分为联机(on-line)与脱机(off-line)两种。这种划分方法可以用图1来表示。

从识别技术的难度来说,手写体识别的难度高于印刷体识别,而在手写体识别中,脱机手写体的难度又远远超过了联机手写体识别。

到目前为止,除了脱机手写体数字的识别已有实际应用外,汉字等文字的脱机手写体识别还处在实验室阶段。

联机手写体的输入,是依靠电磁式或压电式等手写输入板来完成的。在书写时,笔在板上的运动轨迹(在板上的坐标)被转化为一系列的电信号,电信号可以串行地进入到计算机中。从这些电信号我们可以比较容易地抽取笔划和笔顺的信息。从90年代以来,联机手写体的识别正逐步走向实用,方兴未艾。中国大陆及台湾地区的科研工作者推出了多个联机手写体汉字识别系统,国外的一些大公司也开始进入这一市场。这一技术也迎合了PDA(Personal Digital Assistant)的发展潮流。

与脱机手写体和联机手写体识别相比,印刷体汉字识别已经实用化,而且在向更高的性能、更完善的用户界面的方向发展。因为它有着广泛的应用前景。目前,办公自动化已成为信息社会不可避免的发展趋势。虽然在计算机网络飞速发展的今天,许多信息已经电子化,世界各地出现了许多“电子版”的报纸、杂志等出版物。但是我们可以看到印刷材料的数量也大大地增加了,一些专业单位如新闻社、图书馆、古籍出版社、档案馆等所接触的印刷材料更是浩如烟海,毕竟阅读印刷材料更为符合人的自然阅读习惯;同时,网络信息资源的爆炸性增长以及网络传输容量的限制,都是方便、快速地获取这些信息的约束因素。电子化的与印刷文本材料如同一枚硬币的两面,互相补充、互相促进,在未来的十几年或更长的时间内将不会出现一者被另一者取代的情况。

二、印刷体文字识别流程简介

印刷体文字识别的过程如图2所示。原始图象是通过光电扫描仪,CCD器件或电子传真机等获得的二维图象信号,可以是灰度(Grayscale)或二值(Binary) 图象。为简单计,在本文以后的论述中,除非特别提及,图象输入的方式均指由扫描仪输入。

 



图2 印刷体文字识别的简单流程图

预处理包括对原始图象的去噪、倾斜校正或各种滤波处理。版面分析完成对于文本图象的总体分析,区分出文本段落及排版顺序,图象、表格的区域;对于文本区域将进行识别处理,对于表格区域进行专用的表格分析及识别处理,对于图象区域进行压缩或简单存储。行字切分是将大幅的图象先切割为行,再从图象行中分离出单个字符的过程。特征提取是整个环节中最重要的一环,它是从单个字符图象上提取统计特征或结构特征的过程,包括为此而做的细化(Thinning)、归一化(Normalization)等步骤。提取的特征的稳定性及有效性,直接决定了识别的性能。文字识别即从学习得到的特征库中找到与待识字符相似度最高的字符类的过程。后处理则是利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正的过程。

由此可见,印刷汉字识别技术主要包括:

(1) 扫描输入文本图象。

(2) 图象的预处理,包括倾斜校正和滤除干扰噪声等。

(3) 图象版面的分析和理解。

(4) 图象的行切分和字切分。

(5) 基于单字图象的特征选择和提取。

(6) 基于单字图象特征的模式分类。

(7) 将被分类的模式赋予识别结果。

(8) 识别结果的编辑修改后处理。

其中(4)、(5)和(6),也就是图2中的阴影部分,是印刷汉字识别中最为核心的技术。近几年来,印刷汉字识别系统的单字识别正确率已经超过95%,为了进一步提高系统的总体识别率,扫描图象、图象的预处理以及识别后处理等方面的技术,也都得到了深入的研究,并取得了长足的进展,有效地提高了印刷汉字识别系统的总体性能。

三、印刷体文字识别的研究历程

印刷体文字的识别可以说很早就成为人们的梦想,早在1929年,Taushek就在德国获得了一项有关OCR的专利。欧美国家为了将浩如烟海、与日俱增的大量报刊杂志、文件资料和单据报表等文字材料输入计算机进行信息处理,从50年代就开始了西文OCR(Optical Character Recognition,光学字符识别)技术的研究,以便代替人工键盘输入。

印刷体汉字的识别最早可以追溯到60年代。1966年,IBM公司的Casey和Nagy发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的模板匹配法识别了1,000个印刷体汉字。70年代以来,日本学者做了许多工作,其中有代表性的系统有1977年东芝综合研究所研制的可以识别2000汉字的单体印刷汉字识别系统;80年代初期,日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统。这些系统在方法上,大都采用基于K-L数字变换的匹配方案,使用了大量专用硬件,其设备有的相当于小型机甚至大型机,价格极其昂贵,没有得到广泛应用。

我国对印刷汉字识别的研究始于70年代末、80年代初,大致可以分为三大阶段:

(1) 第一阶段从70年代末期到80年代末期,主要是算法和方案探索。

(2) 第二阶段是90年代初期,中文OCR由实验室走向市场,初步实用。

(3) 第三阶段也就是目前,主要是印刷汉字识别技术和系统性能的提高,包括汉英双语混排识别率的提高和稳健性的增强。

同国外相比,我国的印刷体汉字识别研究起步较晚。但由于我国政府对汉字自动识别输入的研究从80年代开始给予了充分的重视和支持,经过科研人员十多年的辛勤努力,印刷体汉字识别技术的发展和应用,有了长足进步:从简单的单体识别发展到多种字体混排的多体识别,从中文印刷材料的识别发展到中英混排印刷材料的双语识别。各个系统可以支持简、繁体汉字的识别,解决了多体多字号混排文本的识别问题,对于简单的版面可以进行有效的定量分析,同时汉字识别率已达到了98%以上。

清华大学电子工程系、中国科学院计算所智能中心、北京信息工程学院、沈阳自动化研究所等单位分别研制开发出实用化的印刷体汉字识别系统。尤其是由清华大学电子工程系研制的清华TH-OCR产品,始终处于技术与产品发展的最前沿,并占据着最大的市场份额,代表着中文OCR技术发展的潮流。

这一成就,是对中华文化宝贵遗产的继承和发扬,在世界电脑发展史上,必将留下光辉的一页,同时,这也是造福子孙千秋万代的大事。国家高技术研究发展“863”计划、国家重点科技攻关计划、国家自然科学基金和军事基础研究基金都对这一研究课题予以极大的重视和大力的支持。

四、印刷体文字识别研究方法简介

识别方法是整个系统的核心。用于汉字识别的模式识别方法可以大致分为结构模式识别、统计模式识别及两者的结合。下面分别进行介绍。

4.1 结构模式识别

汉字是一种特殊的模式,其结构虽然比较复杂,但具有相当严格的规律性。换言之,汉字图形含有丰富的结构信息,可以设法提取含有这种信息的结构特征及其组字规律,作为识别汉字的依据,这就是结构模式识别。

结构模式识别是早期汉字识别研究的主要方法。其主要出发点是汉字的组成结构。从汉字的构成上讲,汉字是由笔划(点横竖撇捺等)、偏旁部首构成的;还可以认为汉字是由更小的结构基元构成的。由这些结构基元及其相互关系完全可以精确地对汉字加以描述,就像一篇文章由单字、词、短语和句子按语法规律所组成一样。所以这种方法也叫句法模式识别。识别时,利用上述结构信息及句法分析的方法进行识别,类似一个逻辑推理器。

用这种方法来描述汉字字形结构在理论上是比较恰当的,其主要优点在于对字体变化的适应性强,区分相似字能力强;但是,在实际应用中,面临的主要问题是抗干扰能力差,因为在实际得到的文本图象中存在着各种干扰,如倾斜,扭曲,断裂,粘连,纸张上的污点,对比度差等等。这些因素直接影响到结构基元的提取,假如结构基元不能准确地得到,后面的推理过程就成了无源之水。此外结构模式识别的描述比较复杂,匹配过程的复杂度因而也较高。所以在印刷体汉字识别领域中,纯结构模式识别方法已经逐渐衰落,句法识别的方法正日益受到挑战。

4.2 统计模式识别

统计决策论发展较早,理论也较成熟。其要点是提取待识别模式的的一组统计特征,然后按照一定准则所确定的决策函数进行分类判决。

汉字的统计模式识别是将字符点阵看作一个整体,其所用的特征是从这个整体上经过大量的统计而得到的。统计特征的特点是抗干扰性强,匹配与分类的算法简单,易于实现。不足之处在于细分能力较弱,区分相似字的能力差一些。常见的统计模式识别方法有:

(1) 模板匹配。模板匹配并不需要特征提取过程。字符的图象直接作为特征,与字典中的模板相比,相似度最高的模板类即为识别结果。这种方法简单易行,可以并行处理;但是一个模板只能识别同样大小、同种字体的字符,对于倾斜、笔划变粗变细均无良好的适应能力。

(2)利用变换特征的方法。对字符图象进行二进制变换(如Walsh, Hardama变换)或更复杂的变换(如Karhunen-Loeve, Fourier,Cosine,Slant变换等),变换后的特征的维数大大降低。但是这些变换不是旋转不变的,因此对于倾斜变形的字符的识别会有较大的偏差。二进制变换的计算虽然简单,但变换后的特征没有明显的物理意义。K-L变换虽然从最小均方误差角度来说是最佳的,但是运算量太大,难以实用。总之,变换特征的运算复杂度较高

五、汉字识别技术的最新进展

汉字识别最为重要的指标是识别正确率,最新技术包括两个方面:一是使用组合优化特征的综合识别方法,提高正确率,增加适应性;二是英文与数字的比例超过1/3时的汉英双语混排识别。

5.1 组合优化特征的综合识别方法

抽取单一种类的特征进行汉字识别,误识率较难降低,且抗干扰性不易提高。因为这样所利用的汉字信息量有限,不能全面反映汉字的特点,对任何一种特征来说,必然存在其识别的“死角”,即利用该特征很难区分的汉字。从模式识别的角度来看,若将汉字的全部矢量化特征所组成的空间称作空间(i=1,2,……),那么利用整个空间Ω的信息进行汉字识别,由于提供的汉字信息很充分,抗干扰性会大大增强。

但是,在实际应用中,必须考虑到识别正确率与识别速度(运算量)及系统资源三者的折衷。所以任何一个实用的OCR系统只利用其中部分子空间的信息。由于信息的缺陷,便不可避免地遇到识别“死角”的问题。

“组合优化特征法”识别汉字的基本思想是:首先,在长期汉字识别研究的基础上,选择结构元等多种基于汉字笔划结构的统计特征,这些特征具有良好的类内聚合和类间发散的分类能力;其次,有机地多种汉字特征互为补充,相得益彰,使汉字识别的“死角”大幅减小,从而提高识别率。

“组合优化特征”的综合识别方式,是建立在对各种方法充分了解的基础之上,基于知识的识别方式,因为这样既富有针对性,充分发挥了各个方案的长处,取得了高的识别率,又提高了系统的运行效率。

5.2 汉英双语混排识别

随着信息产业的开放与发展,越来越多的英文词语出现在我国的印刷文本材料中。尤其在科技文献刊物中,更是屡见不鲜,英文、数字的比例常常超过1/3。英文字母出现在文本行中,其大小、高度与汉字中的偏旁部首很类似,难以区分是汉字偏旁部首,还是英文字母;英文单词中字母之间的距离不等,粘连也相当普遍;汉字是以横竖等笔划为基本结构的,而英文则是以曲线为主。因此,汉英双语混排识别的关键在于汉字和英文字母的正确分辨和切分。切分的传统方法是利用“高度椏矶葪位置”信息,但是由于汉字中可左右分离的字很多,其各部分无论高度和宽度,均与英文字母很接近,如“即”、“旧”等;而且,英文字母的粘连现象也无法解决;此外,许多英文的双字母组合,三字母组合,是用一个字模来印刷的,如“fi”等。因此,在“高度椏矶葪位置”准则基础上,根据“TET(Try-Error-Try)准则”,加入了“切分椩な侗饤二次切分”的手段。即对于各种可能出现的切分情况,进行预识别,从中选出误差最小,最合乎语言逻辑习惯的组合。

对于粘连的英文字母,由于连续粘连在一起的字母可能有多个,组合的情况较多,且粘连的种类亦有较大区别。进行“穷举式”试切分,所花费的时间代价太大。因此采用“化整为零”的方法,根据最佳邻域搜索原则以及字母串在水平和垂直方向上的投影信息,将字母串从最可靠的地方一分为二,分为两个子串;然后在这两个子串内再重复上述步骤,直到子串的长度大约为三个英文字母的平均宽度;最后进行“穷举式”试切分,从而大大缩短了切分所用的时间。从而有效地解决了汉英双语混排文本的识别。

5.3 高性能实用汉字识别系统的其它关键技术

实用汉字识别系统的其它关键技术主要包括:

(1) 扫描仪自动亮度调节(ABJ-Automatic Brightness Ajustment)技术。

(2) 印刷表格的自动输入的邻域分析技术。

(3) 版面的自动分析(ALA-Automatic Layout Analysis)技术。

综上所述,最新的印刷汉字识别技术流程,如图3所示。



 

图3 最新的印刷汉字识别技术流程

六、结论与展望

总体来说,近几年来国内对印刷体汉字识别的研究还是相当深入的,也取得了很大成绩,使系统的识别率不断上升。目前印刷体汉字识别系统的应用已经相当成熟。例如,刚刚通过国家教委组织的鉴定的清华TH-OCR97综合集成汉字识别系统,对中等质量的样本,识别率已经可以达到99%左右或更高。不过,这些系统还存在着一些可改进之处:

 

从识别角度

(1) 汉字识别率总是汉字识别中最重要的指标,应该达到更新的高度,从而最大程度地减少用户校对、修改的工作量。

(2) 印刷体汉字识别的鲁棒性(Robustness)还不够强。Robust在英文中是“健壮的”或“强的”之意。鲁棒性可以理解为识别系统对于不同质量、不同字号、不同字体的文本图象表示出来的适应性。在文字识别中,识别系统的鲁棒性尤其反应在随着印刷质量的下降,系统误识率的上升趋势上。

目前的OCR系统都对扫描图象的质量有一定要求,扫描亮度不能太暗也不能太亮,保证文字的图象即不会暗成一个黑块也不会亮得笔画发生很多断裂。这就对用户的使用提出了较高要求。

印刷文本的质量可能千差万别,一般用户对扫描仪的操作也可能不够合适,这往往造成识别图象的质量不佳,为使任何未经训练的用户都能用好OCR系统,系统的鲁棒性必须不断提高。

(3) 汉英混排文本的切分仍不够成熟。与识别技术相比,对切分的理论和方法还缺乏系统的研究和理论。随着汉字识别率的上升以及汉英混排文本的增多,切分错误在所有错误中所占的比重不断上升,怎样使文字正确分割变成了另一个还未很好解决的问题。

 

用户界面和自动化程度方面

(1) 扫描仪自动亮度调节,无须用户选择门限,自动随文本种类、印刷质量不同选择合适的扫描仪亮度门限,以保证识别率。

(2) 版面的自动分析,无需人工干预,可以将印刷文本材料,如报纸、杂志等,上面有各种插图、表格、花边,且同时存在横、竖版面等加以区分和作相应的标记,以便分别处理。

(3) 中文印刷表格的自动录入,对于中文印刷表格,可以进行框线的自动检测、栏目自动切分,直至将各栏目中的内容识别出来,并且可以和数据库直接相连,完成印刷表格自动录入至数据库的任务。

(4) 版面自动恢复,仅有文字识别往往不能满足实际需要。能够保持原来的排版形式、字体信息、表格和插入的图形图象,以便在Word、北大方正等排版软件中直接修改,一直是许多用户的梦想。

(5) 系统提供用户自学习功能,使用户自由地扩大专业识别字符集;以及适用于各种应用环境的汉字识别系统。例如:MS-DOS环境、Windows环境和UNIX环境下中文OCR版本,满足不同用户的需求。

 

其它方面

(1) 系统总体性能的进一步提高。解决象报纸这种栏目多而位置排列复杂的印刷文本材料的版面自动理解;利用自然语言理解知识进行识别后处理;进一步提高英文的识别率和适应性,降低系统的误识率,等等。

(2) Internet/Intranet上的网络版本。充分利用网络上的资源及计算能力,提高系统的性能,使用户能够更方便地协同工作。

(3) 系统固化以及系统各部分的质量和性能的稳定提高。

(4) 扩大OCR核心技术的应用范围,开发更多的应用系统,并将研究成果迅速转化为产品,提高软件的商品化水平,使之能大量地走出国门,走向全世界。

这些都是汉字识别系统急待解决的问题,也是汉字识别技术今后努力发展的重要方向。

没有评论:

发表评论

欢迎访问、交流!对本博客有何建议,请
来信告知!
本博内容来源于网络,如有不当或侵犯权益,请来信告知,将及时撤除!
如引用博客内容、论文,请注明原作者!

Google一下本博客

  • 《Getting Things Done》读书笔记 - 本文来自 inertial 原创投稿。 我第一次听说《Getting Things Done》这本书的时候误以为它和世面上的那些成功学书籍没什么区别,后来在不少书中看到了这个名字,也看见了很多人的推荐,由此产生了很大的兴趣。上个月正好有不少空闲,就抽时间把这本书读完了。 本来打算读英文原版,但是原版的生...
    5 年前
  • [原]Linux下编译使用boost库 - Boost库是一个可移植、提供源代码的C++库,作为标准库的后备,是C++标准化进程的开发引擎之一。 Boost库由C++标准委员会库工作组成员发起,其中有些内容有望成为下一代C++标准库内容。在C++社区中影响甚大,是不折不扣的“准”标准库。Boost由于其对跨平台的强调,对标准C++的强调,与...
    6 年前
  • [原]猎头、培训与咨询的价值(2)【补1】——北漂18年(93) - 【上期用手机写的,同时用语音输入转化成文字,错字较多,经好友霍师傅提醒本期重写,并增加一部分新内容】 简单谈下我对猎头、培训与咨询的看法。三样都干过,算是有些浅见。 猎头 简单的说就是人才中介。虽然在公司看来是可以直接解决现有企业问题的一个直接方法,但很多时候都不太管用。 猎头费一般是人才的一个月月...
    7 年前
  • OpenCV統計應用-Mahalanobis距離 - Mahalanobis距離是一個可以準確找出資料分布上面極端值(Outliers)的統計方法,使用線性迴歸的概念,也就是說他使用的是共變數矩陣以及該資料分布的平均數來找尋極端值的產生,而可以讓一群資料系統具有穩健性(Robust),去除不必要的雜訊訊息,這邊拿前面共變數矩陣的資料為例,並且新增了兩個點座標向量來做...
    15 年前
  • 努力推进模式识别实际产品的开发与应用 - Salu 无论是手写体识别、文档处理、人脸识别、基于内容的图片搜索、嵌入人工智能的搜索技术、虚拟网络社区、还是其它相关新科技下的信息整合领域,现在都在努力实用化。 前两年、即使现在还有很多人在抱怨说人脸的方法都不能用,但是就今年出现的和正在做的有关人脸识别实际应用的各种形式的产品可以说如雨后春笋。这是一个趋...
    16 年前