OCR的概念是在1929年由德國科學家Tausheck提出來的,后來美國科學家Handel也提出了利用技術(shù)對文字進行識別的想法。而早對印刷體漢字識別進行研究的是IBM公司的Casey和Nagy,1966年他們發(fā)表了篇關(guān)于漢字識別的文章,采用了模板匹配法識別了1000個印刷體漢字。早在60、70年代,世界各國就開始有OCR的研究,而研究的初期,多以文字的識別方法研究為主,且識別的文字僅為0至9的數(shù)字。

文字特征抽?。簡我宰R別率而言,特征抽取可說是 OCR的核心,用什么特征、怎么抽取,直接影響識別的好壞,也所以在OCR研究初期,特征抽取的研究報告特別的多。而特征可說是識別的籌碼,簡易的區(qū)分可分為兩類:一為統(tǒng)計的特征,如文字區(qū)域內(nèi)的黑/白點數(shù)比,當文字區(qū)分成好幾個區(qū)域時,這一個個區(qū)域黑/白點數(shù)比之聯(lián)合,就成了空間的一個數(shù)值向量,在比對時,基本的數(shù)學理論就足以應(yīng)付了。而另一類特征為結(jié)構(gòu)的特征,如文字影像細線化后,取得字的筆劃端點、交叉點之數(shù)量及位置,或以筆劃段為特征,配合特殊的比對方法,進行比對,市面上的線上手寫輸入軟件的識別方法多以此種結(jié)構(gòu)的方法為主。