20世紀70年代初,日本的學(xué)者開始研究漢字識別,并做了大量的工作。中國在OCR技術(shù)方面的研究工作起步較晚,在70年代才開始對數(shù)字、英文字母及符號的識別進行研究,70年代末開始進行漢字識別的研究,到1986年,我國提出“863”高新科技研究計劃,漢字識別的研究進入一個實質(zhì)性的階段,清華大學(xué)的丁曉青和中科院分別開發(fā)研究,相繼推出了中文OCR產(chǎn)品,現(xiàn)為中國漢字OCR技術(shù)。

對比數(shù)據(jù)庫:當(dāng)輸入文字算完特征后,不管是用統(tǒng)計或結(jié)構(gòu)的特征,都須有一比對數(shù)據(jù)庫或特征數(shù)據(jù)庫來進行比對,數(shù)據(jù)庫的內(nèi)容應(yīng)包含所有欲識別的字集文字,根據(jù)與輸入文字一樣的特征抽取方法所得的特征群組。對比識別這是可充分發(fā)揮數(shù)算理論的一個模塊,根據(jù)不同的特征特性,選用不同的數(shù)學(xué)距離函數(shù),較有名的比對方法有,歐式空間的比對方法、松弛比對法(Relaxation)、動態(tài)程序比對法(Dynamic Programming,DP),以及類神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)庫建立及比對、HMM(Hidden Markov Model)…等的方法,為了使識別的結(jié)果更穩(wěn)定,也有所謂的專家系統(tǒng)(Experts System)被提出,利用各種特征比對方法的相異互補性,使識別出的結(jié)果,其信心度特別的高。