印刷體文字的識別研究方法分類介紹
2010-12-06 15:17 來源:中國中部印刷網 責編:江佳
- 摘要:
- 識別方法是整個系統的核心。用于漢字識別的模式識別方法可以大致分為結構模式識別、統計模式識別及兩者的結合。下面分別進行介紹。
(9)特征點特征。早在1957年,Solatron Electronics Group公司發布了第一個利用窺視孔(peephole)方法的OCR系統。其主要思想是利用字符點陣中一些有代表性的黑點(筆劃),白點(背景)作為特征來區分不同的字符。后有人又將這種方法運用到漢字識別中,對其中的黑點又增加了屬性的描述,如端點、折點、交叉點等。也獲得了比較好的效果。其特點是對于內部筆劃粘連的字符的識別的適應性較強,直觀性好,但是不易表示為矢量形式,不適合作為粗分類的特征,匹配難度大。
當然還有許多種不同的統計特征,諸如圖描述法、包含配選法、脫殼透視法、差筆劃法等,這里就不一一介紹了。
統計識別與結構識別的結合
結構模式識別與統計模式識別各有優缺點,隨著我們對于兩種方法認識的深入,這兩種方法正在逐漸融合。網格化特征就是這種結合的產物。字符圖象被均勻地或非均勻地劃分為若干區域,稱之為“網格”。在每一個網格內尋找各種特征,如筆劃點與背景點的比例,交叉點、筆劃端點的個數,細化后的筆劃的長度、網格部分的筆劃密度等等。特征的統計以網格為單位,即使個別點的統計有誤差也不會造成大的影響,增強了特征的抗干擾性。這種方法正得到日益廣泛的應用。
人工神經網絡
人工神經網絡(Artificial Neural Network,以下稱ANN)是一種模擬人腦神經元細胞的網絡結構,它是由大量簡單的基本元件-神經元相互連接成的自適應非線性動態系統。雖然目前對于人腦神經元的研究還很不完善,我們無法確定ANN的工作方式是否與人腦神經元的運作方式相同,但是ANN正在吸引著越來越多的注意力。
ANN中的各個神經元的結構與功能較為簡單,但大量的簡單神經元的組合卻可以非常復雜,我們從而可以通過調整神經元間的連接系數完成分類、識別等復雜的功能。ANN還具有一定的自適應的學習與組織能力,組成網絡的各個“細胞”可以并行工作,并可以通過調整“細胞”間的連接系數完成分類、識別等復雜的功能。這是馮·諾依曼的計算機無法做到的。
ANN可以作為單純的分類器(不包含特征提取,選擇),也可以用作功能完善的分類器。在英文字母與數字的識別等類別數目較少的分類問題中,常常將字符的圖象點陣直接作為神經網絡的輸入。不同于傳統的模式識別方法,在這種情況下,神經網絡所“提取”的特征并無明顯的物理含義,而是儲存在神經物理中各個神經元的連接之中,省去了由人來決定特征提取的方法與實現過程。從這個意義上來說,ANN提供了一種“字符自動識別”的可能性。此外,ANN分類器是一種非線性的分類器,它可以提供我們很難想象到的復雜的類間分界面,這也為復雜分類問題的解決提供了一種可能的解決方式。
目前,在對于象漢字識別這樣超多類的分類問題,ANN的規模會很大,結構也很復雜,現在還遠未達到實用的程度。其中的原因很多,主要的原因還在于我們對人腦的工作方式以及ANN本身的許多問題還沒有找到完美的答案。
【點擊查看更多精彩內容】
相關新聞:
塑膠記憶印刷體預計2010年可望進入市場
紅樓夢印刷體祖本212.8萬元人民幣成交(圖)
全國首部印刷體“工尺譜”出版發行
- 關于我們|聯系方式|誠聘英才|幫助中心|意見反饋|版權聲明|媒體秀|渠道代理
- 滬ICP備18018458號-3法律支持:上海市富蘭德林律師事務所
- Copyright © 2019上海印搜文化傳媒股份有限公司 電話:18816622098