這個問題其實就是ocr和ICR的問題。OCR是壹項非常難的技術,很少公開。我對ocr的理解是,在獲取壹個圖片文本後,提取字體框架模型,然後在對應的字典庫中尋找匹配模型(相當於二樓的模式識別),找到匹配度最好的那個,就是被識別的字符。
ocr使用的字體必須比icr小,復雜度也要比ICR小。比如漢字“壹”可以定義為OK(不考慮各種字體和效果詞),但對於ICR來說,就要把漢字“壹”定義為歪歪斜斜,甚至有人會寫出來配合“.”(點)字體...那是非常困難的。當然這個例子可能不太合適!