1.首先檢測並提取文本區域。
2.然後我們使用radon hough變換來校正文本。
3.用投影直方圖分割單行文字圖片。
最後是單行的OCR。
單行OCR主要有兩個思路。
首先是需要拆分字符。
分割字符的方法有很多。最常用的方法是使用投影直方圖的極值點作為候選分割點,使用分類器+波束搜索來搜索最佳分割點。
找到分割點後,傳統的方法是對單個字符進行特征工程+分類器。壹般過程是->灰度;二值化->;校正圖像->;特征提取(各種方法如pca lbp等。)->;量詞(量詞壹般是SVM·安ANN等等)。
現在CNN(卷積神經網絡)可以很大程度上避免特征工程。
第二是不需要拆分字符。
還有壹點就是端到端的識別,但前提是妳需要大量的標註數據集。這種方法可以在不分割圖像的情況下連續輸出字符序列。
多標簽分類可用於短長度。比如車牌,驗證碼。在這裏,我嘗試了車牌的多標簽分類。車牌識別中未分割字符的端到端識別。
這是谷歌用來識別街景門牌號的方法。