也就是說,這個軟件可以識別掃描儀掃描的圖片中的文字,並將圖片轉換成文字。
所謂OCR(光學字符識別)技術,是指電子設備(如掃描儀或數碼相機)檢查印在紙上的字符,通過檢測明暗圖案確定其形狀,然後通過字符識別方法將形狀翻譯成計算機字符的過程。即掃描文本數據,然後分析圖像文件以獲得文本和布局信息的過程。
由於OCR是壹項與識別率拔河的技術,如何調試或利用輔助信息來提高識別率是OCR最重要的課題,ICR(intelligent character recognition,智能字符識別)壹詞由此產生。根據文字材料存在的介質不同,以及獲取這些材料的方式不同,衍生出各種應用。
壹.光學字符識別的發展
要說OCR的發展,早在60、70年代,世界各國就開始研究OCR。在研究的初期,大部分集中在字符識別的方法上,識別的字符只是從0到9的數字。以同樣有框符的日本為例,OCR的基本識別理論是在1960左右開始研究的。最開始是以數字為對象,直到1965到1970之間,開始出現壹些簡單的產品,比如印刷體文字的郵政編碼識別系統,識別郵件上的郵政編碼,幫助郵局做區域信件分發。所以郵政編碼壹直是各國提倡的地址書寫方式。
OCR可以說是壹個不確定的技術研究。正確率就像壹個無限逼近的函數。如果我們知道它的逼近值,我們就只能逼近它,而不能達到它。我們永遠是100%在戰鬥。因為涉及的因素太多了,書寫者的習慣或者文檔的打印質量,掃描儀的掃描質量,識別的方法,學習測試的樣本等等。,都會影響其準確性。因此,OCR產品需要壹個強大的識別核心,而操作和使用的便利性,產品提供的調試功能和方法也是決定產品質量的重要因素。
壹個OCR識別系統的目的很簡單,就是對圖像進行變換,讓圖像中的圖形繼續保留,表格中的數據和圖像中的字符都變成計算機字符,這樣可以減少圖像數據的存儲,識別出的字符可以重復使用和分析,當然也可以節省鍵盤輸入的人力和時間。
從圖像到結果輸出,要經過圖像輸入、圖像預處理、文本特征提取、比較識別,最後通過人工校正糾正錯別字,輸出結果。
這裏壹壹介紹:
圖像輸入:
要進行OCR處理的主題必須通過光學儀器(如圖像掃描儀、傳真機或任何照相設備)傳輸到計算機。隨著科技的進步,掃描儀等輸入設備變得越來越精致,輕薄短小,質量高,這對OCR有很大的幫助。掃描儀的分辨率使圖像更清晰,掃頻速度更快,提高了OCR處理的效率。
圖像預處理:圖像預處理是OCR系統中需要解決最多問題的模塊。從獲得非黑非白的二值圖像或者灰度彩色圖像到獨立產生文本圖像的過程屬於圖像預處理。包括圖像歸壹化、去噪、圖像校正等圖像處理,以及圖形分析、文本行和文字分離等文件預處理。在圖像處理方面,在理論和技術上已經到了成熟的階段,所以市面上或者網站上有很多的鏈接庫可以使用;在文檔的預處理上,要看各個技能;圖像首先要把圖片、表格和文字區域分開,甚至要區分文章的排版方向、輪廓和正文,文字的大小和字體才能判斷為原始文檔。
字符特征提取:單就識別率而言,特征提取可以說是OCR的核心。什麽特征以及如何提取特征直接影響識別的質量,所以在OCR研究的前期,有很多關於特征提取的研究報告。特征可以說是識別的籌碼,簡單的區分可以分為兩類:壹類是統計特征,比如壹個文本區域的黑/白點比例。當文本被分成幾個區域後,每個區域的黑/白點比例的組合就變成了空間的壹個數值向量,基本的數學理論就足夠比較了。另壹類特征是結構特征,如文本圖像細化後獲得筆畫端點和單詞交叉點的數量和位置,或者用特殊的比較方法與筆畫段進行比較。市面上的在線手寫輸入軟件的識別方法大多是基於這種結構方法。
對比數據庫:計算輸入字符的特征後,無論是使用統計特征還是結構特征,都必須有壹個對比數據庫或特征數據庫進行對比。數據庫的內容應包括所有待識別的字符集,以及通過與輸入字符相同的特征提取方法獲得的特征組。
對比識別:
這是壹個可以充分發揮數學運算理論的模塊。根據不同的特點,選擇不同的數學距離函數。比較著名的方法有歐氏空間比較法、松弛比較法和動態規劃法(DP)。以及類神經網絡數據庫、hmm(隱馬爾可夫模型)等著名方法的建立和比較。為了使識別結果更加穩定,也有人提出了所謂的專家系統,利用各種特征比較方法的差異性和互補性,使識別結果具有特別高的置信度。
文字後期處理:由於OCR的識別率無法達到100%,或者為了加強比對的正確性和置信度值,壹些調試甚至幫助糾錯的功能就成為了OCR系統中必不可少的模塊。單詞後處理就是壹個例子,利用比較後的識別單詞和它們可能相似的候選單詞,根據前後識別的單詞找出最符合邏輯的單詞並進行修正。
詞庫:為文字後處理而建立的詞庫。
手動校正:
在最後壹級OCR之前,用戶可能只是拿著鼠標,跟著軟件設計的節奏或者只是看,可能需要用戶的精神和時間來糾正甚至找出可能是OCR錯誤的地方。壹個好的OCR軟件不僅有穩定的圖像處理和識別核心來降低錯誤率,而且人工校正的操作流程和功能影響著OCR的處理效率。因此,文字圖像與識別字符的比較,其屏幕信息的位置,每個識別字符的候選字符功能,拒絕識別字符的功能,以及可能有問題的文字都在文字後處理後特別標註。都是為了用戶盡量少用鍵盤而設計的。當然並不是說系統不顯示的文字就壹定正確,就像完全靠鍵盤輸入的五線譜也會出錯壹樣。這時候就完全看用戶的需求了。
結果輸出:
其實輸出是很簡單的事情,但是要看用戶用OCR做什麽。有的人只希望文本文件作為文本的壹部分被重用,所以只要壹般的文本文件,有的人希望和輸入文件壹模壹樣,所以有再現原文的功能,有的人註重表格中的文本,所以要結合Excel等軟件。無論如何變化,都只是輸出文件格式的變化。如果需要恢復成和原文壹樣的格式,識別後需要人工排版,費時費力。
第二,中文OCR
中文OCR和光學符號識別技術是壹種中文手稿的自動輸入方法。通過光學掃描儀和計算機的配合,用OCR軟件對圖像數據進行分類,轉換成計算機內碼,可以大大降低數據錄入的強度,提高數據錄入的速度。
文件材料的數字輸入壹般分為:
1,純圖像模式。
2、目錄文本,文本圖像模式。
3.全文模式。
4.全文索引方法。文本模式和圖像模式的混合。
我國對OCR技術的研究起步較晚。20世紀70年代,開始了對數字、英文字母和符號的識別研究。20世紀70年代末,開始了漢字識別的研究。到1986,漢字識別研究進入實質性階段,多家研究機構相繼推出中文OCR產品。
目前國內使用的主要文字OCR軟件有清華文同TH-OCR、北信BI-OCR、中咨ICR、沈陽自動化所SY-OCR、北京曙光公司NI-OCR(被中咨漢王收購)等,配套的掃描儀是市面上的平板掃描儀。
第三,衡量OCR標準
衡量壹個OCR系統性能的主要指標有:拒絕率、錯誤率、識別速度、用戶界面友好性、產品穩定性、易用性和可行性。
四、OCR的工作原理
識別過程:
圖書水平:中文、英文;簡體,繁體;
布局層次:縱橫;是否有列;
線分割
分詞
識別:真正的OCR識別過程,圖像信息還原為文本信息。
後期處理:人工幹預,主要集中在前四個階段。
識別準確率可以達到99%
五:OCR識別率取決於
1.畫質壹般建議150dpi以上。
2.顏色。壹般顏色識別差,黑白圖片高。因此,建議ocr為黑白tif格式。
3.最重要的是字體。如果是筆跡,識別率很低。
中國簡體OCR識別的錯誤率是萬分之三。如果需要更高的精度,就需要更多的人工幹預。繁體字識別困難是因為繁體字庫不壹致(民國時的字體庫和現在的繁體字庫不壹致)。人工幹預下,準確率可達90%以上(圖文清晰的情況下)。
OCR是壹種計算機輸入技術,通過模式識別將文本圖像文件轉化為可編輯的文本文件,徹底改變了計算機紙介質數據輸入的概念。只要用掃描儀把文本圖像輸入電腦,就可以轉換成可修改的文本文件,比手工輸入快幾十倍。隨著OCR技術的廣泛應用,它逐漸被人們所認識。國際軟件巨頭微軟在開發XP系統時,就意識到了OCR的市場需求,在發布的Office 2003中全面安裝了TH-OCR(由北京文同信息技術有限公司開發)。硬件領域的領導者英特爾公司也將TH-OCR確定為MMX技術支持項目。
最近壹些大公司意識到了OCR的好處,開始在產品中捆綁OCR技術。谷歌已經開始了OCR軟件的開發,在其招聘啟示錄中寫道:“谷歌目前“閱讀”了世界上幾乎每壹個網頁。來幫我們閱讀所有的印刷材料!”(Google現在幾乎可以“閱讀”世界上所有的網頁,妳的到來將使Google閱讀所有的印刷信息!)。隨著google啟動OCR開發,OCR應用進入全面爆發時代。
無論是讓計算機排版輸出文字,還是讓計算機認識它,看到文字,這些都是為了我們的生活。隨著信息化、數字化的進程,我們不再滿足於用十個手指敲數據。人們希望把自己的時間和精力投入到更有創造性的工作中,所以他們希望計算機和其他輔助設備更加智能化。OCR(光學字符識別)技術就是其中之壹。相對於印刷技術,它是計算機識別文字的技術,比印刷復雜得多。
經濟競爭帶來更多的商業活動,名片是每項活動中不可或缺的主角。名片管理產品也應運而生,名片識別管理工具也是以OCR技術為核心的產品。通過名片識別工具掃描、識別、分類名片,不僅可以導入手機、PDA等。,而且還能備份名片信息,不用擔心丟失。文同電子卡是壹款優秀的名片識別管理產品,OCR技術可以讓商務生活井然有序,節省更多時間。現在,幾乎所有的掃描儀和壹體機都配備了OCR軟件。例如,惠普、UNISCAN、愛普生、佳能和聯想等掃描儀制造商與文同TH-OCR捆綁銷售。