OCR的中文意思是什麽?
OCR是英文Optical Character Recognition(光學字符識別)的縮寫,是指電子設備(如掃描儀或數碼相機)檢查印在紙上的字符,通過檢測明暗圖案確定其形狀,然後通過字符識別將形狀翻譯成計算機字符的過程。即掃描文本數據,然後分析圖像文件以獲得文本和布局信息的過程。OCR發展簡述OCR的概念最早是由德國科學家Tausheck在1929年提出的,後來美國科學家Handel也提出了用技術來識別字符的思想。IBM的Casey和Nagy最早研究印刷體漢字的識別。1966年,他們發表了第壹篇關於漢字識別的文章,用模板匹配的方法識別了1000個印刷體漢字。20世紀70年代初,日本學者開始研究漢字識別,並做了大量工作。我國對漢字識別的研究起步較晚,對OCR的研究始於20世紀70年代末。早期的OCR軟件由於識別率、產品化等諸多因素,無法滿足實際需求。同時,由於硬件設備成本高,運行速度慢,還沒有達到實用化水平。只有少數部門如信息部和新聞出版單位使用OCR軟件。1986之後,我國的OCR研究取得了很大進展,在漢字建模和識別方法上有所創新,在系統開發和應用方面取得了豐碩的成果。許多單位相繼推出中文OCR產品。20世紀90年代以來,隨著我國平臺掃描儀的廣泛應用和信息自動化、辦公自動化的普及,OCR技術得到了極大的推動,OCR的識別精度和速度已經滿足了用戶的要求。目前流行的OCR軟件有很多,其中英文OCR主要有OmniPage,中文OCR主要有清華紫光OCR、清華文同OCR、漢王OCR、中經尚書OCR、丹青OCR、萌天OCR。盡管漢字數量龐大,字形復雜,但OCR技術已經成熟。許多OCR軟件不僅可以識別黑白印刷的漢字,還可以識別灰度和彩色印刷的漢字。識別速度非常快,識別準確率達到99%以上。能識別宋、黑體、楷體等各種字體的簡潔性和傳統性;能識別多種字體和不同字號的混合排列;壹些OCR軟件也可以識別圖像和表格。與此同時,手寫漢字識別的研究也取得了很大的進展,正確識別率達到了70%以上。OCR軟件的應用在掃描儀市場上,很多類型的辦公和家用掃描儀都配備了OCR軟件,比如紫光掃描儀配備紫光OCR,中經掃描儀配備尚書OCR,Mustek掃描儀配備丹青OCR等等。掃描儀和OCR軟件* * *承擔了從稿件輸入到字符識別的全過程。文稿掃描常用於辦公領域,即通過掃描儀對報紙、雜誌等媒體上發表的相關文稿進行掃描,然後進行OCR識別,或者將其存儲為圖像文件,再將圖像文件轉換為文本文件或Word文件進行存儲。此外,數字信息的存儲和傳輸不僅成本低、效率高,還能滿足排版、網絡傳輸等不斷發展的需要。目前,我國有許多歷史遺留下來的書籍、報紙、雜誌等紙質寶藏,急需轉換成電子信息。例如,電子圖書館的建立需要對圖書進行逐頁掃描,OCR軟件的識別將取代人工打字工作,大大縮短了輸入時間,降低了勞動強度,節省了人力,降低了成本,提高了輸入精度、工作效率和現代辦公自動化程度。目前,OCR軟件和掃描儀的結合已經應用到信息時代的很多領域,如數字圖書館、各種報表的識別、銀行和稅務系統的票據識別等。隨著網絡化和信息化的發展和普及,其應用範圍會越來越廣泛。OCR系統的組成漢字識別軟件OCR的功能是通過計算機識別各種輸入漢字、印刷體字符或手寫體字符中每個漢字的圖形或圖像,並標註漢字類別代碼。所以漢字識別歸根結底是壹個圖像識別問題。由於漢字信息量大,字形字體各異,結構復雜,漢字識別的過程極其復雜。由於掃描儀的普及和廣泛應用,OCR軟件只需要提供壹個與掃描儀的接口,使用掃描儀驅動軟件。因此,OCR軟件主要由四部分組成:圖像處理模塊、版面分割模塊、文本識別模塊和文本編輯模塊。1、圖像處理模塊圖像處理模塊主要有文檔掃描、圖像縮放、圖像旋轉等功能。原稿經掃描儀輸入後,形成圖像文件,圖像處理模塊可以將圖像放大,去除汙漬和劃痕。如果圖像放置不正確,可以手動或自動旋轉圖像,以便為字符識別創造更好的條件,使識別率更高。2.版面劃分模塊版面劃分模塊主要包括版面劃分和變化劃分,即理解版面、分詞、規範化等。您可以選擇自動或手動布局分割方法。目的是告訴OCR軟件分離文章、表格等。以便可以分別處理它們並按什麽順序進行識別。3.字符識別模塊字符識別模塊是OCR軟件的核心部分。字符識別模塊主要是“讀取”輸入的漢字,但不能多行,必須逐行切分。對於漢字,通常是逐字識別,也就是單詞識別,然後歸壹化。字符識別模塊通過提取漢字不同樣本的特征來完成識別,自動發現可疑詞,並具有前後聯想功能。4.文本編輯模塊文本編輯模塊主要對OCR識別的文本進行修改和編輯。如果系統識別出有錯誤,文本將以醒目的紅色或藍色顯示,並提供類似文本供選擇,選擇壹個編輯器輸出。如何使用OCR軟件雖然OCR軟件種類繁多,但使用方法都大同小異。首先要掃描原稿,然後進行OCR識別。OCR軟件的用法如下:1。文檔掃描為了使用OCR軟件進行文本識別,您可以直接在OCR軟件中掃描文檔。運行OCR軟件後,會出現OCR軟件界面。將待掃描的原稿放在掃描儀的玻璃面上,待掃描的壹面朝向掃描儀的玻璃面,原稿的上端朝下並與尺子的邊緣對齊,然後蓋上掃描儀準備掃描。點擊窗口中的“掃描”按鈕,進入掃描驅動軟件進行掃描,掃描方式在此不再贅述。但需要註意的是,分辨率可以設置在200 ~ 400 dpi,對於文本文檔,適當調整亮度非常重要。掃描的文檔圖像出現在OCR軟件窗口中。2、OCR識別為了方便操作,可以從菜單中選擇選項,窗口左側出現各種圖標。為了更好的利用它,首先從上到下介紹屏幕左側的圖標:“放大”工具:用於放大圖像;“縮小”工具:用於縮小圖像;“設置識別區域”工具:用於設置識別區域;“設置識別順序”工具:用於設置識別順序;“刪除標識區”工具:用於刪除標識區;“擦除圖像噪聲”工具:用於擦除圖像中的噪聲;“擦除圖像塊”工具:用於擦除圖像中的某個區域;“旋轉圖像”工具:用於將圖像旋轉90、180或270;“傾斜校正”工具:用於手動圖像傾斜校正。OCR識別的壹般步驟:(1)原稿掃描後,剛出現在窗口的待識別文字的圖片很小。首先選擇“放大”工具適當放大圖片,讓圖片看得更清楚。如有必要,您還可以選擇“縮小”工具來適當縮小圖片。(2)如果圖片需要旋轉90°、180°或270°,可以使用“旋轉圖像”工具旋轉圖像。如果文字圖片傾斜,可以選擇“傾斜校正”工具來調整圖片。(3)識別時,選擇“設置識別區域”工具,在文本屏幕上框出要識別的區域。這時候也可以根據畫面情況框出多個區域。如果方框區域有誤,可以使用“刪除識別區域”工具刪除選中的識別區域。(4)為了提高識別率,如果選擇的識別區域有噪聲或者圖像無法識別,可以選擇“擦除圖像噪聲”工具,壹點壹點地擦除噪聲。如果需要分片擦除,可以選擇“擦除圖像塊”工具。(5)點擊“識別”圖標,OCR顯示正在分割文本,然後轉到“識別”畫面,識別出的文本將逐漸顯示,並顯示“稿件校對”窗口。很多OCR軟件都有文字修改功能,對可能錯誤的字符進行識別,用鮮艷的顏色顯示,並且可以修改。(6)將識別的文件存儲為Word的文本(TXT)文件或RTF文件。