OCR的中文意思是什麽？

OCR是英文Optical Character Recognition(光學字符識別)的縮寫，是指電子設備(如掃描儀或數碼相機)檢查印在紙上的字符，通過檢測明暗圖案確定其形狀，然後通過字符識別將形狀翻譯成計算機字符的過程。即掃描文本數據，然後分析圖像文件以獲得文本和布局信息的過程。OCR發展簡述OCR的概念最早是由德國科學家Tausheck在1929年提出的，後來美國科學家Handel也提出了用技術來識別字符的思想。IBM的Casey和Nagy最早研究印刷體漢字的識別。1966年，他們發表了第壹篇關於漢字識別的文章，用模板匹配的方法識別了1000個印刷體漢字。20世紀70年代初，日本學者開始研究漢字識別，並做了大量工作。我國對漢字識別的研究起步較晚，對OCR的研究始於20世紀70年代末。早期的OCR軟件由於識別率、產品化等諸多因素，無法滿足實際需求。同時，由於硬件設備成本高，運行速度慢，還沒有達到實用化水平。只有少數部門如信息部和新聞出版單位使用OCR軟件。1986之後，我國的OCR研究取得了很大進展，在漢字建模和識別方法上有所創新，在系統開發和應用方面取得了豐碩的成果。許多單位相繼推出中文OCR產品。20世紀90年代以來，隨著我國平臺掃描儀的廣泛應用和信息自動化、辦公自動化的普及，OCR技術得到了極大的推動，OCR的識別精度和速度已經滿足了用戶的要求。目前流行的OCR軟件有很多，其中英文OCR主要有OmniPage，中文OCR主要有清華紫光OCR、清華文同OCR、漢王OCR、中經尚書OCR、丹青OCR、萌天OCR。盡管漢字數量龐大，字形復雜，但OCR技術已經成熟。許多OCR軟件不僅可以識別黑白印刷的漢字，還可以識別灰度和彩色印刷的漢字。識別速度非常快，識別準確率達到99%以上。能識別宋、黑體、楷體等各種字體的簡潔性和傳統性；能識別多種字體和不同字號的混合排列；壹些OCR軟件也可以識別圖像和表格。與此同時，手寫漢字識別的研究也取得了很大的進展，正確識別率達到了70%以上。OCR軟件的應用在掃描儀市場上，很多類型的辦公和家用掃描儀都配備了OCR軟件，比如紫光掃描儀配備紫光OCR，中經掃描儀配備尚書OCR，Mustek掃描儀配備丹青OCR等等。掃描儀和OCR軟件* * *承擔了從稿件輸入到字符識別的全過程。文稿掃描常用於辦公領域，即通過掃描儀對報紙、雜誌等媒體上發表的相關文稿進行掃描，然後進行OCR識別，或者將其存儲為圖像文件，再將圖像文件轉換為文本文件或Word文件進行存儲。此外，數字信息的存儲和傳輸不僅成本低、效率高，還能滿足排版、網絡傳輸等不斷發展的需要。目前，我國有許多歷史遺留下來的書籍、報紙、雜誌等紙質寶藏，急需轉換成電子信息。例如，電子圖書館的建立需要對圖書進行逐頁掃描，OCR軟件的識別將取代人工打字工作，大大縮短了輸入時間，降低了勞動強度，節省了人力，降低了成本，提高了輸入精度、工作效率和現代辦公自動化程度。目前，OCR軟件和掃描儀的結合已經應用到信息時代的很多領域，如數字圖書館、各種報表的識別、銀行和稅務系統的票據識別等。隨著網絡化和信息化的發展和普及，其應用範圍會越來越廣泛。OCR系統的組成漢字識別軟件OCR的功能是通過計算機識別各種輸入漢字、印刷體字符或手寫體字符中每個漢字的圖形或圖像，並標註漢字類別代碼。所以漢字識別歸根結底是壹個圖像識別問題。由於漢字信息量大，字形字體各異，結構復雜，漢字識別的過程極其復雜。由於掃描儀的普及和廣泛應用，OCR軟件只需要提供壹個與掃描儀的接口，使用掃描儀驅動軟件。因此，OCR軟件主要由四部分組成:圖像處理模塊、版面分割模塊、文本識別模塊和文本編輯模塊。1、圖像處理模塊圖像處理模塊主要有文檔掃描、圖像縮放、圖像旋轉等功能。原稿經掃描儀輸入後，形成圖像文件，圖像處理模塊可以將圖像放大，去除汙漬和劃痕。如果圖像放置不正確，可以手動或自動旋轉圖像，以便為字符識別創造更好的條件，使識別率更高。2.版面劃分模塊版面劃分模塊主要包括版面劃分和變化劃分，即理解版面、分詞、規範化等。您可以選擇自動或手動布局分割方法。目的是告訴OCR軟件分離文章、表格等。以便可以分別處理它們並按什麽順序進行識別。3.字符識別模塊字符識別模塊是OCR軟件的核心部分。字符識別模塊主要是“讀取”輸入的漢字，但不能多行，必須逐行切分。對於漢字，通常是逐字識別，也就是單詞識別，然後歸壹化。字符識別模塊通過提取漢字不同樣本的特征來完成識別，自動發現可疑詞，並具有前後聯想功能。4.文本編輯模塊文本編輯模塊主要對OCR識別的文本進行修改和編輯。如果系統識別出有錯誤，文本將以醒目的紅色或藍色顯示，並提供類似文本供選擇，選擇壹個編輯器輸出。如何使用OCR軟件雖然OCR軟件種類繁多，但使用方法都大同小異。首先要掃描原稿，然後進行OCR識別。OCR軟件的用法如下:1。文檔掃描為了使用OCR軟件進行文本識別，您可以直接在OCR軟件中掃描文檔。運行OCR軟件後，會出現OCR軟件界面。將待掃描的原稿放在掃描儀的玻璃面上，待掃描的壹面朝向掃描儀的玻璃面，原稿的上端朝下並與尺子的邊緣對齊，然後蓋上掃描儀準備掃描。點擊窗口中的“掃描”按鈕，進入掃描驅動軟件進行掃描，掃描方式在此不再贅述。但需要註意的是，分辨率可以設置在200 ~ 400 dpi，對於文本文檔，適當調整亮度非常重要。掃描的文檔圖像出現在OCR軟件窗口中。2、OCR識別為了方便操作，可以從菜單中選擇選項，窗口左側出現各種圖標。為了更好的利用它，首先從上到下介紹屏幕左側的圖標:“放大”工具:用於放大圖像；“縮小”工具:用於縮小圖像；“設置識別區域”工具:用於設置識別區域；“設置識別順序”工具:用於設置識別順序；“刪除標識區”工具:用於刪除標識區；“擦除圖像噪聲”工具:用於擦除圖像中的噪聲；“擦除圖像塊”工具:用於擦除圖像中的某個區域；“旋轉圖像”工具:用於將圖像旋轉90、180或270；“傾斜校正”工具:用於手動圖像傾斜校正。OCR識別的壹般步驟:(1)原稿掃描後，剛出現在窗口的待識別文字的圖片很小。首先選擇“放大”工具適當放大圖片，讓圖片看得更清楚。如有必要，您還可以選擇“縮小”工具來適當縮小圖片。(2)如果圖片需要旋轉90°、180°或270°，可以使用“旋轉圖像”工具旋轉圖像。如果文字圖片傾斜，可以選擇“傾斜校正”工具來調整圖片。(3)識別時，選擇“設置識別區域”工具，在文本屏幕上框出要識別的區域。這時候也可以根據畫面情況框出多個區域。如果方框區域有誤，可以使用“刪除識別區域”工具刪除選中的識別區域。(4)為了提高識別率，如果選擇的識別區域有噪聲或者圖像無法識別，可以選擇“擦除圖像噪聲”工具，壹點壹點地擦除噪聲。如果需要分片擦除，可以選擇“擦除圖像塊”工具。(5)點擊“識別”圖標，OCR顯示正在分割文本，然後轉到“識別”畫面，識別出的文本將逐漸顯示，並顯示“稿件校對”窗口。很多OCR軟件都有文字修改功能，對可能錯誤的字符進行識別，用鮮艷的顏色顯示，並且可以修改。(6)將識別的文件存儲為Word的文本(TXT)文件或RTF文件。