OCR(光學字符識別)是指電子設備(如掃描儀或數碼相機)檢查印在紙上的字符,通過檢測明暗圖案確定其形狀,然後通過字符識別將形狀翻譯成計算機字符的過程。
對於印刷字符,將紙質文檔中的文字光學轉換成黑白點陣圖像文件,圖像中的文字通過識別軟件轉換成文本格式,供文字處理軟件進壹步編輯處理。
擴展數據:
在日常工作生活中,對於字符識別的需求還是很多的。圖書館裏有大量珍貴的史料,企業發展過程中需要保存和登記很多珍貴的資料,翻譯公司也需要文字識別技術。
更重要的是,這些資料不僅需要保存,還需要在必要時檢索。ocr字符識別技術可用於隨時調用和檢索材料。文字識別可以減少對史料的破壞,提高材料的利用率。
OCR文本識別支持讀取PDF、BMP、JPG和PNG等各種格式的圖像,並支持多種外語的識別。OCR識別可以解決歷史數據保存、圖書館檢索、辦公OA等問題。
百度百科-OCR