當前位置:成語大全網 - 古籍善本 - 如何處理掃描文本?

如何處理掃描文本?

文本的OCR識別是用戶使用掃描儀產品最常見的應用之壹。目前幾乎所有的掃描儀產品都自帶OCR識別軟件。但是我們發現,即使是同壹個OCR軟件,識別準確率也相差很大。事實上,OCR識別的正確率不僅與OCR軟件本身有關,還與正確的用法有關。根據筆者積累的經驗,OCR識別應該從以下幾個方面入手。以搭載中晶掃描儀的尚書六號OCR為例。

壹、掃描操作及註意點掃描儀在線在“掃描儀測試”可以找到中晶掃描儀的情況下,可以運行尚書六號的OCR軟件。然後點擊“掃描”按鈕。片刻後,掃描儀的控制窗口出現,在保證“黑白”300 dpi的情況下預覽圖像。以上步驟也可以通過中晶掃描儀上的“OCR快捷鍵”來實現。目前市面上大多數MICOTEK掃描儀都配有快捷鍵,方便用戶使用。

放大預覽並調整圖像的清晰度

為了達到最好的識別效果,掃描時對輸入稿件的最低要求是清晰度。為此,我們可以通過“放大預覽”對原稿中的幾個字符進行采樣掃描,從而更細致地調整圖像的亮度。調整工具是掃描儀工具中的“閾值”。

以下是不同閾值下的掃描結果。調整到合適的閾值後,您可以選擇“掃描”按鈕。掃描結果會傳送到OCR軟件,掃描儀的控制窗口會自動消失。

二、鑒定前的註意事項

以上事項完成後,我們要做的就是在OCR軟件中的實際操作。

註意文本的傾斜校正

因為OCR識別的原理是以字體的形式進行的,所以壹定要註意稿件是否橫放。在具體實現過程中,可以使用圖像傾斜校正按鈕來解決問題。

手稿識別的預處理

針對文檔中的欄目,建議您手動設置識別範圍,最好不要使用“自動分段”,這樣可以保證識別結果的壹致性。

采用適當的識別方法。

在具體的識別中,還要註意妳的稿件是橫的還是豎的,這樣才能選擇正確的格式按鈕,保持對應關系。

目前,尚書六號的OCR軟件為用戶提供了簡體、繁體、英文等不同的識別方式,其選擇是窗口上的下拉菜單,而不是按鈕菜單。簡體、繁體、英文按鈕是尚書六號在不同操作系統上的正確顯示方式,不要混淆。

確認以上步驟後,此時可以按“識別”按鈕。識別後,系統會進入“稿件校對界面”。

三、稿件校對

壹般來說,對於不能完全確定的文字,OCR會顯示藍色,請確認。但值得註意的是,在沒有提示錯誤的地方也可能出現錯誤,尤其是中文文本中的英文單詞。OCR壹般用中文識別它們,錯誤率幾乎是100%。所以我們在校對的時候,可以先通讀壹遍,提高文字校對的效果。

我們可以在這個界面中通過操作系統提供的文本輸入法添加妳需要的文本。

OCR提供了選擇外部編輯器的功能,我們可以選擇文字編輯器。

最後,建議您在WORD中對整篇稿件進行校對,重新整理,以達到使用OCR的最佳效果。