當前位置:成語大全網 - 古籍修復 - 掃描儀可以使用什麽軟件將打印文本自動識別為可編輯文本?

掃描儀可以使用什麽軟件將打印文本自動識別為可編輯文本?

掃描儀可以在尚書七號的幫助下完成編輯,尚書七號是專門為識別字符開發的軟件。尚書七號是應用OCR技術,為滿足書報雜誌輸入需求,提供票據、公文、檔案,實現系統管理模式而設計的軟件系統。尚書七號的OCR軟件適用於個人、小型圖書館、小型檔案館、小型企業進行大規模文檔輸入、圖書重印、大量資料數字化。

簡繁字符集:除了簡體字,還可以認識臺灣省5400多個繁體字,以及港繁體字和GBK漢字。

識別字體類型:可識別宋體、仿宋、楷、黑、渭北、隸書、圓、行等100多種字體,支持多種字體混合使用。

標識字號:起始號小於第六號字體。

表格識別:能自動判斷、拆分、識別、還原各種通用打印表格。

可以支持傳統的WINDOWS系統。

如何使用:

1.打開尚書七號,選擇打開圖像。(我能識別的格式是bmp,tif,jpg。)

2.選擇開始識別或按F8。識別結果將顯示在窗口的上部,布局分析結果將顯示在下部。紅線是可識別的部分,綠線是不可識別的部分。

3、選擇輸出-到指定的格式文件,將識別結果保存為所需的格式。

詳細操作

1.尚書七號的OCR軟件是中晶中經科技公司授權從漢王科技購買並呈現給用戶的軟件。軟件放在掃描儀的隨機驅動光盤中,用戶可以選擇安裝。

2.軟件安裝完成後,用戶要點擊桌面左下角的“開始”,找到“尚書中OCR號”軟件圖標,點擊。打開《尚書》7號OCR的用戶界面。

3.打開尚書7號OCR的“文件”菜單下的“選擇掃描儀”,選擇掃描儀對應的驅動程序“中晶SCANWIZARD 5”的選項。然後選擇確定。

4.選擇“文件”菜單下的“掃描”打開掃描儀驅動程序。下面的界面是掃描儀的“高級控制面板”。

5.用戶應註意在SCANWIZARD 5軟件左側的“設置”窗口中選擇“圖像類型”,請選擇“RGB顏色”或“灰度”類型,並註意掃描儀分辨率為300PPI。

6.當用戶完成“預覽”並設置要掃描的範圍時,他可以單擊“掃描”按鈕,掃描儀將開始掃描。將掃描好的文件直接轉移到尚書中OCR號的默認目錄下(存儲圖像文件的默認目錄是用戶電腦c盤下SHOCR2002目錄下的圖像目錄)。掃描後,請關閉掃描儀驅動程序掃描向導。5.用戶可以看到要掃描的文件已經傳到了尚書7號,默認文件名為HW001.JPG。

7.要求用戶在尚書7號軟件的“編輯”菜單下選擇“自動傾斜校正”,讓尚書7號軟件相應旋轉掃描圖像,以保證圖像中的字符是水平排列的,而不是傾斜的。因為文字過於傾斜,會影響尚書軟件的識別效果。

9.在布局分析之後,用戶可以看到相應的文本塊,並且所有相應的識別框都被選中。

10.此時請註意對應的標識框的屬性是否正確。標識框有“橫條”、“豎條”、“表格”、“圖像”四個屬性,分別用四個不同顏色的復選框表示。

11.驗證後,用戶可以使用“識別”菜單下的“開始識別”按鈕。獲得結果......

12.此時其實已經進入文字校對狀態。......

13.當用戶完成校對,或者在《尚書七號》中沒有校對,可以選擇“輸出”菜單下的“轉到指定格式文件”。

用戶可以看到識別結果可以選擇TXT、RTF、HTML、XLS等格式。默認輸出目錄是用戶電腦c盤下SHOCR2002目錄下的輸出目錄。用戶可以通過選擇相應的文件名來保存文件。為了方便,用戶可以選擇“輸出到外部編輯器”選項,這樣《尚書》的OCR號在保存時會自動調出相應的編輯軟件,比如保存TXT時可以自動調用記事本軟件,保存RTF時會自動調用WORD軟件,保存XLS時會自動調用EXCEL軟件。

簡單的OCR操作就完成了。

識別描述

掃描儀掃描的文本圖像不能針對單個字符進行編輯或修改。在教學中,我們需要使用文本識別軟件來識別文本圖像,並將圖像格式轉換成文本格式。常見的文字識別軟件有很多,主要功能基本相同,尚書七號就是其中之壹。利用尚書七號的主菜單:文件、編輯、識別、輸出,可以輕松完成對文本圖像的識別和轉換過程。

識別步驟

步驟1:獲取文本圖像文件。

選擇“文件”菜單下的“掃描”或“打開圖像”命令,打開掃描的圖像文件。如果連接了多個掃描儀,您可以選擇“文件”菜單下的“選擇掃描儀”命令來調用掃描儀。

第二步:調整掃描圖像頁面。

在“編輯”菜單下的“圖像頁面處理”子菜單中選擇“圖像頁面傾斜校正”(提供自動和手動實現方式)和“旋轉”等命令來調整掃描的圖像頁面。

步驟3:布局分析和文本識別轉換

版面分析,選擇識別範圍,選擇識別範圍後再進行文字識別。識別過程的核心是“布局分析”。尚書七號的自動版面分析功能非常強大,對於報紙雜誌等復雜版面也能保持較高的分析準確率。

設置完成後,可以直接點擊“開始識別”按鈕來識別字符。

第四步:校對和修改

自動識別後會彈出識別結果的“文本窗口”,可以提供識別結果的校對。為了方便校對,尚書七號增加了用光標顯示原圖像行的校對方法(如圖3黃色提示行所示)。

提供的校對方法可以壹眼看出原始圖像和識別文本的區別,如果識別錯誤可以修改。

第五步:輸出

尚書7

如果修改被確認,選擇識別結果的“輸出”菜單。輸出文件格式為RTF,HTML,XLS,2126。可以根據自己的需求選擇相應的格式。如果用戶希望得到與原文相似的識別結果,請選擇RTF格式。在WORD中打開RTF格式輸出文件後,妳會發現,幾乎所有的原文本痕跡,包括原頁面中的彩色圖像,在WORD中都被保留了下來。