簡繁字符集:除了簡體字,還可以認識臺灣省5400多個繁體字,以及港繁體字和GBK漢字。
識別字體類型:可識別宋體、仿宋、楷、黑、渭北、隸書、圓、行等100多種字體,支持多種字體混合使用。
標識字號:起始號小於第六號字體。
表格識別:能自動判斷、拆分、識別、還原各種通用打印表格。
可以支持傳統的WINDOWS系統。
如何使用:
1.打開尚書七號,選擇打開圖像。(我能識別的格式是bmp,tif,jpg。)
2.選擇開始識別或按F8。識別結果將顯示在窗口的上部,布局分析結果將顯示在下部。紅線是可識別的部分,綠線是不可識別的部分。
3、選擇輸出-到指定的格式文件,將識別結果保存為所需的格式。
詳細操作
1.尚書七號的OCR軟件是中晶中經科技公司授權從漢王科技購買並呈現給用戶的軟件。軟件放在掃描儀的隨機驅動光盤中,用戶可以選擇安裝。
2.軟件安裝完成後,用戶要點擊桌面左下角的“開始”,找到“尚書中OCR號”軟件圖標,點擊。打開《尚書》7號OCR的用戶界面。
3.打開尚書7號OCR的“文件”菜單下的“選擇掃描儀”,選擇掃描儀對應的驅動程序“中晶SCANWIZARD 5”的選項。然後選擇確定。
4.選擇“文件”菜單下的“掃描”打開掃描儀驅動程序。下面的界面是掃描儀的“高級控制面板”。
5.用戶應註意在SCANWIZARD 5軟件左側的“設置”窗口中選擇“圖像類型”,請選擇“RGB顏色”或“灰度”類型,並註意掃描儀分辨率為300PPI。
6.當用戶完成“預覽”並設置要掃描的範圍時,他可以單擊“掃描”按鈕,掃描儀將開始掃描。將掃描好的文件直接轉移到尚書中OCR號的默認目錄下(存儲圖像文件的默認目錄是用戶電腦c盤下SHOCR2002目錄下的圖像目錄)。掃描後,請關閉掃描儀驅動程序掃描向導。5.用戶可以看到要掃描的文件已經傳到了尚書7號,默認文件名為HW001.JPG。
7.要求用戶在尚書7號軟件的“編輯”菜單下選擇“自動傾斜校正”,讓尚書7號軟件相應旋轉掃描圖像,以保證圖像中的字符是水平排列的,而不是傾斜的。因為文字過於傾斜,會影響尚書軟件的識別效果。
9.在布局分析之後,用戶可以看到相應的文本塊,並且所有相應的識別框都被選中。
10.此時請註意對應的標識框的屬性是否正確。標識框有“橫條”、“豎條”、“表格”、“圖像”四個屬性,分別用四個不同顏色的復選框表示。
11.驗證後,用戶可以使用“識別”菜單下的“開始識別”按鈕。獲得結果......
12.此時其實已經進入文字校對狀態。......
13.當用戶完成校對,或者在《尚書七號》中沒有校對,可以選擇“輸出”菜單下的“轉到指定格式文件”。
用戶可以看到識別結果可以選擇TXT、RTF、HTML、XLS等格式。默認輸出目錄是用戶電腦c盤下SHOCR2002目錄下的輸出目錄。用戶可以通過選擇相應的文件名來保存文件。為了方便,用戶可以選擇“輸出到外部編輯器”選項,這樣《尚書》的OCR號在保存時會自動調出相應的編輯軟件,比如保存TXT時可以自動調用記事本軟件,保存RTF時會自動調用WORD軟件,保存XLS時會自動調用EXCEL軟件。
簡單的OCR操作就完成了。
識別描述
掃描儀掃描的文本圖像不能針對單個字符進行編輯或修改。在教學中,我們需要使用文本識別軟件來識別文本圖像,並將圖像格式轉換成文本格式。常見的文字識別軟件有很多,主要功能基本相同,尚書七號就是其中之壹。利用尚書七號的主菜單:文件、編輯、識別、輸出,可以輕松完成對文本圖像的識別和轉換過程。
識別步驟
步驟1:獲取文本圖像文件。
選擇“文件”菜單下的“掃描”或“打開圖像”命令,打開掃描的圖像文件。如果連接了多個掃描儀,您可以選擇“文件”菜單下的“選擇掃描儀”命令來調用掃描儀。
第二步:調整掃描圖像頁面。
在“編輯”菜單下的“圖像頁面處理”子菜單中選擇“圖像頁面傾斜校正”(提供自動和手動實現方式)和“旋轉”等命令來調整掃描的圖像頁面。
步驟3:布局分析和文本識別轉換
版面分析,選擇識別範圍,選擇識別範圍後再進行文字識別。識別過程的核心是“布局分析”。尚書七號的自動版面分析功能非常強大,對於報紙雜誌等復雜版面也能保持較高的分析準確率。
設置完成後,可以直接點擊“開始識別”按鈕來識別字符。
第四步:校對和修改
自動識別後會彈出識別結果的“文本窗口”,可以提供識別結果的校對。為了方便校對,尚書七號增加了用光標顯示原圖像行的校對方法(如圖3黃色提示行所示)。
提供的校對方法可以壹眼看出原始圖像和識別文本的區別,如果識別錯誤可以修改。
第五步:輸出
尚書7
如果修改被確認,選擇識別結果的“輸出”菜單。輸出文件格式為RTF,HTML,XLS,2126。可以根據自己的需求選擇相應的格式。如果用戶希望得到與原文相似的識別結果,請選擇RTF格式。在WORD中打開RTF格式輸出文件後,妳會發現,幾乎所有的原文本痕跡,包括原頁面中的彩色圖像,在WORD中都被保留了下來。