簡繁字符集:除了簡體字外,妳還可以認識臺灣省的5400多個繁體字,以及香港繁體字和GBK漢字。
識別字體類型:可識別宋體、仿宋、楷、黑、魏碑、隸書、圓、行等100多種字體,支持多種字體混合使用。
識別字體大小:起始數字小於第六種字體。
表格識別:可自動判斷、拆分、識別和恢復各種通用打印表格。
可以支持傳統的WINDOWS系統。
如何使用:
1.打開尚書七號,選擇打開圖像。(我能識別的格式是bmp、tif和jpg。)
2.選擇開始識別或按F8。識別結果將顯示在窗口的上部,布局分析結果將顯示在下部。紅線是可識別部分,綠線是不可識別部分。
3、選擇輸出-到指定格式文件,將識別結果保存為所需格式。
詳細操作
1.尚書七號的OCR軟件是微視中晶科技公司授權從漢王科技購買並贈送給用戶的軟件。該軟件放在掃描儀的隨機驅動器光盤中,用戶可以選擇安裝它。
2.軟件安裝完成後,用戶應點擊桌面左下角的“開始”,找到“OCR No.7 in尚書”軟件圖標,並點擊。打開《尚書》中OCR No.7的用戶界面。
3.打開尚書7號OCR的“文件”菜單下的“選擇掃描儀”,選擇掃描儀對應的驅動程序“MICROTEK SCANWIZARD 5”的選項。並選擇確定。
4.選擇“文件”菜單下的“掃描”打開掃描儀驅動程序。下面的界面是掃描儀的“高級控制面板”。
5.用戶應註意在SCANWIZARD 5軟件的左側“設置”窗口中選擇“圖像類型”,請選擇“RGB顏色”或“灰度”類型,並註意掃描儀分辨率為300PPI。
6.當用戶完成“預覽”並設置要掃描的範圍時,他可以單擊“掃描”按鈕,掃描儀將開始掃描。將掃描後的文件直接傳輸到尚書中OCR No.7的默認目錄中(存儲圖像文件的默認目錄是用戶計算機c盤下SHOCR2002目錄下的圖像目錄)。掃描後,請關閉掃描儀驅動程序掃描向導。5.用戶可以看到要掃描的文件已經傳到了尚書七號,默認文件名為HW001.JPG。
7.請用戶在尚書七號軟件中的“編輯”菜單下選擇“自動傾斜校正”,並讓尚書七號軟件相應地旋轉掃描圖像,以確保圖像中的字符水平排列,而不是傾斜。由於文字過於傾斜,會影響尚書軟件的識別效果。
9.在布局分析之後,用戶可以看到相應的文本塊,並且所有相應的標識框都被選中。
10.此時請註意對應標識框的屬性是否正確。標識框有四個屬性,如“水平欄”、“垂直欄”、“表格”和“圖像”,它們由四個不同顏色的復選框表示。
11.驗證通過後,用戶可以使用“識別”菜單下的“開始識別”按鈕。獲得結果......
12.此時實際上已經進入文本校對狀態。......
13.當用戶完成校對,或者在《尚書七號》中沒有校對時,用戶可以在“輸出”菜單下選擇“轉到指定格式文件”。
用戶可以看到識別結果可以選擇TXT、RTF、HTML、XLS等格式。默認輸出目錄是用戶計算機c盤下SHOCR2002目錄下的輸出目錄。用戶可以通過選擇相應的文件名來保存文件。為了方便起見,用戶可以選擇“輸出到外部編輯器”選項,這樣《尚書》7號OCR在保存時會自動調用相應的編輯軟件,例如保存TXT時會自動調用記事本軟件,保存RTF時會自動調用WORD軟件,保存XLS時會自動調用EXCEL軟件。
簡單的OCR操作就完成了。
識別描述
掃描儀掃描的文本圖像不能針對單個字符進行編輯或修改。在教學中,我們需要使用文本識別軟件來識別文本圖像並將圖像格式轉換為文本格式。常見的主要功能基本相同的文字識別軟件有很多,《尚書七號》就是其中之壹。使用“尚書7號”的主菜單:文件、編輯、識別和輸出可以輕松完成文本圖像識別和轉換過程。
識別步驟
步驟1:獲取文本圖像文件。
選擇“文件”菜單下的“掃描”或“打開圖像”命令打開掃描的圖像文件。如果連接了多個掃描儀,您可以選擇“文件”菜單下的“選擇掃描儀”命令來調用掃描儀。
步驟2:調整掃描的圖像頁面。
在“編輯”菜單下的“圖像頁面處理”子菜單中選擇“圖像頁面傾斜校正”(提供自動和手動實現方法)和“旋轉”等命令來調整掃描的圖像頁面。
步驟3:布局分析和文本識別轉換
布局分析,選擇識別範圍,選擇識別範圍後再進行文字識別。識別過程的核心是“布局分析”。《尚書七號》的自動版面分析功能非常強大,對於報刊雜誌等復雜版面也能保持較高的分析準確率。
設置完成後,可以直接點擊“開始識別”按鈕來識別字符。
第四步:校對和修改
自動識別後會彈出識別結果的“文本窗口”,可以提供識別結果的校對。為方便校對,《尚書七號》增加了用光標顯示原圖像行的校對方法(如圖3黃色提示行所示)。
提供的校對方法可以壹眼看出原始圖像和識別文本之間的差異,如果識別錯誤,可以進行修改。
第五步:輸出
尚書7號
如果確認修改,選擇識別結果的“輸出”菜單。輸出文件格式為RTF、HTML、XLS、2126。大家可以根據自己的需求選擇相應的格式。如果用戶希望獲得與原文相似的識別結果,請選擇RTF格式。在WORD中打開RTF格式輸出文件後,您會發現幾乎所有原始文本的痕跡,包括原始頁面中的彩色圖像,都在WORD中得到了保留。