報紙和出版物的數字武器
關鍵詞:OCR文本識別軟件中文識別日文識別韓文識別
產品介紹
該軟件可以將印刷文檔快速轉換為可閱讀和編輯的高質量電子文檔,然後將電子文檔應用於各種數據庫、電子出版物、數字圖書館和網絡資源等新資源的建設和再版圖書的生產。是行業數字化信息化不可或缺的壹部分。
主要功能模塊
OCR文本識別軟件的識別核心
OCR文本識別軟件內置了文同公司新開發的高性能文本識別引擎,具有較高的中文識別率。英語、日語和韓語的識別率在世界上名列前茅。
OCR文本識別軟件的UNICODE編碼
OCR字符識別軟件采用UNICODE國際編碼標準。該系統可以在壹個統壹的平臺下同時處理包括中文、日文、韓文和英文在內的各種字符的識別、校對和修訂。
OCR字符識別軟件的XML技術
OCR字符識別軟件系統基於開放的XML數據結構,可以擴展和重新定義數據。支持第三方開發人員方便地轉換、遷移和重用文檔數據。
OCR文本識別軟件的版面恢復
OCR文本識別軟件強大的版面還原技術,可以通過還原字體、字號、版面位置、字體顏色等信息,將識別出的報紙、雜誌、書籍等文檔以原始形式呈現給讀者,最終生成高質量的全息PDF文檔。
OCR字符識別軟件設置單詞校對設置單詞校對
字符集校對是OCR文本識別軟件獨有的文本校對技術。該技術打破了傳統校對工具將圖像與識別結果進行比較的模式,將多個文檔中識別結果相同的所有字符圖像呈現在壹個視圖中,給校對人員以強烈的視覺沖擊,使錯別字自動跳入他們的眼中,避免了校對人員因陷入文檔上下文而導致的視覺疲勞,從而導致校對準確率下降。同時,由於常用漢字的數量在3000-4000個左右,當面對海量字符的校對時,校對量不會因字符量的增加而相應增加,只需校對這幾千個不同的漢字,這顯然提高了工作效率。
OCR字符識別軟件自學軟件
OCR文本識別軟件針對的是古籍、科研等特殊領域文檔中經常出現的特殊字符。即使它們不在國家標準範圍內或在TH-OCR字體中不被支持,用戶也可以通過自學習功能將這些字符的圖像學習到系統中,以便調整後的核心可以支持這些字符的識別。
OCR文本識別軟件雙層PDF批量生產功能
OCR文本識別軟件可以實現從圖像文件到PDF文件的自動轉換,生成的PDF文件可以實現全文檢索、復制粘貼,還可以長期監控指定目錄,真正實現無人化操作。
典型應用
圖書館
中國國家圖書館清華大學圖書館上海交通大學圖書館天津南開大學圖書館
數字圖書館領域有數以百計的用戶。
電力工業
國電信息中心、省市電力設計院、省市電科院。
廣泛應用於電力標準數字化項目。
壓
商務印書館中華書局
在古籍鑒定技術領域,得到了客戶的認可。
報社
大連日報社深圳特區報南方周末
在生產流程管理系統中,它已成為報紙信息化的首選元素。
政府機構
中央編辦、國家安全部、水利部九局、國家質量技術監督局
互聯網吸引了最多的政府用戶。