如今OCR文字識別的用途是越來越廣泛了,今天就來講壹講OCR之報紙出版物數字利器。
報紙及出版物數字利器
關鍵詞:OCR文字識別軟件中文識別日文識別韓文識別
產品介紹
該軟件能夠快速地將印刷的文檔轉化為可供閱讀和可編輯的高質量電子文檔,進而將電子文檔應用到各類數據庫、電子出版物、數字圖書館、網絡資源等新型資源的建設和再版圖書生產中,是行業數字信息化不可或缺的重要組成部分。
主要功能模塊
OCR文字識別軟件識別核心
OCR文字識別軟件內置文通公司最新研發的高性能文字識別引擎,中文識別率高。英文、日文、韓文的識別率居世界前列水平。
OCR文字識別軟件UNICODE編碼
OCR文字識別軟件采用UNICODE國際編碼標準。系統可在壹個統壹的平臺下,同時處理包括中文、日文、韓文、英文在內的多種文字的識別和校對修改。
OCR文字識別軟件XML技術
OCR文字識別軟件系統基於開放式的XML數據結構,可以對數據進行擴充和再定義。支持第三方開發廠商方便地進行文檔數據的轉換、遷移和再利用。
OCR文字識別軟件版面還原
OCR文字識別軟件強大的版面還原技術,可將識別後的報刊、雜誌、圖書等多種形式的文檔,通過還原字體、字號、版面位置、字體顏色等信息以原版原式呈現在讀者面前,最終生成優質的全息PDF文檔。
OCR文字識別軟件集字校對集字校對
集字校對是OCR文字識別軟件特有的文字校對技術,該技術打破了傳統校對工具圖像與識別結果文本比對顯示的模式,將多篇文檔中所有識別結果相同的字符圖像集中呈現在壹個視圖中,給校對人員強烈的視覺沖擊,讓錯字自動“跳”入校對人員的眼中,避免了校對人員因陷入文檔的上下文語境而產生視覺疲勞,引起的校對準確率下降。同時,由於常用漢字集中在3000-4000個左右,面對海量文字的校對時,不會因文字量的上升帶來相應的校對量的上升,仍只需校對這幾千個不同的漢字,明顯提高工作效率。
OCR文字識別軟件自學習軟件
OCR文字識別軟件針對古籍、科研等特殊領域文檔中經常出現的特殊文字,即使不在國家標準範圍以內或者TH-OCR字庫中並沒有支持,用戶也可通過自學習功能,將這些文字的圖像學習進入系統,使得調整後的核心可以支持這些文字的識別。
OCR文字識別軟件雙層PDF批量制作功能
OCR文字識別軟件可以實現圖像文件到PDF文件的自動轉換,生成的PDF文件能夠實現全文檢索,可以復制粘貼,也可以對某個指定目錄進行長期監視,真正實現無人操作。
典型應用
圖書館
中國國家圖書館清華大學圖書館上海交大圖書館天津南開大學圖書館
在數字圖書館領域擁有上百家用戶
電力行業
國電信息中心各省市電力設計院各省市電力科學院
在電力標準數字化項目中廣泛應用
出版社
商務印書館中華書局
在古籍識別技術領域得到了客戶的首肯
報社
大連日報社深圳特區報南方周末
在生產流程化管理系統已成為報業信息化的首選要素
政府機關
中央辦公廳國家安全部九局水利部國家質量技術監督局
網絡了最多的政府機關用戶