當前位置:成語大全網 - 書法字典 - 妳用過tesseract OCR字符識別嗎?為什麽識別率這麽低?

妳用過tesseract OCR字符識別嗎?為什麽識別率這麽低?

識別率低是因為tesseract要適配各種字體和分辨率,導致識別率低的尷尬局面。

如果妳想有高識別率,妳可以使用abbyy finereader,這是壹種ocr(光學識別)軟件。常見的功能有:掃描轉Word、將PDF圖像和圖片轉換為Word文檔或編輯可搜索的PDF文檔,還支持將PDF圖像轉換為Excel文檔。

OCR識別肯定會有錯誤,所以在識別轉換完成後,記得檢查原文。如果設置了語言類型,識別率越少,識別率越高。也就是說,如果文件只有中文,那麽設置壹種中文而不是其他語言,這樣識別速度也會有所提高。