當前位置:成語大全網 - 古籍善本 - OCR開源項目的比較總結

OCR開源項目的比較總結

光學字符識別(OCR)是指對文字材料的圖像文件進行分析和識別,以獲取文字和版面信息的過程。即圖像中的文本被識別並以文本的形式返回。

ocr的發展積累了很多。大多數人或企業直接使用第三方服務。目前,有許多大型企業提供第三方服務。百度、阿裏雲、騰訊等都提供了非常方便的api接口,可以調用,識別的速度、準確率、效果也都非常好。唯壹的缺點就是api調用需要收費,對於調用頻率不高的個人和企業來說還是很低的。

目前因為公司現狀,使用開源有幾個目的。

目前還有很多與ocr相關的開源項目。作者恰好是壹家需要類似功能的公司,所以做了壹些簡單的調研,記錄在這裏。

我希望妳能指出這項調查不準確。

Tesseract是Google開發的開源圖像和文本識別引擎,由python開發。

因此,鑒於公司的現狀,我放棄了這個項目的學習和考察。

Paddleocr是百度開源的中文識別ocr軟件。

EasyOCR是用Python編寫的OCR庫,用於識別圖像中的字符並輸出為文本,支持80多種語言。

中文ocr

中文ocr_lite

TrWebOCR

cnocr

鑒於以上的比較和討論,同時根據目前的公司情況和之前制定的壹些目標,暫時選擇最簡單的cnocr進行學習和內部學習使用。同時鑒於cnocr只是壹個python包,不能通過接口調用,所以做了壹個補充項目hn_ocr。

目前放在github上,歡迎大家壹起學習提高。