ocr的發展積累了很多。大多數人或企業直接使用第三方服務。目前,有許多大型企業提供第三方服務。百度、阿裏雲、騰訊等都提供了非常方便的api接口,可以調用,識別的速度、準確率、效果也都非常好。唯壹的缺點就是api調用需要收費,對於調用頻率不高的個人和企業來說還是很低的。
目前因為公司現狀,使用開源有幾個目的。
目前還有很多與ocr相關的開源項目。作者恰好是壹家需要類似功能的公司,所以做了壹些簡單的調研,記錄在這裏。
我希望妳能指出這項調查不準確。
Tesseract是Google開發的開源圖像和文本識別引擎,由python開發。
因此,鑒於公司的現狀,我放棄了這個項目的學習和考察。
Paddleocr是百度開源的中文識別ocr軟件。
EasyOCR是用Python編寫的OCR庫,用於識別圖像中的字符並輸出為文本,支持80多種語言。
中文ocr
中文ocr_lite
TrWebOCR
cnocr
鑒於以上的比較和討論,同時根據目前的公司情況和之前制定的壹些目標,暫時選擇最簡單的cnocr進行學習和內部學習使用。同時鑒於cnocr只是壹個python包,不能通過接口調用,所以做了壹個補充項目hn_ocr。
目前放在github上,歡迎大家壹起學習提高。