當前位置:成語大全網 - 古籍修復 - 請教大神。如何能把pdf上的德語準確復制,因為我復制某些有兩點的單詞時會變成? 跪求解決方案。

請教大神。如何能把pdf上的德語準確復制,因為我復制某些有兩點的單詞時會變成? 跪求解決方案。

請試用ABBYY finereader軟件進行識別。

目前最新的版本是ABBYY finereader 12 professional 版,可以識別 100多種語言,還有部分計算機語言。有利器在手,我們當然要把它的強大功能盡可能地發揮出來,這裏我就講壹下如何正確使用ABBYY finereader 將PDF 文件轉換成可編輯的格式。 工具/原料 ABBYY finereader 11 professional 步驟/方法 首先我們要做的就是打開壹個需要轉換的 PDF 文件,然後看壹下這個文件裏面有幾種語言,是不是有表格、圖片等 然後運行ABBYY finereader 11,點擊歡迎界面“文檔語言”下拉選擇中的更多語言,彈出“語言編輯器”界面,我們設置好PDF 文件中所包含的幾種語言。 因為文件文件中有 C++語言的內容,而 ABBYY finereader 中正好也有 C++的選擇,那麽我們就毫不猶豫的打上勾。設置完畢,點擊右下角的“確定”按鍵。 回到任務界面,我們是想把PDF 轉成可編輯的word 文件,所以我們點擊中間的“文件(PDF/ 圖片)到Microsoft Word”壹項 彈出文件選擇窗口,選擇需要轉換的PDF 文件,註意打開窗口的左下角那幾個選項,默認都是打勾的,如果不需要的話可以去掉勾,然後點擊“打開”按鍵。 ABBYY finereader 開始加載文件,並且自動 OCR 識別處理。如果頁數比較多的話,可能需要花費壹些時間,需要耐心等待壹下。 由於自動識別會有壹些錯誤,那麽我就可以用手動工具進行修正。我們可以選擇不同的工具來修正,比如表格被識別成了普通文字,中間沒有線框了,那麽我們選擇“表格”工具,然後把文件中的表格的區域選出來,然後右鍵“讀取區域”就能夠手動識別成表格了。還有如果帶有文字的圖片被自動識別成了文字了,那麽我們可以選擇圖片工具選出頁面中的圖片區域,然後在妳識別本頁面其他部分文字的時候,這個區域就會被識別成圖片了。 “編輯圖像”按鍵是用來預處理掃描頁圖片的,因為掃描頁有時候會有傾斜、對比度不好、變形等問題,那麽先對圖像修正壹下可以大幅度提高識別的準確率,調整完以後點擊右上角的“退出圖像編輯器”按鍵就可以回到上壹界面。 識別完畢以後,選擇菜單來的“文件”---“將文檔另存為”---“Microsoft Word 文檔”(如果妳需要保存為其他格式妳可以自己選擇)。 彈出保存對話框,選擇保存路徑,如果需要保存完就打開文件的話,記得勾選下面的“保存後打開文檔”選項,如果電腦配置不高的話不建議勾選此項,因為ABBYY finereader 本身比較耗內存,然後再打開word 的話電腦可能會比較卡。保存完文件,轉換過程就基本結束了。 我們打開保存好的word 文件,看看轉換的效果怎麽樣。識別的區域基本上正常,中文英文、圖像都可以識別出來,版面略微有些錯位,不過還是含有部分錯誤,我們需要自己修改壹下,但是這個已經可以大大降低我們的錄入強度了。 註意事項 OCR 識別是肯定會存在錯誤的,所以大家識別轉換完成以後記得要和原文核對。 設置語言種類的話,越少識別率越高,就是說如果文件只有中文的話,那麽就設置中文壹種語言,不要選擇其他語言,這樣識別速度也會提高。 ABBYY finereader 理論上可以轉換非加密的任意PDF 文件,但是如果掃描件的分辨率或者清晰度比較差的話,那麽是不能被正確識別轉換的。