使用預處理軟件對PDF文檔的頁邊距進行修剪,例如使用修剪軟件Briss去除PDF文檔的頁邊距以使可讀區域盡可能大,然後將生成的PDF文檔放入Kindle中進行閱讀。有些文件在切割後可以很好地閱讀,但有些文件在處理後仍然太大。
使用OCR(光學字符識別)軟件,PDF中的文本被提取並導出為其他可以重新排列的文檔格式,如TXT和MOBI。由於OCR具有壹定的識別錯誤率,並且無法保持排版樣式(如字體、字號和圖表公式),因此該方法的應用範圍受到限制。
使用閱讀器提取文檔中的字符和樣式,並以適合屏幕寬度的方式重新排列它們(稱為文本重排,文本
回流)。雖然這種方法可以保留字體樣式信息,但它對圖表和公式的支持不如第二種方法。這種方法的另壹個缺點是無法重新排列掃描的文檔,因為無法從掃描的文檔中提取字符和格式信息。
Koreader的重排功能離不開另壹個開源軟件項目k 2 pdfopt(GPL v3協議發布)。K2pdfopt也是為了解決小屏Kindle閱讀PDF文檔的排版問題而開發的。與其他PDF預處理軟件相比,它具有許多獨特的功能,例如自動化程度高,自動識別多列排版文檔,自動去除頁面白邊,自動水平校正掃描文檔,以及最重要的基於圖像分割的重新排版算法。K2pdfopt使用完全基於圖像處理的方法來重新排列文本。軟件在處理時,會將原始PDF/DJVU頁面放大並以單詞為單位劃分為像素區域,並將這些像素區域重新排列到目標寬度的頁面中(原理如下所示),因此理論上只要文檔的頁面像素可以閱讀,就可以重新排列文本。這種算法的前提是頁面中的文字之間需要有壹定的間隙,以提供劃分像素區域的場地。