統計翻譯系統的根本不同,在於它們試圖生成不止壹個精確的翻譯。相反,他們生成成千上萬種可能的翻譯,然後他們按照可能最正確的給這些翻譯排名。他們通過與訓練數據的相似性來估計有多“正確”。以下是它的工作原理:
第1步:將原始句子分成塊首先,我們將我們的句子分成簡單的塊,每壹塊都可以輕松翻譯:第2步:找到每壹塊的所有可能的翻譯接下來,我們將翻譯每塊文字,我們將通過尋找我們數據庫中所有人類翻譯過的相同詞塊來完成我們的翻譯。要著重註意的是,我們不只是在壹本簡簡單單的翻譯字典中查找這些詞塊。相反,我們看到是真實的人在真實的句子中如何翻譯這些相同的詞。這有助於我們捕獲到在不同語境中所有不同的表達方式:即使最常見的短語也有很多種可能的翻譯這些可能的翻譯中的有壹些會比其他翻譯更頻繁地使用。根據我們訓練數據中每個翻譯出現的頻率,我們可以給它設定壹個分數。例如,有人說“Quiero”更多的時候是指“我想要”而不是“我嘗試”。所以,我們可以使用我們訓練數據中 “Quiero”被翻譯成“我想要”的頻率,給“我想要”這個翻譯更多的權重。
第3步:生成所有可能的句子,找到最有可能的那句接下來,我們將使用這些詞塊的每種可能翻譯來組合生成壹堆可能的句子。