我覺得幾乎不可能。(以下討論僅涉及壹些我了解的比較低端的統計方法,若有高手了解更高階的方法請不吝賜教)基於統計的方法總需要事先有壹個假設,比如破譯替換加密的密碼妳需要知道英文字母的出現概率,類似的,如果外星人要破譯人類的語言,必須先知道人類的生活規律和思維規律,這兩者分別大約與語言中的實詞和虛詞對應。先看實詞,用distributional semantics的方法倒是可以找到詞匯之間的關聯強弱,比如“江河湖海”都與“水”,“流動”有較大的關系,但是僅此而已,如果不知道人類是碳基生物,需要水來維持生命,那麽水這個詞出現多少次也沒有用。至於虛詞,他們也只能用統計方法找出哪些詞是虛詞,由於思維方式的不同,要理解虛詞的含義幾乎不可能,舉個極端點的例子,如果他們拿到的資料僅包含某段時期的中文,那麽他們大概還會把“茅住席”,“江清同誌”,“街機敵人”,“飯動粉子”這些詞分類為虛詞,進壹步分析其含義就搞笑了,‘“茅住席”<實體詞A> “江清同誌”<實體詞B>’也許是壹種邏輯關系……總而言之,基於統計的方法其實是壹種非常粗糙的方法,只有在擁有非常可靠的假設的情況下才能得到稍微靠譜的結果,人類對於自己的語言,用大量標記語料以及know-how的參數設置進行監督機器學習,尚且不能得到滿意的結果,何況是對於人類壹無所知的外星人。換壹個角度說,如果人類真的想讓外星人了解自己,至少該把基本的數學物理化學邏輯學知識用符號系統總結好並且與文字對齊吧,不過考慮到連圖像資料都不舍得給,這些也就不用奢望了。不厚道地說,也許外星人能從信息載體獲得的信息量比信息本身還大。