最近在研究這個。我搜了20000的PDF,帶collocation的那個。還有壹個60000的excel,帶有最原始的統計次數。先放結論:如果不是為了考試,是為了提高自己的f真實水平,這兩張表非常有用。先說20000的那張,其實用手機閱讀+手機詞典(我用的是歐陸)配合起來非常好。比單純背單詞要舒服。可以根據自己水平從中間開始。認識的單詞也可以看看下面的搭配自己加強記憶。真正有意思的是那個60000的excel。裏面是這樣的。這是COCA利用近4億的語料庫統計出來的數據。前60000詞占了3.96億。接近99%。裏面有分口頭,小說,雜誌,新聞,學術等。
我這兩天著重看了口語的。口語占整體20.7%,但是口語的詞頻和整體的很不壹樣。整體來說,前面23000詞占了60000詞的99%的頻率,但是口語只用了13500詞就占了口語99%的頻率。這說明口語的詞更集中。這也和之前很多人研究的:美國人的平均詞匯量20000-25000,口語詞匯量10000+相吻合。很多詞在口語裏排名靠前,但是在整體排名靠後。比如awful,在口語裏排名5950,但是整體詞頻15239,類似這樣的詞很多。所以要想提高口語,其實更應該有針對的提高這部分的單詞量。不然背了GRE22000,其實口語還是有很多詞匯不壹樣的。還有很多,還在研究當中。但是有針對性的學單詞,比考試重要。