我們從網上下載了7本英語書(約500萬字),王用C++語言編寫了壹個統計單詞和字母組合出現頻率的程序。
詞頻統計結果如下:
分類
信
出現頻次
百分率
1
E
438290
12.503266%
2
T
305109
8.703961%
三
A
273930
7.814506%
四
O
261321
7.454804%
五
普通
251973
7.18813%
六
我
238847
6.81368%
七
S
225597
6.435692%
八
H
213665
6.095303%
九
稀有
206901
5.902344%
10
D
159569
4.552086%
11
L
139839
3.989241%
12
U
105272
3.003135%
13
M
90189
2.572856%
14
C
90053
2.568976%
15
W
77817
2.219915%
16
F
75687
2.159152%
17
G
72116
2.057281%
18
Y
71920
2.051689%
19
P
67664
1.930277%
20
B
61538
1.755518%
21
V
31639
0.902578%
22
K
25684
0.732697%
23
X
6321
0.180322%
24
J
5233
0.149284%
25
Z
4647
0.132567%
26
Q
4583