Fréquence des caractères

De Disposition de clavier bépo
Version datée du 9 octobre 2007 à 18:31 par A2 (discussion | contributions) (Nouvelle page : D'un texte à un autre, on constate qu'il y a des variations sensibles dans la '''fréquence des lettres''', même pour des textes de plus de 200000 lettres (comme celui utilisé par...)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

D'un texte à un autre, on constate qu'il y a des variations sensibles dans la fréquence des lettres, même pour des textes de plus de 200000 lettres (comme celui utilisé par Francis Leboutte).

Pour obtenir des statistiques aussi représentatives que possible, on prend le corpus de Thomas Tempé, qui cherche à être volumineux et à contenir des textes d'origines diverses.

Fréquences des lettres

Nb carac: 1953155

Nb ligne: 29959

Nb car  : 1616235

Statistiques par caractères :

e 225947 13.980
s 121895 7.542
a 117110 7.246
i 115465 7.144
t 111103 6.874
n 108812 6.732
r 100500 6.218
u 96785 5.988
l 83668 5.177
o 82762 5.121
d 56269 3.481
c 50003 3.094
p 46335 2.867
m 45521 2.816
é 29206 1.807
v 24975 1.545
, 22173 1.372
' 21958 1.359
q 20889 1.292
f 16351 1.012
. 13921 0.861
b 13822 0.855
g 13288 0.822
h 11298 0.699
j 8351 0.517
à 7449 0.461
x 5928 0.367
y 4725 0.292
è 4160 0.257
ê 3445 0.213
" 3326 0.206
z 2093 0.129
: 1922 0.119
w 1747 0.108
) 1616 0.100
( 1506 0.093
ç 1306 0.081
0 1173 0.073
/ 1141 0.071
? 1093 0.068
; 942 0.058
ù 890 0.055
! 877 0.054
1 782 0.048
k 745 0.046
2 725 0.045
î 695 0.043
3 488 0.030
9 284 0.018
5 281 0.017
4 235 0.015
7 199 0.012
6 198 0.012
8 183 0.011
* 148 0.009
oe 108 0.006
ï 84 0.005
= 81 0.005
@ 72 0.004
+ 68 0.004
> 64 0.004
] 56 0.003
[ 54 0.003
% 48 0.003
< 47 0.003
& 20 0.001
| 12 0.001
# 11 0.001
$ 10 0.001
ë 7 0.000
~ 5 0.000

Liens externes