Fréquence des caractères
D'un texte à un autre, on constate qu'il y a des variations sensibles dans la fréquence des lettres, même pour des textes de plus de 200000 lettres (comme celui utilisé par Francis Leboutte).
Pour obtenir des statistiques aussi représentatives que possible, on prend le corpus de Thomas Tempé, qui cherche à être volumineux et à contenir des textes d'origines diverses.
Fréquences des lettres
Nb carac: 1953155
Nb ligne: 29959
Nb car : 1616235
Statistiques par caractères :
e | 225947 | 13.980 |
s | 121895 | 7.542 |
a | 117110 | 7.246 |
i | 115465 | 7.144 |
t | 111103 | 6.874 |
n | 108812 | 6.732 |
r | 100500 | 6.218 |
u | 96785 | 5.988 |
l | 83668 | 5.177 |
o | 82762 | 5.121 |
d | 56269 | 3.481 |
c | 50003 | 3.094 |
p | 46335 | 2.867 |
m | 45521 | 2.816 |
é | 29206 | 1.807 |
v | 24975 | 1.545 |
, | 22173 | 1.372 |
' | 21958 | 1.359 |
q | 20889 | 1.292 |
f | 16351 | 1.012 |
. | 13921 | 0.861 |
b | 13822 | 0.855 |
g | 13288 | 0.822 |
h | 11298 | 0.699 |
j | 8351 | 0.517 |
à | 7449 | 0.461 |
x | 5928 | 0.367 |
y | 4725 | 0.292 |
è | 4160 | 0.257 |
ê | 3445 | 0.213 |
" | 3326 | 0.206 |
z | 2093 | 0.129 |
: | 1922 | 0.119 |
w | 1747 | 0.108 |
) | 1616 | 0.100 |
( | 1506 | 0.093 |
ç | 1306 | 0.081 |
0 | 1173 | 0.073 |
/ | 1141 | 0.071 |
? | 1093 | 0.068 |
; | 942 | 0.058 |
ù | 890 | 0.055 |
! | 877 | 0.054 |
1 | 782 | 0.048 |
k | 745 | 0.046 |
2 | 725 | 0.045 |
î | 695 | 0.043 |
3 | 488 | 0.030 |
9 | 284 | 0.018 |
5 | 281 | 0.017 |
4 | 235 | 0.015 |
7 | 199 | 0.012 |
6 | 198 | 0.012 |
8 | 183 | 0.011 |
* | 148 | 0.009 |
oe | 108 | 0.006 |
ï | 84 | 0.005 |
= | 81 | 0.005 |
@ | 72 | 0.004 |
+ | 68 | 0.004 |
> | 64 | 0.004 |
] | 56 | 0.003 |
[ | 54 | 0.003 |
% | 48 | 0.003 |
< | 47 | 0.003 |
& | 20 | 0.001 |
| | 12 | 0.001 |
# | 11 | 0.001 |
$ | 10 | 0.001 |
ë | 7 | 0.000 |
~ | 5 | 0.000 |
Liens externes
- Lexique.org – Fréquence des lettres
- [1]
- [2]