« Fréquence des caractères » : différence entre les versions
m (Liens externes mieux) |
mAucun résumé des modifications |
||
Ligne 1 : | Ligne 1 : | ||
{{navigation|icone=Méthodologie.png|Méthodologie|{{PAGENAME}}}} | |||
Pour obtenir des statistiques aussi représentatives que possible, on | D'un texte à un autre, on constate qu'il y a des variations sensibles de la '''fréquence des lettres''', y compris pour des textes de plus de 20 0000 lettres (comme celui utilisé par Francis Leboutte). Pour obtenir des statistiques aussi représentatives que possible, on utilise le [[corpus]] de Thomas Tempé, qui vise à avoir un volume critique et à contenir des textes d'origines diverses pour dépasser ces problèmes. | ||
== | == Corpus de Thomas Tempé == | ||
=== Fréquences des lettres === | |||
Nb ligne: 29959 | * Nb carac: 1953155 | ||
* Nb ligne: 29959 | |||
* Nb car : 1616235 | |||
=== Statistiques par caractères === | |||
Statistiques par caractères | |||
{| border="1" | {| border="1" | ||
Ligne 160 : | Ligne 160 : | ||
|} | |} | ||
==Corpus de Nicolas C.== | == Corpus de Nicolas C. == | ||
Statistiques des fréquences des symboles | Statistiques des fréquences des symboles | ||
Ligne 259 : | Ligne 260 : | ||
</pre> | </pre> | ||
==Liens externes== | == Liens externes == | ||
*[http://www.lexique.org/listes/liste_lettres.php Fréquence des lettres] sur lexique.org | |||
*[http://www.apprendre-en-ligne.net/crypto/stat/francais.html Fréquence des lettres et des bigrammes] sur apprendre-en-ligne.net | * [http://www.lexique.org/listes/liste_lettres.php Fréquence des lettres] sur lexique.org | ||
*[http://fr.wikipedia.org/wiki/Fréquence_d'apparition_des_lettres_en_français Fréquence d'apparition des lettres en français] sur | * [http://www.apprendre-en-ligne.net/crypto/stat/francais.html Fréquence des lettres et des bigrammes] sur apprendre-en-ligne.net | ||
* [http://fr.wikipedia.org/wiki/Fréquence_d'apparition_des_lettres_en_français Fréquence d'apparition des lettres en français] sur Wikipédia |
Version du 10 avril 2008 à 17:03
D'un texte à un autre, on constate qu'il y a des variations sensibles de la fréquence des lettres, y compris pour des textes de plus de 20 0000 lettres (comme celui utilisé par Francis Leboutte). Pour obtenir des statistiques aussi représentatives que possible, on utilise le corpus de Thomas Tempé, qui vise à avoir un volume critique et à contenir des textes d'origines diverses pour dépasser ces problèmes.
Corpus de Thomas Tempé
Fréquences des lettres
- Nb carac: 1953155
- Nb ligne: 29959
- Nb car : 1616235
Statistiques par caractères
e | 225947 | 13.980 |
s | 121895 | 7.542 |
a | 117110 | 7.246 |
i | 115465 | 7.144 |
t | 111103 | 6.874 |
n | 108812 | 6.732 |
r | 100500 | 6.218 |
u | 96785 | 5.988 |
l | 83668 | 5.177 |
o | 82762 | 5.121 |
d | 56269 | 3.481 |
c | 50003 | 3.094 |
p | 46335 | 2.867 |
m | 45521 | 2.816 |
é | 29206 | 1.807 |
v | 24975 | 1.545 |
, | 22173 | 1.372 |
' | 21958 | 1.359 |
q | 20889 | 1.292 |
f | 16351 | 1.012 |
. | 13921 | 0.861 |
b | 13822 | 0.855 |
g | 13288 | 0.822 |
h | 11298 | 0.699 |
j | 8351 | 0.517 |
à | 7449 | 0.461 |
- | 6887 | 0.426 |
x | 5928 | 0.367 |
y | 4725 | 0.292 |
è | 4160 | 0.257 |
ê | 3445 | 0.213 |
" | 3326 | 0.206 |
z | 2093 | 0.129 |
: | 1922 | 0.119 |
w | 1747 | 0.108 |
) | 1616 | 0.100 |
( | 1506 | 0.093 |
ç | 1306 | 0.081 |
0 | 1173 | 0.073 |
/ | 1141 | 0.071 |
? | 1093 | 0.068 |
; | 942 | 0.058 |
ù | 890 | 0.055 |
! | 877 | 0.054 |
1 | 782 | 0.048 |
k | 745 | 0.046 |
2 | 725 | 0.045 |
î | 695 | 0.043 |
3 | 488 | 0.030 |
9 | 284 | 0.018 |
5 | 281 | 0.017 |
4 | 235 | 0.015 |
7 | 199 | 0.012 |
6 | 198 | 0.012 |
8 | 183 | 0.011 |
* | 148 | 0.009 |
œ | 108 | 0.006 |
ï | 84 | 0.005 |
= | 81 | 0.005 |
@ | 72 | 0.004 |
+ | 68 | 0.004 |
> | 64 | 0.004 |
] | 56 | 0.003 |
[ | 54 | 0.003 |
% | 48 | 0.003 |
< | 47 | 0.003 |
& | 20 | 0.001 |
| | 12 | 0.001 |
# | 11 | 0.001 |
$ | 10 | 0.001 |
ë | 7 | 0.000 |
~ | 5 | 0.000 |
Corpus de Nicolas C.
Statistiques des fréquences des symboles
Ces statistiques ont été calculées en vue d'être utilisés pour le placement des touches, donc ne correspondent pas exactement à des stats pures du corpus utilisés. Liste des traitements effectués :
- regroupement majuscules/minuscules (on cumule les stats de E et de e) ;
- y'a pas de notion de majuscules/minuscules pour la ponctuation, donc on effectue les regroupements suivants (ce sont pas ceux que j'ai utilisé à l'origine, mais ceux qui ont été fait ensuite, j'ai refait les stats en fonction pour avoir des stats à jour pour l'argumentation des permutations) :
* @@':' -> '.'@@ ; * @@'?' -> ','@@ ; * @@';' -> "'"@@ ; * @@'!' -> @@dead-^ ;
- PAS de regroupement chiffres/symboles ;
- report des stats de âêûîôäëïöü sur aeuio, dead-^ et dead-diaresis
Ce qui donne donc :
lettre rang occurence e 1 229143 s 2 121895 a 3 117758 i 4 116225 t 5 111103 n 6 108812 r 7 100500 u 8 97632 l 9 83668 o 10 83229 d 11 56269 c 12 50003 p 13 46335 m 14 45521 é 15 29206 v 16 24975 , 17 23266 ' 18 22965 q 19 20889 f 20 16351 . 21 15843 b 22 13822 g 23 13288 h 24 11298 j 25 8351 à 26 7449 dead-^ 27 7225 - 28 6887 x 29 5928 y 30 4725 è 31 4160 " 32 3326 z 33 2093 w 34 1747 ) 35 1616 ( 36 1506 ç 37 1306 0 38 1173 / 39 1141 ù 40 890 1 41 782 k 42 745 2 43 725 3 44 488 9 45 284 5 46 281 œ 47 256 4 48 235 7 49 199 6 50 198 « 51 191 » 52 187 8 53 183 * 54 148 _ 55 107 dead-¨ 56 101 = 57 81 @ 58 72 + 59 68 > 60 64 ] 61 56 [ 62 54 % 63 48 < 64 47 ¨ 65 20 & 66 20 | 67 12 # 68 11 $ 69 10 70 8 ° 71 8 ² 72 7 ^ 73 5 ~ 74 5 © 75 4 · 76 2 ž 77 1 ð 78 1
Liens externes
- Fréquence des lettres sur lexique.org
- Fréquence des lettres et des bigrammes sur apprendre-en-ligne.net
- Fréquence d'apparition des lettres en français sur Wikipédia