Fréquence des caractères

De Disposition de clavier francophone et ergonomique bépo

D'un texte à un autre, on constate qu'il y a des variations sensibles de la fréquence des lettres, y compris pour des textes de plus de 200 000 lettres (comme celui utilisé par Francis Leboutte). Pour obtenir des statistiques aussi représentatives que possible, on utilise le corpus de Thomas Tempé, qui vise à avoir un volume critique et à contenir des textes d'origines diverses pour dépasser ces problèmes.

La plupart des analyses fréquentielles de la langue française ne tiennent compte que des lettres et non des caractères de ponctuation. Or ces derniers sont plus fréquents que certaines lettres (,'-.:), il faut donc en tenir compte.

On remarquera que l'analyse fréquentielle du français donne a peu près les même résultats que l'anglais, l'allemand et l'espagnol[1]. Cela pourra servir pour placer les caractères rares en français (surtout vis-à-vis de l'anglais).

Différentes analyses fréquentielles

Certaines analyses regroupent les caractères portant le même diacritique, d'autres omettent les ligatures, le ponctuation ou les encore chiffres. Des analyses plus poussées devraient être faites en tenant compte de tous les caractères rencontrés, avec le moins de filtrage possible.

  • 100 000 caractères, sur Ars Cryptographica — Caractères alphabétiques seulement, textes de Flaubert, Verne et trois articles de l'Encyclopædia Universalis.
  • 200 000 caractères, corpus de la disposition Dvorak-fr — Cahier des exigences pour le collégien, un document du ministère de l'éducation nationale française.
  • 1 500 000 à 1 600 000 caractères : Tempé/Crako pour la version 0.1 (pour situer)
  • une analyse (./stats.py de Gaëtan) sur 1 888 595 titres et redirections d'articles de Wikipédia fr (33 251 164 caractères en tout, 3 547 caractères différents, dump du 30 jan. 2010), on remarque :
    • h 15e plus fréquent que sur les analyses de texte (juste avant p) ;
    • le tiret en 21e position est très présent ;
    • il y a forcément beaucoup de noms propres d’où la place plus importante pour les capitales : C en 18e, de 24 à 30e S L A M D P B ;
    • passé 500e on a plus que 10 occurences par lettre ;
    • en fin de liste il y a plus de 2000 articles décrivant un seul caractère (on saura où les trouver…).
  • 482 258 462 caractères sur l’analyse de Jean-Luc Manguin sur lexique.org — 106,8 millions de mots de la base Frantext catégorisée 1830-2000, mots apparaissant plus de dix fois, ponctuation et ligatures absentes, 42 occurences différentes. Les mots analysés forment un ensemble de 112345 graphies et représentent 99,4 % du corpus total qui lui, compte 361887 graphies.
  • 950 360 866 caractères sur le dump de la wikipedia francophone du 18 juin 2008 prétraité par le laboratoire CLLE-ERSS– 227 541 638 de mots dont 3 192 864 différents (tous en minuscules). Des traces de la syntaxe Wikipédia ont subsisté après le traitement, ce qui explique les fréquences très élevées de « | » (tableau), « { » et « } » ; la barre oblique est logiquement très fréquente puisque les URL ont été conservées. Chaque article débute par un identifiant numérique, par exemple : <#38>, ce qui augmente considérablement la fréquence des caractères '<', '>' et des dix chiffres.

Résumé sommaire

En croisant les diverses analyses (les caractères alphabétique sont entre crochets, l'ordre exact global reste à préciser) :

  • au dessus de 5% : [easintrulo]
    • bépo place « o » et « l » sur la 3e rangée et non sur celle de garde.
    • le a est 6e avec seulement 6% sur le corpus Leboutte, cela semble étrange.
  • entre 5 et 2% : [dcmp]
  • entre 2 et 0.5% : é [v] , ' [qf] . [gbhj]
    • ces caractères ont un accès direct
  • entre 0.5 et 0.1% : à - [x] è [y] ê " [z] : ( )
    • à è ê " ( ) ont un accès direct
    • la fréquence du guillemet " est un reliquat de l'azerty qui n'a pas les vrais «»
    • - est en direct sur la touche clavier azerty8 de la rangée supérieure (voir place du tiret) ;
    • : est en majuscule
  • entre 0.1 et 0.01% : ç 0 / ? ; â ô î ù û ! 1 [kw] 2 î 3 9 5 4 7 6 8
    • place des chiffres : "«»()/ sont plus fréquents que les chiffres mais pas +@=% (le 0 sort du lot).
    • le w devrait être dernier et est trop fréquent dans les corpus Tempé/Chartier ;
  • moins de 0.01% (1 pour 10 000) : * œ ï _ = @ + > ] [ % < ¨ & | # $ ° ² ^ ë ~ © · ž ð ü ö …

Corpus Wikipédia français de 2008

Le laboratoire CLLE-ERSS a prétraité le dump HTML 2008 de la Wikipédia française afin d'en extraire le contenu textuel des articles puis a établi la fréquence des mots (normalisés en minuscules). Nous avons utilisé ce résultat pour calculer la fréquence des caractères. Il est à noter que leur fichiers disponibles en téléchargement sont en ISO-8859-1, ce qui peut fausser le compte de caractères n'étant pas présent dans cette norme d'encodage (leur nombre d'occurrences étant toutefois logiquement négligeables en comparaison de caractères utilisés couramment en français). Nous ne présentons ici que les caractères ayant un pourcentage supérieur ou égal à 0,01.

Fréquence des caractères
Rang Caractère Nombre d'occurrences Pourcentage
1 e 115 024 205 12,1
2 a 67 563 628 7,11
3 i 62 672 992 6,59
4 s 61 882 785 6,51
5 n 60 728 196 6,39
6 r 57 656 209 6,07
7 t 56 267 109 5,92
8 o 47 724 400 5,02
9 l 47 171 247 4,96
10 u 42 698 875 4,49
11 d 34 914 685 3,67
12 c 30 219 574 3,18
13 m 24 894 034 2,62
14 p 23 647 179 2,49
15 é 18 451 937 1,94
16 14 847 201 1,56
17 g 11 684 140 1,23
18 b 10 817 171 1,14
19 v 10 590 858 1,11
20 h 10 583 562 1,11
21 f 10 579 192 1,11
22 , 9 656 092 1,02
23 1 9 005 786 0,95
24 . 7 843 682 0,83
25 ' 7 209 956 0,76
26 0 6 358 672 0,67
27 9 6 340 285 0,67
28 q 6 140 307 0,65
29 - 5 718 628 0,6
30 2 5 462 613 0,57
31 y 4 351 953 0,46
32 8 3 643 296 0,38
33 ) 3 638 248 0,38
34 ( 3 624 542 0,38
35 x 3 588 990 0,38
36 3 3 459 061 0,36
37 5 3 396 449 0,36
38 6 3 376 188 0,36
39 4 3 326 019 0,35
40 j 3 276 064 0,34
41 7 3 244 260 0,34
42  : 3 155 250 0,33
43 è 2 969 466 0,31
44 à 2 966 029 0,31
45 k 2 747 547 0,29
46  ? 2 188 127 0,23
47 w 1 653 435 0,17
48 z 1 433 913 0,15
49 ê 802 211 0,08
50 " 759 384 0,08
51 / 623 640 0,07
52 ç 544 509 0,06
53 > 499 481 0,05
54 # 493 596 0,05
55 < 476 762 0,05
56 · 429 085 0,05
57 402 911 0,04
58  ; 379 874 0,04
59 ô 357 197 0,04
60 «  338 547 0,04
61  » 332 970 0,04
62 â 320 837 0,03
63 î 280 201 0,03
64 ] 243 399 0,03
65 { 243 170 0,03
66 [ 241 191 0,03
67 } 229 128 0,02
68 ° 214 463 0,02
69 û 164 516 0,02
70 ù 151 236 0,02
71 ï 138 221 0,01
72 = 121 994 0,01
73  % 121 163 0,01
74 + 109 254 0,01
75  ! 104 109 0,01
76 _ 87 702 0,01
77 á 73 751 0,01
78 & 67 507 0,01
79 ü 55 172 0,01
80 ² 54 500 0,01
81 * 54 224 0,01
82 ë 53 862 0,01
83 ö 51 020 0,01
84 í 48 391 0,01

Corpus de Thomas Tempé

http://gpl.insa-lyon.fr/Dvorak-Fr/CorpusDeThomasTempé 1 616 343 caractères (72 différents)

e 225947 13.980
s 121895 7.542
a 117110 7.246
i 115465 7.144
t 111103 6.874
n 108812 6.732
r 100500 6.218
u 96785 5.988
l 83668 5.177
o 82762 5.121
d 56269 3.481
c 50003 3.094
p 46335 2.867
m 45521 2.816
é 29206 1.807
v 24975 1.545
, 22173 1.372
' 21958 1.359
q 20889 1.292
f 16351 1.012
. 13921 0.861
b 13822 0.855
g 13288 0.822
h 11298 0.699
j 8351 0.517
à 7449 0.461
- 6887 0.426
x 5928 0.367
y 4725 0.292
è 4160 0.257
ê 3445 0.213
" 3326 0.206
z 2093 0.129
: 1922 0.119
w 1747 0.108
) 1616 0.100
( 1506 0.093
ç 1306 0.081
0 1173 0.073
/ 1141 0.071
? 1093 0.068
; 942 0.058
ù 890 0.055
! 877 0.054
1 782 0.048
k 745 0.046
2 725 0.045
î 695 0.043
3 488 0.030
9 284 0.018
5 281 0.017
4 235 0.015
7 199 0.012
6 198 0.012
8 183 0.011
* 148 0.009
œ 108 0.006
ï 84 0.005
= 81 0.005
@ 72 0.004
+ 68 0.004
> 64 0.004
] 56 0.003
[ 54 0.003
% 48 0.003
< 47 0.003
& 20 0.001
| 12 0.001
# 11 0.001
$ 10 0.001
ë 7 0.000
~ 5 0.000

Corpus de Nicolas C.

Statistiques des fréquences des symboles

Ces statistiques ont été calculées en vue d'être utilisés pour le placement des touches, donc ne correspondent pas exactement à des stats pures du corpus utilisés. Liste des traitements effectués :

  • regroupement majuscules/minuscules (on cumule les stats de E et de e) ;
  • il n'y a pas de notion de majuscules/minuscules pour la ponctuation, donc on effectue les regroupements suivants (ce sont pas ceux que j'ai utilisé à l'origine, mais ceux qui ont été fait ensuite, j'ai refait les stats en fonction pour avoir des stats à jour pour l'argumentation des permutations) :
 * @@':' -> '.'@@ ;
 * @@'?' -> ','@@ ;
 * @@';' -> "'"@@ ;
 * @@'!' -> @@dead-^ ;
  • PAS de regroupement chiffres/symboles ;
  • report des stats de âêûîôäëïöü sur aeuio, dead-^ et dead-diaresis

Ce qui donne donc :

lettre	rang	occurence

e	1	229143
s	2	121895
a	3	117758
i	4	116225
t	5	111103
n	6	108812
r	7	100500
u	8	97632
l	9	83668
o	10	83229
d	11	56269
c	12	50003
p	13	46335
m	14	45521
é	15	29206
v	16	24975
,	17	23266
'	18	22965
q	19	20889
f	20	16351
.	21	15843
b	22	13822
g	23	13288
h	24	11298
j	25	8351
à	26	7449
dead-^	27	7225
-	28	6887
x	29	5928
y	30	4725
è	31	4160
"	32	3326
z	33	2093
w	34	1747
)	35	1616
(	36	1506
ç	37	1306
0	38	1173
/	39	1141
ù	40	890
1	41	782
k	42	745
2	43	725
3	44	488
9	45	284
5	46	281
œ	47	256
4	48	235
7	49	199
6	50	198
«	51	191
»	52	187
8	53	183
*	54	148
_	55	107
dead-¨	56	101
=	57	81
@	58	72
+	59	68
>	60	64
]	61	56
[	62	54
%	63	48
<	64	47
¨	65	20
&	66	20
|	67	12
#	68	11
$	69	10
­	70	8
°	71	8
²	72	7
^	73	5
~	74	5
©	75	4
·	76	2
ž	77	1
ð	78	1

Références

  1. http://www.apprendre-en-ligne.net/crypto/stat/freq.gif

Liens externes