« Fréquence des caractères » : différence entre les versions

De Disposition de clavier bépo
(Nouvelle page : D'un texte à un autre, on constate qu'il y a des variations sensibles dans la '''fréquence des lettres''', même pour des textes de plus de 200000 lettres (comme celui utilisé par...)
 
Aucun résumé des modifications
Ligne 159 : Ligne 159 :
|~||5||0.000
|~||5||0.000
|}
|}
==Corpus de Nicolas C.==
Statistiques des fréquences des symboles
Ces statistiques ont été calculées en vue d'être utilisés pour le placement des touches, donc ne correspondent pas exactement à des stats pures du corpus utilisés.
Liste des traitements effectués :
* regroupement majuscules/minuscules (on cumule les stats de E et de e) ;
* y'a pas de notion de majuscules/minuscules pour la ponctuation, donc on effectue les regroupements suivants (ce sont pas ceux que j'ai utilisé à l'origine, mais ceux qui ont été fait ensuite, j'ai refait les stats en fonction pour avoir des stats à jour pour l'argumentation des permutations) :
  * @@':' -> '.'@@ ;
  * @@'?' -> ','@@ ;
  * @@';' -> "'"@@ ;
  * @@'!' -> @@dead-^ ;
* PAS de regroupement chiffres/symboles ;
* report des stats de âêûîôäëïöü sur aeuio, dead-^ et dead-diaresis
Ce qui donne donc :
<pre>
lettre rang occurence
e 1 229143
s 2 121895
a 3 117758
i 4 116225
t 5 111103
n 6 108812
r 7 100500
u 8 97632
l 9 83668
o 10 83229
d 11 56269
c 12 50003
p 13 46335
m 14 45521
é 15 29206
v 16 24975
, 17 23266
' 18 22965
q 19 20889
f 20 16351
. 21 15843
b 22 13822
g 23 13288
h 24 11298
j 25 8351
à 26 7449
dead-^ 27 7225
- 28 6887
x 29 5928
y 30 4725
è 31 4160
" 32 3326
z 33 2093
w 34 1747
) 35 1616
( 36 1506
ç 37 1306
0 38 1173
/ 39 1141
ù 40 890
1 41 782
k 42 745
2 43 725
3 44 488
9 45 284
5 46 281
œ 47 256
4 48 235
7 49 199
6 50 198
« 51 191
» 52 187
8 53 183
* 54 148
_ 55 107
dead-¨ 56 101
= 57 81
@ 58 72
+ 59 68
> 60 64
] 61 56
[ 62 54
% 63 48
< 64 47
¨ 65 20
& 66 20
| 67 12
# 68 11
$ 69 10
­ 70 8
° 71 8
² 72 7
^ 73 5
~ 74 5
© 75 4
· 76 2
ž 77 1
ð 78 1
</pre>


==Liens externes==
==Liens externes==

Version du 10 octobre 2007 à 02:18

D'un texte à un autre, on constate qu'il y a des variations sensibles dans la fréquence des lettres, même pour des textes de plus de 200000 lettres (comme celui utilisé par Francis Leboutte).

Pour obtenir des statistiques aussi représentatives que possible, on prend le corpus de Thomas Tempé, qui cherche à être volumineux et à contenir des textes d'origines diverses.

Fréquences des lettres

Nb carac: 1953155

Nb ligne: 29959

Nb car  : 1616235

Statistiques par caractères :

e 225947 13.980
s 121895 7.542
a 117110 7.246
i 115465 7.144
t 111103 6.874
n 108812 6.732
r 100500 6.218
u 96785 5.988
l 83668 5.177
o 82762 5.121
d 56269 3.481
c 50003 3.094
p 46335 2.867
m 45521 2.816
é 29206 1.807
v 24975 1.545
, 22173 1.372
' 21958 1.359
q 20889 1.292
f 16351 1.012
. 13921 0.861
b 13822 0.855
g 13288 0.822
h 11298 0.699
j 8351 0.517
à 7449 0.461
x 5928 0.367
y 4725 0.292
è 4160 0.257
ê 3445 0.213
" 3326 0.206
z 2093 0.129
: 1922 0.119
w 1747 0.108
) 1616 0.100
( 1506 0.093
ç 1306 0.081
0 1173 0.073
/ 1141 0.071
? 1093 0.068
; 942 0.058
ù 890 0.055
! 877 0.054
1 782 0.048
k 745 0.046
2 725 0.045
î 695 0.043
3 488 0.030
9 284 0.018
5 281 0.017
4 235 0.015
7 199 0.012
6 198 0.012
8 183 0.011
* 148 0.009
oe 108 0.006
ï 84 0.005
= 81 0.005
@ 72 0.004
+ 68 0.004
> 64 0.004
] 56 0.003
[ 54 0.003
% 48 0.003
< 47 0.003
& 20 0.001
| 12 0.001
# 11 0.001
$ 10 0.001
ë 7 0.000
~ 5 0.000

Corpus de Nicolas C.

Statistiques des fréquences des symboles

Ces statistiques ont été calculées en vue d'être utilisés pour le placement des touches, donc ne correspondent pas exactement à des stats pures du corpus utilisés. Liste des traitements effectués :

  • regroupement majuscules/minuscules (on cumule les stats de E et de e) ;
  • y'a pas de notion de majuscules/minuscules pour la ponctuation, donc on effectue les regroupements suivants (ce sont pas ceux que j'ai utilisé à l'origine, mais ceux qui ont été fait ensuite, j'ai refait les stats en fonction pour avoir des stats à jour pour l'argumentation des permutations) :
 * @@':' -> '.'@@ ;
 * @@'?' -> ','@@ ;
 * @@';' -> "'"@@ ;
 * @@'!' -> @@dead-^ ;
  • PAS de regroupement chiffres/symboles ;
  • report des stats de âêûîôäëïöü sur aeuio, dead-^ et dead-diaresis

Ce qui donne donc :

lettre	rang	occurence

e	1	229143
s	2	121895
a	3	117758
i	4	116225
t	5	111103
n	6	108812
r	7	100500
u	8	97632
l	9	83668
o	10	83229
d	11	56269
c	12	50003
p	13	46335
m	14	45521
é	15	29206
v	16	24975
,	17	23266
'	18	22965
q	19	20889
f	20	16351
.	21	15843
b	22	13822
g	23	13288
h	24	11298
j	25	8351
à	26	7449
dead-^	27	7225
-	28	6887
x	29	5928
y	30	4725
è	31	4160
"	32	3326
z	33	2093
w	34	1747
)	35	1616
(	36	1506
ç	37	1306
0	38	1173
/	39	1141
ù	40	890
1	41	782
k	42	745
2	43	725
3	44	488
9	45	284
5	46	281
œ	47	256
4	48	235
7	49	199
6	50	198
«	51	191
»	52	187
8	53	183
*	54	148
_	55	107
dead-¨	56	101
=	57	81
@	58	72
+	59	68
>	60	64
]	61	56
[	62	54
%	63	48
<	64	47
¨	65	20
&	66	20
|	67	12
#	68	11
$	69	10
­	70	8
°	71	8
²	72	7
^	73	5
~	74	5
©	75	4
·	76	2
ž	77	1
ð	78	1

Liens externes