Fréquence des caractères/aspell

De Disposition de clavier bépo
< Fréquence des caractères
Version datée du 27 mars 2023 à 14:28 par Europano (discussion | contributions) (Ajout de la catégorie "Méthodologie")
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

Analyse sur un dictionnaire français (aspell dump master fr), entrées, 7 021 387 caractères :

car.	#	nbre	%
e	1	738203	10,51363
s	2	643663	9,16718
i	3	620981	8,84414
a	4	620084	8,83136
n	5	558344	7,95205
r	6	532914	7,58987
t	7	477852	6,80566
o	8	358933	5,11200
l	9	302066	4,30208
'	10	287875	4,09997
u	11	272061	3,87475
é	12	210656	3,00020
m	13	203397	2,89682
c	14	197967	2,81949
p	15	143280	2,04062
d	16	138238	1,96881
g	17	96115	1,36889
b	18	88039	1,25387
f	19	84714	1,20651
q	20	83829	1,19391
h	21	74942	1,06734
z	22	69539	0,99039
v	23	59291	0,84443
â	24	40858	0,58191
x	25	23414	0,33347
j	26	20884	0,29743
è	27	20831	0,29668
y	28	18660	0,26576
-	29	7001	0,09971
î	30	6753	0,09618
ç	31	6071	0,08646
ê	32	5168	0,07360
û	33	2575	0,03667
k	34	2001	0,02850
ô	35	1761	0,02508
ï	36	1478	0,02105
w	37	778	0,01108
à	38	79	0,00113
ü	39	44	0,00063
ë	40	35	0,00050
É	41	6	0,00009
ù	42	3	0,00004
ö	43	2	0,00003
ä	44	1	0,00001
Î	44	1	0,00001

Remarques :

  • pas de ponctuation dans un dictionnaire ;
  • il manque les ligatures æ/œ ;

Anecdotique :

  • le « ñ » est absent, le seul mot possible est « cañon » (orthographe alternative de canyon) ;
  • deux « ö » pour « maelström(s) » ;
  • un « ä » pour « Länder », pluriel du mot allemand « Land » fréquemment utilisé en français sans traduction ;
  • un « Î » pour « Île-des-Sœurs », c'est un nom propre on pourrait tout autant avoir Île-de-France…) ;
  • six « É » : « (Paul-)Émile » et « Éric » (deux prénoms), « États-Unis », « l’École » (?), le seul nom commun est « l’Église »…

Caractères plus fréquents que sur les analyses de textes :

  • apostrophe et tiret ;
  • « â », « ê » et « ï » probablement à cause des conjugaisons ;

Caractères moins fréquents :

  • « à » n'existe que dans les entrées « à », « çà », « là », « delà », « deçà », « delà », « pietà(s) », « voilà », « revoilà » et 69 mots-composés avec ceux-ci. Il est clairement sous-représenté en terme de fréquence.
  • de même pour « ù » qui n'existe que dans les entrées « où », « d’où » et « jusqu’où »).
  • û ô