« Fréquence des caractères/aspell » : différence entre les versions

De Disposition de clavier bépo
(Nouvelle page : e 1 738203 s 2 643663 i 3 620981 a 4 620084 n 5 558344 r 6 532914 t 7 477852 o 8 35893...)
 
(Ajout de la catégorie "Méthodologie")
 
(6 versions intermédiaires par un autre utilisateur non affichées)
Ligne 1 : Ligne 1 :
e       1       738203
Analyse sur un dictionnaire français (aspell dump master fr), entrées, 7 021 387 caractères :
s       2       643663
<pre>
i       3       620981
car. # nbre %
a       4       620084
e 1 738203 10,51363
n       5       558344
s 2 643663 9,16718
r       6       532914
i 3 620981 8,84414
t       7       477852
a 4 620084 8,83136
o       8       358933
n 5 558344 7,95205
l       9       302066
r 6 532914 7,58987
à     10     296322
t 7 477852 6,80566
'      11      287875
o 8 358933 5,11200
u       12      272061
l 9 302066 4,30208
©      13      210656
' 10 287875 4,09997
m       14      203397
u 11 272061 3,87475
c       15      197967
é 12 210656 3,00020
p       16      143280
m 13 203397 2,89682
d       17      138238
c 14 197967 2,81949
g       18      96115
p 15 143280 2,04062
b       19      88039
d 16 138238 1,96881
f       20      84714
g 17 96115 1,36889
q       21      83829
b 18 88039 1,25387
h       22      74942
f 19 84714 1,20651
z       23      69539
q 20 83829 1,19391
v       24      59291
h 21 74942 1,06734
¢      25      40858
z 22 69539 0,99039
x       26      23414
v 23 59291 0,84443
j       27      20884
â 24 40858 0,58191
¨      28      20831
x 25 23414 0,33347
y       29      18660
j 26 20884 0,29743
-       30      7001
è 27 20831 0,29668
®      31      6753
y 28 18660 0,26576
§      32      6071
- 29 7001 0,09971
ª      33      5168
î 30 6753 0,09618
»      34      2575
ç 31 6071 0,08646
k       35      2001
ê 32 5168 0,07360
´      36      1761
û 33 2575 0,03667
¯      37      1478
k 34 2001 0,02850
w       38     778
ô 35 1761 0,02508
¼      39     44
ï 36 1478 0,02105
«      40     35
w 37 778 0,01108
<89>    41     6
à 38 79 0,00113
¹      42     3
ü 39 44 0,00063
¶      43     2
ë 40 35 0,00050
¤      44     1
É 41 6 0,00009
<8e>   45      1
ù 42 3 0,00004
ö 43 2 0,00003
ä 44 1 0,00001
Î 44 1 0,00001
</pre>
 
Remarques :
*pas de ponctuation dans un dictionnaire ;
*il manque les ligatures æ/œ ;
 
Anecdotique :
*le « ñ » est absent, le seul mot possible est « cañon » (orthographe alternative de canyon) ;
*deux « ö » pour « maelström(s) » ;
*un « ä » pour « [[wp:Länder|Länder]] », pluriel du mot allemand « Land » fréquemment utilisé en français sans traduction ;
*un « Î » pour « [[wp:Île-des-Sœurs|Île-des-Sœurs]] », c'est un nom propre on pourrait tout autant avoir  [[wp:Île-de-France|Île-de-France]]…) ;
*six « É » : « (Paul-)Émile » et « Éric » (deux prénoms), « États-Unis », « l’École » (?), le seul nom commun est « l’Église »…
 
Caractères plus fréquents que sur les analyses de textes :
*apostrophe et tiret ;
*« â », « ê » et « ï » probablement à cause des conjugaisons ;
 
Caractères moins fréquents :
*« à » n'existe que dans les entrées « à », « çà », « là », « delà », « deçà », « delà », « pietà(s) », « voilà », « revoilà » et 69 mots-composés avec ceux-ci. Il est clairement sous-représenté en terme de fréquence.
*de même pour « ù » qui n'existe que dans les entrées « où », « d’où » et « jusqu’où »).
* û ô
[[Catégorie:Méthodologie]]

Dernière version du 27 mars 2023 à 14:28

Analyse sur un dictionnaire français (aspell dump master fr), entrées, 7 021 387 caractères :

car.	#	nbre	%
e	1	738203	10,51363
s	2	643663	9,16718
i	3	620981	8,84414
a	4	620084	8,83136
n	5	558344	7,95205
r	6	532914	7,58987
t	7	477852	6,80566
o	8	358933	5,11200
l	9	302066	4,30208
'	10	287875	4,09997
u	11	272061	3,87475
é	12	210656	3,00020
m	13	203397	2,89682
c	14	197967	2,81949
p	15	143280	2,04062
d	16	138238	1,96881
g	17	96115	1,36889
b	18	88039	1,25387
f	19	84714	1,20651
q	20	83829	1,19391
h	21	74942	1,06734
z	22	69539	0,99039
v	23	59291	0,84443
â	24	40858	0,58191
x	25	23414	0,33347
j	26	20884	0,29743
è	27	20831	0,29668
y	28	18660	0,26576
-	29	7001	0,09971
î	30	6753	0,09618
ç	31	6071	0,08646
ê	32	5168	0,07360
û	33	2575	0,03667
k	34	2001	0,02850
ô	35	1761	0,02508
ï	36	1478	0,02105
w	37	778	0,01108
à	38	79	0,00113
ü	39	44	0,00063
ë	40	35	0,00050
É	41	6	0,00009
ù	42	3	0,00004
ö	43	2	0,00003
ä	44	1	0,00001
Î	44	1	0,00001

Remarques :

  • pas de ponctuation dans un dictionnaire ;
  • il manque les ligatures æ/œ ;

Anecdotique :

  • le « ñ » est absent, le seul mot possible est « cañon » (orthographe alternative de canyon) ;
  • deux « ö » pour « maelström(s) » ;
  • un « ä » pour « Länder », pluriel du mot allemand « Land » fréquemment utilisé en français sans traduction ;
  • un « Î » pour « Île-des-Sœurs », c'est un nom propre on pourrait tout autant avoir Île-de-France…) ;
  • six « É » : « (Paul-)Émile » et « Éric » (deux prénoms), « États-Unis », « l’École » (?), le seul nom commun est « l’Église »…

Caractères plus fréquents que sur les analyses de textes :

  • apostrophe et tiret ;
  • « â », « ê » et « ï » probablement à cause des conjugaisons ;

Caractères moins fréquents :

  • « à » n'existe que dans les entrées « à », « çà », « là », « delà », « deçà », « delà », « pietà(s) », « voilà », « revoilà » et 69 mots-composés avec ceux-ci. Il est clairement sous-représenté en terme de fréquence.
  • de même pour « ù » qui n'existe que dans les entrées « où », « d’où » et « jusqu’où »).
  • û ô