« Fréquence des caractères/aspell » : différence entre les versions

De Disposition de clavier bépo
Aucun résumé des modifications
(Ajout de la catégorie "Méthodologie")
 
(4 versions intermédiaires par un autre utilisateur non affichées)
Ligne 1 : Ligne 1 :
(à delete, encodage foireux)
Analyse sur un dictionnaire français (aspell dump master fr), entrées, 7 021 387 caractères :
<pre>
<pre>
e       1       738203
car. # nbre %
s       2       643663
e 1 738203 10,51363
i       3       620981
s 2 643663 9,16718
a       4       620084
i 3 620981 8,84414
n       5       558344
a 4 620084 8,83136
r       6       532914
n 5 558344 7,95205
t       7       477852
r 6 532914 7,58987
o       8       358933
t 7 477852 6,80566
l       9       302066
o 8 358933 5,11200
à     10     296322
l 9 302066 4,30208
'      11      287875
' 10 287875 4,09997
u       12      272061
u 11 272061 3,87475
©      13      210656
é 12 210656 3,00020
m       14      203397
m 13 203397 2,89682
c       15      197967
c 14 197967 2,81949
p       16      143280
p 15 143280 2,04062
d       17      138238
d 16 138238 1,96881
g       18      96115
g 17 96115 1,36889
b       19      88039
b 18 88039 1,25387
f       20      84714
f 19 84714 1,20651
q       21      83829
q 20 83829 1,19391
h       22      74942
h 21 74942 1,06734
z       23      69539
z 22 69539 0,99039
v       24      59291
v 23 59291 0,84443
¢      25      40858
â 24 40858 0,58191
x       26      23414
x 25 23414 0,33347
j       27      20884
j 26 20884 0,29743
¨      28      20831
è 27 20831 0,29668
y       29      18660
y 28 18660 0,26576
-       30      7001
- 29 7001 0,09971
®      31      6753
î 30 6753 0,09618
§      32      6071
ç 31 6071 0,08646
ª      33      5168
ê 32 5168 0,07360
»      34      2575
û 33 2575 0,03667
k       35      2001
k 34 2001 0,02850
´      36      1761
ô 35 1761 0,02508
¯      37      1478
ï 36 1478 0,02105
w       38     778
w 37 778 0,01108
¼      39     44
à 38 79 0,00113
«      40     35
ü 39 44 0,00063
<89>    41     6
ë 40 35 0,00050
¹      42     3
É 41 6 0,00009
¶      43     2
ù 42 3 0,00004
¤      44     1
ö 43 2 0,00003
<8e>    45      1
ä 44 1 0,00001
Î 44 1 0,00001
</pre>
</pre>
Remarques :
*pas de ponctuation dans un dictionnaire ;
*il manque les ligatures æ/œ ;
Anecdotique :
*le « ñ » est absent, le seul mot possible est « cañon » (orthographe alternative de canyon) ;
*deux « ö » pour « maelström(s) » ;
*un « ä » pour « [[wp:Länder|Länder]] », pluriel du mot allemand « Land » fréquemment utilisé en français sans traduction ;
*un « Î » pour « [[wp:Île-des-Sœurs|Île-des-Sœurs]] », c'est un nom propre on pourrait tout autant avoir  [[wp:Île-de-France|Île-de-France]]…) ;
*six « É » : « (Paul-)Émile » et « Éric » (deux prénoms), « États-Unis », « l’École » (?), le seul nom commun est « l’Église »…
Caractères plus fréquents que sur les analyses de textes :
*apostrophe et tiret ;
*« â », « ê » et « ï » probablement à cause des conjugaisons ;
Caractères moins fréquents :
*« à » n'existe que dans les entrées « à », « çà », « là », « delà », « deçà », « delà », « pietà(s) », « voilà », « revoilà » et 69 mots-composés avec ceux-ci. Il est clairement sous-représenté en terme de fréquence.
*de même pour « ù » qui n'existe que dans les entrées « où », « d’où » et « jusqu’où »).
* û ô
[[Catégorie:Méthodologie]]

Dernière version du 27 mars 2023 à 14:28

Analyse sur un dictionnaire français (aspell dump master fr), entrées, 7 021 387 caractères :

car.	#	nbre	%
e	1	738203	10,51363
s	2	643663	9,16718
i	3	620981	8,84414
a	4	620084	8,83136
n	5	558344	7,95205
r	6	532914	7,58987
t	7	477852	6,80566
o	8	358933	5,11200
l	9	302066	4,30208
'	10	287875	4,09997
u	11	272061	3,87475
é	12	210656	3,00020
m	13	203397	2,89682
c	14	197967	2,81949
p	15	143280	2,04062
d	16	138238	1,96881
g	17	96115	1,36889
b	18	88039	1,25387
f	19	84714	1,20651
q	20	83829	1,19391
h	21	74942	1,06734
z	22	69539	0,99039
v	23	59291	0,84443
â	24	40858	0,58191
x	25	23414	0,33347
j	26	20884	0,29743
è	27	20831	0,29668
y	28	18660	0,26576
-	29	7001	0,09971
î	30	6753	0,09618
ç	31	6071	0,08646
ê	32	5168	0,07360
û	33	2575	0,03667
k	34	2001	0,02850
ô	35	1761	0,02508
ï	36	1478	0,02105
w	37	778	0,01108
à	38	79	0,00113
ü	39	44	0,00063
ë	40	35	0,00050
É	41	6	0,00009
ù	42	3	0,00004
ö	43	2	0,00003
ä	44	1	0,00001
Î	44	1	0,00001

Remarques :

  • pas de ponctuation dans un dictionnaire ;
  • il manque les ligatures æ/œ ;

Anecdotique :

  • le « ñ » est absent, le seul mot possible est « cañon » (orthographe alternative de canyon) ;
  • deux « ö » pour « maelström(s) » ;
  • un « ä » pour « Länder », pluriel du mot allemand « Land » fréquemment utilisé en français sans traduction ;
  • un « Î » pour « Île-des-Sœurs », c'est un nom propre on pourrait tout autant avoir Île-de-France…) ;
  • six « É » : « (Paul-)Émile » et « Éric » (deux prénoms), « États-Unis », « l’École » (?), le seul nom commun est « l’Église »…

Caractères plus fréquents que sur les analyses de textes :

  • apostrophe et tiret ;
  • « â », « ê » et « ï » probablement à cause des conjugaisons ;

Caractères moins fréquents :

  • « à » n'existe que dans les entrées « à », « çà », « là », « delà », « deçà », « delà », « pietà(s) », « voilà », « revoilà » et 69 mots-composés avec ceux-ci. Il est clairement sous-représenté en terme de fréquence.
  • de même pour « ù » qui n'existe que dans les entrées « où », « d’où » et « jusqu’où »).
  • û ô