« Fréquence des caractères/aspell » : différence entre les versions
(Nouvelle page : e 1 738203 s 2 643663 i 3 620981 a 4 620084 n 5 558344 r 6 532914 t 7 477852 o 8 35893...) |
(Ajout de la catégorie "Méthodologie") |
||
(6 versions intermédiaires par un autre utilisateur non affichées) | |||
Ligne 1 : | Ligne 1 : | ||
e | Analyse sur un dictionnaire français (aspell dump master fr), entrées, 7 021 387 caractères : | ||
s | <pre> | ||
i | car. # nbre % | ||
a | e 1 738203 10,51363 | ||
n | s 2 643663 9,16718 | ||
r | i 3 620981 8,84414 | ||
t | a 4 620084 8,83136 | ||
o | n 5 558344 7,95205 | ||
l | r 6 532914 7,58987 | ||
t 7 477852 6,80566 | |||
o 8 358933 5,11200 | |||
u | l 9 302066 4,30208 | ||
' 10 287875 4,09997 | |||
m | u 11 272061 3,87475 | ||
c | é 12 210656 3,00020 | ||
p | m 13 203397 2,89682 | ||
d | c 14 197967 2,81949 | ||
g | p 15 143280 2,04062 | ||
b | d 16 138238 1,96881 | ||
f | g 17 96115 1,36889 | ||
q | b 18 88039 1,25387 | ||
h | f 19 84714 1,20651 | ||
z | q 20 83829 1,19391 | ||
v | h 21 74942 1,06734 | ||
z 22 69539 0,99039 | |||
x | v 23 59291 0,84443 | ||
j | â 24 40858 0,58191 | ||
x 25 23414 0,33347 | |||
y | j 26 20884 0,29743 | ||
- | è 27 20831 0,29668 | ||
y 28 18660 0,26576 | |||
- 29 7001 0,09971 | |||
î 30 6753 0,09618 | |||
ç 31 6071 0,08646 | |||
k | ê 32 5168 0,07360 | ||
û 33 2575 0,03667 | |||
k 34 2001 0,02850 | |||
w | ô 35 1761 0,02508 | ||
ï 36 1478 0,02105 | |||
w 37 778 0,01108 | |||
à 38 79 0,00113 | |||
ü 39 44 0,00063 | |||
ë 40 35 0,00050 | |||
É 41 6 0,00009 | |||
< | ù 42 3 0,00004 | ||
ö 43 2 0,00003 | |||
ä 44 1 0,00001 | |||
Î 44 1 0,00001 | |||
</pre> | |||
Remarques : | |||
*pas de ponctuation dans un dictionnaire ; | |||
*il manque les ligatures æ/œ ; | |||
Anecdotique : | |||
*le « ñ » est absent, le seul mot possible est « cañon » (orthographe alternative de canyon) ; | |||
*deux « ö » pour « maelström(s) » ; | |||
*un « ä » pour « [[wp:Länder|Länder]] », pluriel du mot allemand « Land » fréquemment utilisé en français sans traduction ; | |||
*un « Î » pour « [[wp:Île-des-Sœurs|Île-des-Sœurs]] », c'est un nom propre on pourrait tout autant avoir [[wp:Île-de-France|Île-de-France]]…) ; | |||
*six « É » : « (Paul-)Émile » et « Éric » (deux prénoms), « États-Unis », « l’École » (?), le seul nom commun est « l’Église »… | |||
Caractères plus fréquents que sur les analyses de textes : | |||
*apostrophe et tiret ; | |||
*« â », « ê » et « ï » probablement à cause des conjugaisons ; | |||
Caractères moins fréquents : | |||
*« à » n'existe que dans les entrées « à », « çà », « là », « delà », « deçà », « delà », « pietà(s) », « voilà », « revoilà » et 69 mots-composés avec ceux-ci. Il est clairement sous-représenté en terme de fréquence. | |||
*de même pour « ù » qui n'existe que dans les entrées « où », « d’où » et « jusqu’où »). | |||
* û ô | |||
[[Catégorie:Méthodologie]] |
Dernière version du 27 mars 2023 à 14:28
Analyse sur un dictionnaire français (aspell dump master fr), entrées, 7 021 387 caractères :
car. # nbre % e 1 738203 10,51363 s 2 643663 9,16718 i 3 620981 8,84414 a 4 620084 8,83136 n 5 558344 7,95205 r 6 532914 7,58987 t 7 477852 6,80566 o 8 358933 5,11200 l 9 302066 4,30208 ' 10 287875 4,09997 u 11 272061 3,87475 é 12 210656 3,00020 m 13 203397 2,89682 c 14 197967 2,81949 p 15 143280 2,04062 d 16 138238 1,96881 g 17 96115 1,36889 b 18 88039 1,25387 f 19 84714 1,20651 q 20 83829 1,19391 h 21 74942 1,06734 z 22 69539 0,99039 v 23 59291 0,84443 â 24 40858 0,58191 x 25 23414 0,33347 j 26 20884 0,29743 è 27 20831 0,29668 y 28 18660 0,26576 - 29 7001 0,09971 î 30 6753 0,09618 ç 31 6071 0,08646 ê 32 5168 0,07360 û 33 2575 0,03667 k 34 2001 0,02850 ô 35 1761 0,02508 ï 36 1478 0,02105 w 37 778 0,01108 à 38 79 0,00113 ü 39 44 0,00063 ë 40 35 0,00050 É 41 6 0,00009 ù 42 3 0,00004 ö 43 2 0,00003 ä 44 1 0,00001 Î 44 1 0,00001
Remarques :
- pas de ponctuation dans un dictionnaire ;
- il manque les ligatures æ/œ ;
Anecdotique :
- le « ñ » est absent, le seul mot possible est « cañon » (orthographe alternative de canyon) ;
- deux « ö » pour « maelström(s) » ;
- un « ä » pour « Länder », pluriel du mot allemand « Land » fréquemment utilisé en français sans traduction ;
- un « Î » pour « Île-des-Sœurs », c'est un nom propre on pourrait tout autant avoir Île-de-France…) ;
- six « É » : « (Paul-)Émile » et « Éric » (deux prénoms), « États-Unis », « l’École » (?), le seul nom commun est « l’Église »…
Caractères plus fréquents que sur les analyses de textes :
- apostrophe et tiret ;
- « â », « ê » et « ï » probablement à cause des conjugaisons ;
Caractères moins fréquents :
- « à » n'existe que dans les entrées « à », « çà », « là », « delà », « deçà », « delà », « pietà(s) », « voilà », « revoilà » et 69 mots-composés avec ceux-ci. Il est clairement sous-représenté en terme de fréquence.
- de même pour « ù » qui n'existe que dans les entrées « où », « d’où » et « jusqu’où »).
- û ô