« Fréquence des caractères/aspell » : différence entre les versions
m (à finir) |
Aucun résumé des modifications |
||
Ligne 52 : | Ligne 52 : | ||
*pas de ponctuation dans un dictionnaire ; | *pas de ponctuation dans un dictionnaire ; | ||
*il manque les ligatures æ/œ ; | *il manque les ligatures æ/œ ; | ||
*le dico a des entrées probablement erronées, par ex. : boëte, poële (?) | |||
Anecdotique : | Anecdotique : |
Version du 13 octobre 2008 à 00:36
Analyse sur un dictionnaire français (aspell dump master fr), entrées, 7 021 387 caractères :
car. # nbre % e 1 738203 10,51363 s 2 643663 9,16718 i 3 620981 8,84414 a 4 620084 8,83136 n 5 558344 7,95205 r 6 532914 7,58987 t 7 477852 6,80566 o 8 358933 5,11200 l 9 302066 4,30208 ' 10 287875 4,09997 u 11 272061 3,87475 é 12 210656 3,00020 m 13 203397 2,89682 c 14 197967 2,81949 p 15 143280 2,04062 d 16 138238 1,96881 g 17 96115 1,36889 b 18 88039 1,25387 f 19 84714 1,20651 q 20 83829 1,19391 h 21 74942 1,06734 z 22 69539 0,99039 v 23 59291 0,84443 â 24 40858 0,58191 x 25 23414 0,33347 j 26 20884 0,29743 è 27 20831 0,29668 y 28 18660 0,26576 - 29 7001 0,09971 î 30 6753 0,09618 ç 31 6071 0,08646 ê 32 5168 0,07360 û 33 2575 0,03667 k 34 2001 0,02850 ô 35 1761 0,02508 ï 36 1478 0,02105 w 37 778 0,01108 à 38 79 0,00113 ü 39 44 0,00063 ë 40 35 0,00050 É 41 6 0,00009 ù 42 3 0,00004 ö 43 2 0,00003 ä 44 1 0,00001 Î 44 1 0,00001
Remarques :
- pas de ponctuation dans un dictionnaire ;
- il manque les ligatures æ/œ ;
- le dico a des entrées probablement erronées, par ex. : boëte, poële (?)
Anecdotique :
- le « ñ » est absent, le seul mot possible est « cañon » (orthographe alternative de canyon) ;
- deux « ö » pour « maelström(s) » ;
- un « ä » pour « Länder », pluriel du mot allemand « Land » fréquemment utilisé en français sans traduction ;
- un « Î » pour « Île-des-Sœurs », c'est un nom propre on pourrait tout autant avoir Île-de-France…) ;
- six « É » : « (Paul-)Émile » et « Éric » (deux prénoms), « États-Unis », « l’École » (?), le seul nom commun est « l’Église »…
Caractères plus fréquents que sur les analyses de textes :
- apostrophe et tiret ;
- « â », « ê » et « ï » probablement à cause des conjugaisons ;
Caractères moins fréquents :
- « à » n'existe que dans les entrées « à », « çà », « là », « delà », « deçà », « delà », « pietà(s) », « voilà », « revoilà » et 69 mots-composés avec ceux-ci. Il est clairement sous-représenté en terme de fréquence.
- de même pour « ù » qui n'existe que dans les entrées « où », « d’où » et « jusqu’où »).
- û ô