« Fréquence des caractères/aspell » : différence entre les versions
mAucun résumé des modifications |
m (à finir) |
||
Ligne 1 : | Ligne 1 : | ||
Analyse sur un dictionnaire français (aspell dump master fr) | Analyse sur un dictionnaire français (aspell dump master fr), entrées, 7 021 387 caractères : | ||
<pre> | <pre> | ||
e | car. # nbre % | ||
s | e 1 738203 10,51363 | ||
i | s 2 643663 9,16718 | ||
a | i 3 620981 8,84414 | ||
n | a 4 620084 8,83136 | ||
r | n 5 558344 7,95205 | ||
t | r 6 532914 7,58987 | ||
o | t 7 477852 6,80566 | ||
l | o 8 358933 5,11200 | ||
' | l 9 302066 4,30208 | ||
u | ' 10 287875 4,09997 | ||
é | u 11 272061 3,87475 | ||
m | é 12 210656 3,00020 | ||
c | m 13 203397 2,89682 | ||
p | c 14 197967 2,81949 | ||
d | p 15 143280 2,04062 | ||
g | d 16 138238 1,96881 | ||
b | g 17 96115 1,36889 | ||
f | b 18 88039 1,25387 | ||
q | f 19 84714 1,20651 | ||
h | q 20 83829 1,19391 | ||
z | h 21 74942 1,06734 | ||
v | z 22 69539 0,99039 | ||
â | v 23 59291 0,84443 | ||
x | â 24 40858 0,58191 | ||
j | x 25 23414 0,33347 | ||
è | j 26 20884 0,29743 | ||
y | è 27 20831 0,29668 | ||
- | y 28 18660 0,26576 | ||
î | - 29 7001 0,09971 | ||
ç | î 30 6753 0,09618 | ||
ê | ç 31 6071 0,08646 | ||
û | ê 32 5168 0,07360 | ||
k | û 33 2575 0,03667 | ||
ô | k 34 2001 0,02850 | ||
ï | ô 35 1761 0,02508 | ||
w | ï 36 1478 0,02105 | ||
à | w 37 778 0,01108 | ||
ü | à 38 79 0,00113 | ||
ë | ü 39 44 0,00063 | ||
É | ë 40 35 0,00050 | ||
ù | É 41 6 0,00009 | ||
ö | ù 42 3 0,00004 | ||
ä | ö 43 2 0,00003 | ||
Î | ä 44 1 0,00001 | ||
Î 44 1 0,00001 | |||
</pre> | </pre> | ||
Remarques : | |||
*pas de ponctuation dans un dictionnaire ; | |||
*il manque les ligatures æ/œ ; | |||
Anecdotique : | |||
*le « ñ » est absent, le seul mot possible est « cañon » (orthographe alternative de canyon) ; | |||
*deux « ö » pour « maelström(s) » ; | |||
*un « ä » pour « [[wp:Länder|Länder]] », pluriel du mot allemand « Land » fréquemment utilisé en français sans traduction ; | |||
*un « Î » pour « [[wp:Île-des-Sœurs|Île-des-Sœurs]] », c'est un nom propre on pourrait tout autant avoir [[wp:Île-de-France|Île-de-France]]…) ; | |||
*six « É » : « (Paul-)Émile » et « Éric » (deux prénoms), « États-Unis », « l’École » (?), le seul nom commun est « l’Église »… | |||
Caractères plus fréquents que sur les analyses de textes : | |||
*apostrophe et tiret ; | |||
*« â », « ê » et « ï » probablement à cause des conjugaisons ; | |||
Caractères moins fréquents : | |||
*« à » n'existe que dans les entrées « à », « çà », « là », « delà », « deçà », « delà », « pietà(s) », « voilà », « revoilà » et 69 mots-composés avec ceux-ci. Il est clairement sous-représenté en terme de fréquence. | |||
*de même pour « ù » qui n'existe que dans les entrées « où », « d’où » et « jusqu’où »). | |||
* û ô |
Version du 12 octobre 2008 à 22:48
Analyse sur un dictionnaire français (aspell dump master fr), entrées, 7 021 387 caractères :
car. # nbre % e 1 738203 10,51363 s 2 643663 9,16718 i 3 620981 8,84414 a 4 620084 8,83136 n 5 558344 7,95205 r 6 532914 7,58987 t 7 477852 6,80566 o 8 358933 5,11200 l 9 302066 4,30208 ' 10 287875 4,09997 u 11 272061 3,87475 é 12 210656 3,00020 m 13 203397 2,89682 c 14 197967 2,81949 p 15 143280 2,04062 d 16 138238 1,96881 g 17 96115 1,36889 b 18 88039 1,25387 f 19 84714 1,20651 q 20 83829 1,19391 h 21 74942 1,06734 z 22 69539 0,99039 v 23 59291 0,84443 â 24 40858 0,58191 x 25 23414 0,33347 j 26 20884 0,29743 è 27 20831 0,29668 y 28 18660 0,26576 - 29 7001 0,09971 î 30 6753 0,09618 ç 31 6071 0,08646 ê 32 5168 0,07360 û 33 2575 0,03667 k 34 2001 0,02850 ô 35 1761 0,02508 ï 36 1478 0,02105 w 37 778 0,01108 à 38 79 0,00113 ü 39 44 0,00063 ë 40 35 0,00050 É 41 6 0,00009 ù 42 3 0,00004 ö 43 2 0,00003 ä 44 1 0,00001 Î 44 1 0,00001
Remarques :
- pas de ponctuation dans un dictionnaire ;
- il manque les ligatures æ/œ ;
Anecdotique :
- le « ñ » est absent, le seul mot possible est « cañon » (orthographe alternative de canyon) ;
- deux « ö » pour « maelström(s) » ;
- un « ä » pour « Länder », pluriel du mot allemand « Land » fréquemment utilisé en français sans traduction ;
- un « Î » pour « Île-des-Sœurs », c'est un nom propre on pourrait tout autant avoir Île-de-France…) ;
- six « É » : « (Paul-)Émile » et « Éric » (deux prénoms), « États-Unis », « l’École » (?), le seul nom commun est « l’Église »…
Caractères plus fréquents que sur les analyses de textes :
- apostrophe et tiret ;
- « â », « ê » et « ï » probablement à cause des conjugaisons ;
Caractères moins fréquents :
- « à » n'existe que dans les entrées « à », « çà », « là », « delà », « deçà », « delà », « pietà(s) », « voilà », « revoilà » et 69 mots-composés avec ceux-ci. Il est clairement sous-représenté en terme de fréquence.
- de même pour « ù » qui n'existe que dans les entrées « où », « d’où » et « jusqu’où »).
- û ô