« Statistiques » : différence entre les versions
(Nouvelle page : Préparatifs : Pour optimiser le processus, on fait un dump d'un des dictionnaires venant d'aspell : $ aspell dump master fr > dump-fr.txt $ wc -l dump-fr.txt 629569 dump-fr.txt D...) |
mAucun résumé des modifications |
||
Ligne 9 : | Ligne 9 : | ||
4255 | 4255 | ||
Ce qui nous fait 4255 entrées pour la rangée de base du bépo. | Ce qui nous fait 4255 entrées pour la rangée de base du bépo. | ||
Pour obtenir le nombre de mots en fonction du nombre de lettres : | |||
$ awk '/^[auiestrn]*$/' dump-fr.txt |\ | |||
perl -e '$word{-1+length $_}++ while (<STDIN>);\ | |||
print "$_: $word{$_}\n" foreach keys %word;'|sort -n | |||
1: 1 | |||
2: 26 | |||
3: 63 | |||
4: 150 | |||
5: 313 | |||
6: 497 | |||
7: 632 | |||
8: 686 | |||
9: 672 | |||
10: 523 | |||
11: 357 | |||
12: 204 | |||
13: 93 | |||
14: 31 | |||
15: 7 | |||
En résumé : | En résumé : | ||
* avec auiestrn, soit la rangée de base du bépo, on a 4255 résultats, soit un peu moins de 7%. | * avec auiestrn, soit la rangée de base du bépo, on a 4255 résultats, soit un peu moins de 7%. On obtient 7 mots de 15 lettres. | ||
* avec qsdfjklm, la rangée de base de l'azerty, on a 6 résultats, qui sont des unités (km, mm, ms, ml, dm et dl). | * avec qsdfjklm, la rangée de base de l'azerty, on a 6 résultats, qui sont des unités (km, mm, ms, ml, dm et dl). | ||
* avec asdfjkl, soit en qwerty, 35 résultats. | * avec asdfjkl, soit en qwerty, 35 résultats. On a un résultat avec 7 lettres, ce qui est le maximum. | ||
* avec aoeuhtns, en dvorak-us, 813 résultats, soit un peu plus de 1%. | * avec aoeuhtns, en dvorak-us, 813 résultats, soit un peu plus de 1%, et un résultat de 15 lettres. |
Version du 26 septembre 2008 à 16:51
Préparatifs : Pour optimiser le processus, on fait un dump d'un des dictionnaires venant d'aspell :
$ aspell dump master fr > dump-fr.txt $ wc -l dump-fr.txt 629569 dump-fr.txt
Donc, on part sur la base de 629 569 entrées (Il y a des mots, mais aussi des abbréviations et possiblement quelques sigles).
Via awk ou egrep et quelques expressions rationnelles, on sélectionne les touches qui nous intéressent :
$ awk '/^[auiestrn]*$/' dump-fr.txt | wc -l 4255
Ce qui nous fait 4255 entrées pour la rangée de base du bépo.
Pour obtenir le nombre de mots en fonction du nombre de lettres :
$ awk '/^[auiestrn]*$/' dump-fr.txt |\ perl -e '$word{-1+length $_}++ while (<STDIN>);\ print "$_: $word{$_}\n" foreach keys %word;'|sort -n 1: 1 2: 26 3: 63 4: 150 5: 313 6: 497 7: 632 8: 686 9: 672 10: 523 11: 357 12: 204 13: 93 14: 31 15: 7
En résumé :
- avec auiestrn, soit la rangée de base du bépo, on a 4255 résultats, soit un peu moins de 7%. On obtient 7 mots de 15 lettres.
- avec qsdfjklm, la rangée de base de l'azerty, on a 6 résultats, qui sont des unités (km, mm, ms, ml, dm et dl).
- avec asdfjkl, soit en qwerty, 35 résultats. On a un résultat avec 7 lettres, ce qui est le maximum.
- avec aoeuhtns, en dvorak-us, 813 résultats, soit un peu plus de 1%, et un résultat de 15 lettres.