Statistiques

Préparatifs : Pour optimiser le processus, on fait un dump d'un des dictionnaires venant d'aspell :

$ aspell dump master fr > dump-fr.txt
$ wc -l dump-fr.txt
629569 dump-fr.txt

Donc, on part sur la base de 629 569 entrées (Il y a des mots, mais aussi des abbréviations et possiblement quelques sigles).

Via awk ou egrep et quelques expressions rationnelles, on sélectionne les touches qui nous intéressent :

$ awk '/^[auiestrn]*$/' dump-fr.txt | wc -l
4255

Ce qui nous fait 4255 entrées pour la rangée de base du bépo.

Pour obtenir le nombre de mots en fonction du nombre de lettres :

$ awk '/^[auiestrn]*$/' dump-fr.txt |\
  perl -e '$word{-1+length $_}++ while (<STDIN>);\
  print "$_: $word{$_}\n" foreach keys %word;'|sort -n
1: 1
2: 26
3: 63
4: 150
5: 313
6: 497
7: 632
8: 686
9: 672
10: 523
11: 357
12: 204
13: 93
14: 31
15: 7

En résumé :

avec auiestrn, soit la rangée de base du bépo :
- on a 4255 résultats, soit un peu moins de 7%. On obtient 7 mots de 15 lettres.
- La fréquence totale de ces 8 caractères représentent 62% de la fréquence de tous les caractères (29% pour gsdfjklm) Nemolivier
avec qsdfjklm, la rangée de base de l'azerty, on a 6 résultats, qui sont des unités (km, mm, ms, ml, dm et dl).
avec asdfjkl, soit en qwerty, 35 résultats. On a un résultat avec 7 lettres, ce qui est le maximum.
avec aoeuhtns, en dvorak-us, 813 résultats, soit un peu plus de 1%, et un résultat de 15 lettres.