« Statistiques » : différence entre les versions
m (a renommé Obtention de statistiques en Statistiques) |
|||
Ligne 54 : | Ligne 54 : | ||
{| class="wikitable" border="1" | {| class="wikitable" border="1" | ||
|- | |- | ||
| Corpus || | | Corpus || Dispo || colspan ="2" | bépo || colspan ="2" | C. Marsan || colspan ="2" | [[Dvorak-fr]] || Dvorak-us || azerty || qwerty | ||
|- | |- | ||
| rowspan=2 | Aspell-fr || Nombre de résultats || 4255 || 976 || 813 || 6 || 35 | | || touches || auie/tsrn || auie/ctsrnm || uiea/trsn || uieao/ltrsn || oaue/stnd || oaueb/fstndw || | ||
|- | |||
| rowspan=2 | Aspell-fr || Nombre de résultats || 4255 || 10050 || 4255 || 13405 || 976 || 1846 || 813 || 6 || 35 | |||
|- | |- | ||
| Mot le plus long (nombre) || 15 (7) || 13 (5) || 15 (1) || 2 (6) || 7 (1) | | Mot le plus long (nombre) || 15 (7) || 13 (5) || 15 (1) || 2 (6) || 7 (1) | ||
Ligne 70 : | Ligne 72 : | ||
| Pourcentage de frappes (méthode 3) || 63,8 % || 59,1 % || 56,3 % || 23,1 % || 29,5 % | | Pourcentage de frappes (méthode 3) || 63,8 % || 59,1 % || 56,3 % || 23,1 % || 29,5 % | ||
|} | |} | ||
Réf. disposition de Claude Marsan (québec, années 1970, corpus de 400k mots) : | |||
*http://www.presse-francophone.org/apfa/journees/87/laugini5.htm | |||
*http://www.lgi.ecp.fr/~yannou/docs%20diverses/Yannou%20-%20Projet%20innovant%20clavier%20ergonomique.pdf |
Version du 12 octobre 2008 à 01:23
Obtention via Aspell
Préparatifs : Pour optimiser le processus, on fait un dump d'un des dictionnaires venant d'aspell :
$ aspell dump master fr > dump-fr.txt $ wc -l dump-fr.txt 629569 dump-fr.txt
Donc, on part sur la base de 629 569 entrées (Il y a des mots, mais aussi des abbréviations et possiblement quelques sigles).
Via awk ou egrep et quelques expressions rationnelles, on sélectionne les touches qui nous intéressent :
$ awk '/^[auiestrn]*$/' dump-fr.txt | wc -l 4255
Ce qui nous fait 4255 entrées pour la rangée de base du bépo.
Pour obtenir le nombre de mots en fonction du nombre de lettres :
$ awk '/^[auiestrn]*$/' dump-fr.txt |\ perl -e '$word{-1+length $_}++ while (<STDIN>);\ print "$_: $word{$_}\n" foreach sort {$a <=> $b} keys %word;' 1: 1 2: 26 3: 63 4: 150 5: 313 6: 497 7: 632 8: 686 9: 672 10: 523 11: 357 12: 204 13: 93 14: 31 15: 7
Statistiques
En résumé :
- avec auiestrn, soit la rangée de base du bépo :
- on a 4255 résultats, soit un peu moins de 7% de la totalité du dictionnaire. On obtient 7 mots de 15 lettres.
- La fréquence totale de ces 8 caractères représentent 62% de la fréquence de tous les caractères (29% pour qsdfjklm) Nemolivier
- avec qsdfjklm, la rangée de base de l'azerty, on a 6 résultats, qui sont des unités (km, mm, ms, ml, dm et dl).
- avec asdfjkl, soit en qwerty, 35 résultats. On a un résultat avec 7 lettres, ce qui est le maximum.
- avec aoeuhtns, en dvorak-us, 813 résultats, soit un peu plus de 1% du dictionnaire, et un résultat de 15 lettres.
Frappe dans la rangée de repos qsdfjklm - auietsrn :
- Thomas Trempé = 21,9 - 61,7 %
- Nicolas C. = 22 - 62 %
- http://www.apprendre-en-ligne.net/crypto/stat/francais.html : 23,7 - 67,57 % (éèê sont mélangées)
- http://www.lexique.org/listes/liste_lettres.php :
- Méthode 1 : 22,1 - 61,1 %
- Méthode 2 : ?
- Méthode 3 : 23,1 - 63,8 %
Corpus | Dispo | bépo | C. Marsan | Dvorak-fr | Dvorak-us | azerty | qwerty | |||
touches | auie/tsrn | auie/ctsrnm | uiea/trsn | uieao/ltrsn | oaue/stnd | oaueb/fstndw | ||||
Aspell-fr | Nombre de résultats | 4255 | 10050 | 4255 | 13405 | 976 | 1846 | 813 | 6 | 35 |
Mot le plus long (nombre) | 15 (7) | 13 (5) | 15 (1) | 2 (6) | 7 (1) | |||||
Thomas Trempé | Pourcentage de frappes | 61,7 % | 57 % | 54,2 % | 21,9 % | 27,8 % | ||||
Nicolas C. | Pourcentage de frappes | 62 % | 57 % | 54,2 % | 22 % | 28 % | ||||
lexique.org | Pourcentage de frappes (méthode 1) | 61,1 % | 56,5 % | 53,8 % | 22,1 % | 28,3 % | ||||
Pourcentage de frappes (méthode 2) | ? | ? | ? | ? | ? | |||||
Pourcentage de frappes (méthode 3) | 63,8 % | 59,1 % | 56,3 % | 23,1 % | 29,5 % |
Réf. disposition de Claude Marsan (québec, années 1970, corpus de 400k mots) :