« Statistiques » : différence entre les versions
(→Statistiques : Subdivisons et lien vers les corpus) |
m (→Par lignes) |
||
Ligne 80 : | Ligne 80 : | ||
{| class="wikitable" border="1" | {| class="wikitable" border="1" | ||
|- | |- | ||
|Ligne || bépoè || dvorak-fr || azerty | |Ligne || bépoè || [[dvorak-fr]] || azerty | ||
|- | |- | ||
|des chiffres || 1,45 % || 1,67 % || 4,64 % | |des chiffres || 1,45 % || 1,67 % || 4,64 % |
Version du 15 janvier 2009 à 06:30
Obtention via Aspell
Préparatifs : Pour optimiser le processus, on fait un dump d'un des dictionnaires venant d'aspell :
$ aspell dump master fr > dump-fr.txt $ wc -l dump-fr.txt 629569 dump-fr.txt
Donc, on part sur la base de 629 569 entrées (Il y a des mots, mais aussi des abbréviations et possiblement quelques sigles).
Via awk ou egrep et quelques expressions rationnelles, on sélectionne les touches qui nous intéressent :
$ awk '/^[auiestrn]*$/' dump-fr.txt | wc -l 4255
Ce qui nous fait 4255 entrées pour la rangée de base du bépo.
Pour obtenir le nombre de mots en fonction du nombre de lettres :
$ awk '/^[auiestrn]*$/' dump-fr.txt |\ perl -e '$word{-1+length $_}++ while (<STDIN>);\ print "$_: $word{$_}\n" foreach sort {$a <=> $b} keys %word;' 1: 1 2: 26 3: 63 4: 150 5: 313 6: 497 7: 632 8: 686 9: 672 10: 523 11: 357 12: 204 13: 93 14: 31 15: 7
Statistiques
Globales
En résumé :
- avec auiestrn, soit la rangée de base du bépo :
- on a 4255 résultats, soit un peu moins de 7% de la totalité du dictionnaire. On obtient 7 mots de 15 lettres.
- La fréquence totale de ces 8 caractères représentent 62% de la fréquence de tous les caractères (29% pour qsdfjklm) Nemolivier
- avec qsdfjklm, la rangée de base de l'azerty, on a 6 résultats, qui sont des unités (km, mm, ms, ml, dm et dl).
- avec asdfjkl, soit en qwerty, 35 résultats. On a un résultat avec 7 lettres, ce qui est le maximum.
- avec aoeuhtns, en dvorak-us, 813 résultats, soit un peu plus de 1% du dictionnaire, et un résultat de 15 lettres.
Frappe dans la rangée de repos qsdfjklm - auietsrn :
- Thomas Trempé = 21,9 - 61,7 %
- Nicolas C. = 22 - 62 %
- http://www.apprendre-en-ligne.net/crypto/stat/francais.html : 23,7 - 67,57 % (éèê sont mélangées)
- http://www.lexique.org/listes/liste_lettres.php :
- Méthode 1 : 22,1 - 61,1 %
- Méthode 2 : ?
- Méthode 3 : 23,1 - 63,8 %
Corpus | Dispo | bépo | C. Marsan | Dvorak-fr | Dvorak-us | azerty | qwerty | ||||||
touches | auie tsrn | +cm | uiea trsn | +ol | oaue stnd | +bfw | aoeu htns | +id | qsdf jklm | +gh | asdf jkl | +gh | |
Dico Aspell-fr |
Nombre de résultats | 4255 | 10050 | 4255 | 13405 | 976 | 1846 | 813 | 3325 | 6 | 11 | 35 | 70 |
Longueur maximum (nombre) | 15 (7) | 17 (5) | 15 (7) | 23 (2) | 13 (5) | 14 (2) | 15 (1) | 16 (4) | 2 (6) | 2 (11) | 7 (1) | 8 (1) | |
Thomas Trempé | Pourcentage de frappes | 61,7 % | 57 % | 54,2 % | 21,9 % | 27,8 % | |||||||
Nicolas C. | Pourcentage de frappes | 62 % | 69 % | 57 % | 59 % | 54,2 % | 22 % | 28 % | |||||
lexique.org | Pourcentage de frappes (méthode 1) | 61,1 % | 56,5 % | 53,8 % | 22,1 % | 28,3 % | |||||||
Pourcentage de frappes (méthode 2) | |||||||||||||
Pourcentage de frappes (méthode 3) | 63,8 % | 59,1 % | 56,3 % | 23,1 % | 29,5 % |
Par lignes
Pourcentage de frappes par ligne (quelques pourcentages sont faussés par le manque de statistiques ne correspondant pas aux alliages de symboles). Mais je ne pense pas que ça influe de ± o,5%. Le corpus utilisé est celui de Nicolas Chartier.
Ligne | bépoè | dvorak-fr | azerty |
des chiffres | 1,45 % | 1,67 % | 4,64 % |
du haut | 22,17 % | 13,71 % | 56,36 % |
du milieu | 69,03 % | 58,93 % | 23,33 % |
du bas | 7,35 % | 25,69 % | 15,67 % |