Statistiques

De Disposition de clavier bépo
Version datée du 15 janvier 2009 à 06:22 par Nemolivier (discussion | contributions) (→‎Statistiques : Subdivisons et lien vers les corpus)

Obtention via Aspell

Préparatifs : Pour optimiser le processus, on fait un dump d'un des dictionnaires venant d'aspell :

$ aspell dump master fr > dump-fr.txt
$ wc -l dump-fr.txt
629569 dump-fr.txt

Donc, on part sur la base de 629 569 entrées (Il y a des mots, mais aussi des abbréviations et possiblement quelques sigles).

Via awk ou egrep et quelques expressions rationnelles, on sélectionne les touches qui nous intéressent :

$ awk '/^[auiestrn]*$/' dump-fr.txt | wc -l
4255

Ce qui nous fait 4255 entrées pour la rangée de base du bépo.

Pour obtenir le nombre de mots en fonction du nombre de lettres :

$ awk '/^[auiestrn]*$/' dump-fr.txt |\
  perl -e '$word{-1+length $_}++ while (<STDIN>);\
  print "$_: $word{$_}\n" foreach sort {$a <=> $b} keys %word;'
1: 1
2: 26
3: 63
4: 150
5: 313
6: 497
7: 632
8: 686
9: 672
10: 523
11: 357
12: 204
13: 93
14: 31
15: 7

Statistiques

Globales

En résumé :

  • avec auiestrn, soit la rangée de base du bépo :
    • on a 4255 résultats, soit un peu moins de 7% de la totalité du dictionnaire. On obtient 7 mots de 15 lettres.
    • La fréquence totale de ces 8 caractères représentent 62% de la fréquence de tous les caractères (29% pour qsdfjklm) Nemolivier
  • avec qsdfjklm, la rangée de base de l'azerty, on a 6 résultats, qui sont des unités (km, mm, ms, ml, dm et dl).
  • avec asdfjkl, soit en qwerty, 35 résultats. On a un résultat avec 7 lettres, ce qui est le maximum.
  • avec aoeuhtns, en dvorak-us, 813 résultats, soit un peu plus de 1% du dictionnaire, et un résultat de 15 lettres.

Frappe dans la rangée de repos qsdfjklm - auietsrn :


Corpus Dispo bépo C. Marsan Dvorak-fr Dvorak-us azerty qwerty
touches auie tsrn +cm uiea trsn +ol oaue stnd +bfw aoeu htns +id qsdf jklm +gh asdf jkl +gh
Dico
Aspell-fr
Nombre de résultats 4255 10050 4255 13405 976 1846 813 3325 6 11 35 70
Longueur maximum (nombre) 15 (7) 17 (5) 15 (7) 23 (2) 13 (5) 14 (2) 15 (1) 16 (4) 2 (6) 2 (11) 7 (1) 8 (1)
Thomas Trempé Pourcentage de frappes 61,7 % 57 % 54,2 % 21,9 % 27,8 %
Nicolas C. Pourcentage de frappes 62 % 69 % 57 % 59 % 54,2 % 22 % 28 %
lexique.org Pourcentage de frappes (méthode 1) 61,1 % 56,5 % 53,8 % 22,1 % 28,3 %
Pourcentage de frappes (méthode 2)
Pourcentage de frappes (méthode 3) 63,8 % 59,1 % 56,3 % 23,1 % 29,5 %


Par lignes

Pourcentage de frappes par ligne (quelques pourcentages sont faussés par le manque de statistiques ne correspondant pas aux alliages de symboles). Mais je ne pense pas que ça influe de ± o,5%. Le corpus utilisé est celui de Nicolas Chartier.

Ligne bépoè dvorak-fr azerty
des chiffres 1,45 % 1,67 % 4,64 %
du haut 22,17 % 13,71 % 56,36 %
du milieu 69,03 % 58,93 % 23,33 %
du bas 7,35 % 25,69 % 15,67 %