Utilisatrice:Ariasuni/V2/Données
Données qui seront utiles à l'algorithme.
Corpus
Texte
Je pense qu’il ne faut que compter le français et l’anglais, puisque les autres usages sont minoritaires. Il est pour moi indispensable de pouvoir taper facilement en anglais sans dégrader de manière significative l’usage du français.
On en tirera des statistiques:
- Liste des caractères avec leur fréquence
- Liste des digrammes et leur fréquence
Un keylogger pourrait récupérer les frappes des utilisateurs.
Code source
- Prolang Corpus, un logiciel qui permet de récupérer pleins de codes sources de Github.
Données générées
Les données générées doivent pouvoir être produite facilement et rapidement afin de récolter un maximum de retours utilisateurs.
Carte d'accessibilité des touches
Les carte d'accessibilité des touches (CAT) permettent de représenter l'accessibilité d'une touche ressentie par l'utilisateur, néanmoins ça ne peut pas suffire pour représenter la réalité, parce que les caractères sont frappés dans une suite de lettre, et que la lettre frappé juste avant peut fortement influencer sur la facilité de l'action.
Elle peut être obtenue facilement grâce à des duels d'accessibilité.
Voici une sélection d'ajustements pouvant être fait pour réduire le nombre de duels possibles, afin de pouvoir produire une CAT plus rapidement.
Rangées des chiffres et 105e touche
Les duels d'accessibilité sont assez longs à faire. Vu que la rangée des chiffres et la 105e touche (absente de certains claviers ou très mal placé (TypeMatrix)) ne compte pas dans l'algorithme, on n'a pas besoin d'avoir beaucoup de données à ce sujet.
Clavier orthogonal
Si on prend en compte un clavier orthogonal, beaucoup de duels sont inutiles. Il suffit de ne prendre en compte que la partie droite du clavier (ce qui fait que l'on passe de 34 à 19 touches, en ne comptant pas la rangée des chiffres).
Conclusion
Rappelons que les caractères placés sur la rangée ne repos de comptent pas, il y a donc 40 (48 - 8) caractères.
Le nombre de duels possibles est donc de:
- 780 au départ ((40×39)÷2, un caractère + un autre caractère parmi ceux qui ceux qui restent, on divise par deux car on ne fait pas O vs P et P vs O)
- 325 ((26*25)/2) si on prend en compte le premier ajustement
- 105 ((15*14)/2) si on prend en compte les deux ajustements
Les données utilisateurs seront peut-être légèrement moins précises.
Carte d'accessibilité des digrammes
Une CAD ( ce nom est déjà utilisé pour autre chose mais je n’ai pas trouvé de meilleur nom pour le moment), permet de modéliser la difficulté ou la facilité à produire un digramme en utilisant le même procédé que pour produire les CAT, les duels d'accessibilité. Cela représente bien la réalité, mais c'est un peu plus long à faire et un peu plus complexe.
Les ajustements proposés sont aussi valables aussi la CAD. Néanmoins même avec ces simplification, le nombre de duels à faire est trop élevé (presque 30 000). Du coup pour simplifier on fait les duels:
- De la rangée de repos vers la rangée de repos
- De la rangée de repos vers la rangée du bas
- De la rangée de repos vers la rangée du haut
On utilisera ces données directement pour les autres rangées moyennant un malus à déterminer.
Il restera à faire les «sauts de ligne» (passer de la ligne au-dessus de la rangée de repos à celle en-dessous): certains sont assez faciles à faire, d'autres pas du tout, mais doivent être comptés.
Enfin, à cause de la touche W, il reste 3 exceptions: ZW, MW et ÇW.
Au final, cela fait 6*17 (une touche de la rangée de repos + n'importe quelle autre touche, les lettres doublées ne sont pas comptées (fréquence assez faible…)) possibilités pour la rangée de repos, 6*6 pour les «sauts de ligne», ainsi que les 3 exceptions; on multiplie par deux car SL ≠ LS (donc on teste les deux digrammes), ce qui fait 282 possibilités! (note: si on compte un clavier à rangées décalées, il faut multiplier par un peu moins de deux, ce qui reste très peu!)