Corpus

Afin de pouvoir concevoir un keymap optimal, il faut savoir à quoi il va servir. Pour cela, il nous faut un large volume de texte qui serve de référence.

De telles corpus ont déjà été élaborés, mais aucun ne satisfait tout le monde, ce qui a donné lieu à d'ignobles trolls sur la liste de diffusion. En particulier, l'ordre des lettres, même les plus fréquemment utilisées, varie d'un corpus à l'autre (un texte parlant de wagons aura beaucoup plus de W, un texte qui adresse le lecteur avec un vouvoyment aura beaucoup plus de z ("vous voyez ?"), un texte dont l'un des locuteurs s'appelle Loïs aura beaucoup plus de ï...)

De plus, le clavier actuel, et des rumeurs controversiales actuelles, ont un impact sur la fréquence de certains symboles. Les guillemets à la française sont bien moins accessibles que les guillemets anglais; les majuscules accentuées sont difficiles à taper, et certains considèrent à tort qu'elles ne doivent pas être utilisées (voir à ce sujet la FAQ de l'académie française; l'e-dans-l'o n'est pas accesible sur le clavier, et n'est même pas reconnu dans l'encodage Latin-1 ( [| Merci Bull!]). Enfin, tout le monde ne se donne pas toujours la peine de taper les accents, surtout quand ils sont difficiles d'accès.

ThomasTempé a élaboré un corpus pour étudier la fréquence des lettres de manière pertinente.