« Corpus » : différence entre les versions

De Disposition de clavier bépo

Dernière version du 6 février 2025 à 14:46

Attention

Encore pas mal de choses sont à compléter sur cette page. Les informations qui y sont déjà présentes sont en majorité tirées de l’ancien wiki. Bien que pas mal de discussions aient eu lieu sur la liste de diffusion à ce sujet, très peu sont en rapport avec le corpus que l’on a finalement utilisé, et qui devrait être mis en ligne.

Un corpus est un large volume de texte spécifique à une langue servant de référence pour concevoir une disposition de clavier optimale.

De tels corpus ont déjà été élaborés mais aucun ne satisfait tout le monde ce qui a donné lieu à d’ignobles trolls sur la liste de diffusion. En particulier, l’ordre des lettres, même les plus fréquemment utilisées, varie d’un corpus à l’autre : un texte technique parlant de wagons de train aura beaucoup plus de « w », un autre qui adresse le lecteur avec un vouvoiement aura beaucoup plus de z (« vous voyez ? »), un autre encore dont l’un des locuteurs s’appelle Loïs aura beaucoup plus de « ï », etc.

De plus, le clavier actuel (AZERTY) d’une part et des rumeurs donnant naissance à des controverses d’autre part ont un impact sur la fréquence d’utilisation de certains symboles. Sur la plupart des claviers, les guillemets à la française (« ») sont bien moins accessibles que les guillemets anglais (") ; les majuscules accentuées sont difficiles à taper, et certains considèrent à tort qu’elles ne doivent pas être utilisées (voir à ce sujet la FAQ de l’académie française; l’e-dans-l’o « œ » n’est pas accessible sur le clavier et n’est même pas reconnu dans l’encodage Latin-1 (Merci Bull!). Enfin, tout le monde ne se donne pas toujours la peine de taper les accents, surtout quand ils sont difficiles d’accès.

Thomas Tempé a élaboré un corpus pour étudier la fréquence des lettres de manière pertinente.

Première étape dans la récolte de statistiques il est nécessaire de définir un corpus de texte sur lequel se baseront les différentes études de fréquence. C’est principalement du corpus choisi que dépendront les placements de caractères. Il est de ce fait absolument nécessaire de le définir soigneusement.

Caractéristiques d'un corpus

Afin d’être pertinent, le corpus doit répondre le mieux possible à certains critères. En particulier, il faut qu’il soit:

représentatif de l’utilisation : c’est la première chose à prendre à compte : il est nécessaire de définir très précisément quel type de textes est représentatif de l’usage souhaité, et par extension quels types d’utilisateurs sont concernés par le projet ;
long: afin que tous les caractères, même les moins utilisés, puissent se voir attribués une fréquence d’occurrence (donc d’utilisation relative) de manière représentative, il faut que le corpus soit suffisamment long (pour ordre de grandeur, on peut considérer la taille d'un dictionnaire ou d'une série encyclopédique) ;
non-homogène : il faut que le corpus soit le moins spécifique possible, pour éviter les biais dans la détermination des fréquences. Un texte qui ferait un usage anormalement intense d’un caractère conduirait sans doute à surestimer cette fréquence et, en relatif, à sous-estimer les autres. Au final, cela pourrait amener certains caractères peu utilisés à être trop bien placés au regard de leur fréquence d’utilisation, prenant la place de caractères plus fréquents dans d’autres spécimens de textes ;
représentatif de la langue : un dernier point à prendre en compte est la conformité à la langue étudiée, notamment du point de vue typographique. Par exemple, il faut que le corpus utilisé intègre les guillemets à la française, qu’il soit grammaticalement et typographiquement correct (p. ex. : utilisation des lettres accentuées majuscules), etc. Un aperçu de ces « contraintes » est disponible dans une FAQ de l’académie française.

Types de documents inclus dans notre corpus

Comme défini dans les objectifs, notre disposition sera orientée vers un usage général en informatique, il nous faut donc des documents qui reflètent cet usage. Nous avons donc utilisé:

De textes littéraires (TODO: spécifier lesquels)
Le contenu de page web (issues de Wikipédia).
Des fichiers sources dans divers langages (TODO: spécifier lesquels).
TODO: à compléter. Il faut spécifier clairement quels types de documents ont été utilisés dans le corpus (y compris les types de fichiers sources), leur pourcentage respectif par rapport au volume total du texte, etc.

Gestion des caractères spéciaux

Bien que la disposition fr-dvorak-bépo ait pour vocation d’être destinée à un usage générale, il faudrait néanmoins éviter que les utilisateurs basiques qui restent majoritaires soient pénalisés à cause de choix de placements de caractères principalement destinés au programmeur et qu’il n’emploieront probablement presque jamais.

Pour ce faire, ces caractères « spéciaux » ne sont intégrés que tardivement au corpus, uniquement après que tous les autres symboles (lettres et autres) ont déjà été disposés. Ainsi, ces caractères spéciaux n’influencent pas la disposition des symboles classiques tout en bénéficiant de l’étude de fréquence pour leur placement.

Le corpus

Le corpus utilisé pour la génération de la version 0.1 est disponible ici.

D’autres corpus sont disponibles dans ce dossier.

Base de donnée de corpus

La chasse au corpus est ouverte ! Les éléments de texte seront collectés au fur et à mesure.

Les extraits de textes sont répertoriés dans le tableau suivant et serviront de base à la composition de corpus (au pluriel). Chaque extrait devra donc recenser un type unique de texte : soit du code, soit des mails, soit un roman, soit des extrait de presse, etc.

Les textes peuvent être nettoyés mais avec prudence, afin de ne pas altérer la frappe réelle.

les retours à la lignes artificiels peuvent être gommés et les tabulation supprimées
le texte ne devraient pas être modifié (ex : ne pas rajouter d’espace insécable pour le guillemets s’il n’y en a pas, ne pas remplacer les guillemets anglais par des français, l’impostrophe par l’apostrophe, etc.)
si possible, toujours choisir l’encodage UTF-8
Convention de nommage pour les extraits et corpus : extrait_###.txt ou ### est un numéro donné dans l’ordre d’ajout

On recherche :

notes de service et correspondance administrative ;
keylog de session de chat ;
e-mails.

Extraits

numéro	md5	contenu	taille	encodage
[1]	968657375e4c907d20bfd499539f98fd	extrait de quelques articles de www.lemonde.fr	54 954	ISO-8859-15
[2]		getopt.c et fft.c (sans les licences et les doc strings)	26 715	ISO-8859-15
[3]		œuvres littéraires intégrales www.ebooksgratuits.com	25 003 017	UTF-8

Liens externes

Pour le traitement des corpus : liste de fautes d’orthographes courantes, directement en regexp —

Récupérée de "https://bepo.fr/wiki/index.php?title=Corpus&oldid=32264"

Catégorie :

Méthodologie

@@ Ligne 1 : / Ligne 1 : @@
-{{navigation|icone=Méthodologie.png|Méthodologie|{{PAGENAME}}}}
+{{navigation|icone=Méthodologie.png|Méthodologie}}
-{{note|type=attention|Encore pas mal de choses sont à compléter sur cette page. Les informations qui y sont déjà présentes sont en majorité tirées de l'ancien wiki. Bien que pas mal de discussions aient eu lieu sur la liste de diffusion à ce sujet, très peu sont en rapport avec le corpus que l'on a finalement utilisé, et qui devrait être mis en ligne.}}
+{{note|type=attention|Encore pas mal de choses sont à compléter sur cette page. Les informations qui y sont déjà présentes sont en majorité tirées de l’ancien wiki. Bien que pas mal de discussions aient eu lieu sur la liste de diffusion à ce sujet, très peu sont en rapport avec le corpus que l’on a finalement utilisé, et qui devrait être mis en ligne.}}
 Un '''corpus''' est un large volume de texte spécifique à une langue servant de référence pour concevoir une disposition de clavier optimale.
-De tels corpus ont déjà été élaborés mais aucun ne satisfait tout le monde ce qui a donné lieu à d'ignobles [[wp:Troll (Internet et Usenet)|trolls]] sur la [http://if-gpl.insa-lyon.fr/cgi-bin/mailman/listinfo/dvorak-fr/ liste de diffusion]. En particulier, l'ordre des lettres, même les plus fréquemment utilisées, varie d'un corpus à l'autre : un texte technique parlant de wagons de train aura beaucoup plus de « w », un autre qui adresse le lecteur avec un vouvoiement aura beaucoup plus de z (« vous voyez ? »), un autre encore dont l'un des locuteurs s'appelle Loïs aura beaucoup plus de « ï », etc.
+De tels corpus ont déjà été élaborés mais aucun ne satisfait tout le monde ce qui a donné lieu à d’ignobles [[wp:Troll (Internet et Usenet)|trolls]] sur la [http://if-gpl.insa-lyon.fr/cgi-bin/mailman/listinfo/dvorak-fr/ liste de diffusion]. En particulier, l’ordre des lettres, même les plus fréquemment utilisées, varie d’un corpus à l’autre : un texte technique parlant de wagons de train aura beaucoup plus de « w », un autre qui adresse le lecteur avec un vouvoiement aura beaucoup plus de z (« vous voyez ? »), un autre encore dont l’un des locuteurs s’appelle Loïs aura beaucoup plus de « ï », etc.
-De plus, le clavier actuel (AZERTY) et des rumeurs donnant naissance à des controverses ont un impact sur la fréquence d'utilisation de certains symboles. Sur la plupart des claviers, les guillemets à la française (« ») sont bien moins accessibles que les guillemets anglais (") ; les majuscules accentuées sont difficiles à taper, et certains considèrent à tort qu'elles ne doivent pas être utilisées (voir à ce sujet [http://www.academie-francaise.fr/langue/questions.html la FAQ de l'académie française]; l'e-dans-l'o « œ » n'est pas accessible sur le clavier et n'est même pas reconnu dans l'encodage {{c|Latin-1}} ([http://www.gutenberg.eu.org/pub/GUTenberg/publicationsPDF/25-andre.pdf Merci Bull!]). Enfin, tout le monde ne se donne pas toujours la peine de taper les accents, surtout quand ils sont difficiles d'accès.
+De plus, le clavier actuel (AZERTY) d’une part et des rumeurs donnant naissance à des controverses d’autre part ont un impact sur la fréquence d’utilisation de certains symboles. Sur la plupart des claviers, les guillemets à la française (« ») sont bien moins accessibles que les guillemets anglais (") ; les majuscules accentuées sont difficiles à taper, et certains considèrent à tort qu’elles ne doivent pas être utilisées (voir à ce sujet [http://www.academie-francaise.fr/langue/questions.html la FAQ de l’académie française]; l’e-dans-l’o « œ » n’est pas accessible sur le clavier et n’est même pas reconnu dans l’encodage {{c|Latin-1}} ([http://www.gutenberg.eu.org/pub/GUTenberg/publicationsPDF/25-andre.pdf Merci Bull!]). Enfin, tout le monde ne se donne pas toujours la peine de taper les accents, surtout quand ils sont difficiles d’accès.
 Thomas Tempé a élaboré un corpus pour étudier la [[fréquence des lettres]] de manière pertinente.
-Première étape dans la récolte de statistiques il est nécessaire de définir un corpus de texte sur lequel se baseront les différentes études de fréquence. C'est principalement du corpus choisis que dépendront les placements de caractère. Il est de ce fait absolument nécessaire de le définir soigneusement.
+Première étape dans la récolte de statistiques il est nécessaire de définir un corpus de texte sur lequel se baseront les différentes études de fréquence. C’est principalement du corpus choisi que dépendront les placements de caractères. Il est de ce fait absolument nécessaire de le définir soigneusement.
 == Caractéristiques d'un corpus ==
-Afin d'être pertinent, le corpus doit répondre le mieux possible à certains critères. En particulier, il faut qu'il soit:
+Afin d’être pertinent, le corpus doit répondre le mieux possible à certains critères. En particulier, il faut qu’il soit:
-* '''représentatif de l'utilisation''' : c'est la première chose à prendre à compte : il est nécessaire de définir très précisément quel type de textes est représentatif de l'usage souhaité, et par extension quels types d'utilisateurs sont concernés par le projet ;
+* '''représentatif de l’utilisation''' : c’est la première chose à prendre à compte : il est nécessaire de définir très précisément quel type de textes est représentatif de l’usage souhaité, et par extension quels types d’utilisateurs sont concernés par le projet ;
-* '''long''': afin que tous les caractères, même les moins utilisés, puissent se voir attribués une fréquence d'occurrence (donc d'utilisation relative) de manière représentative, il faut que le corpus soit suffisamment long (''TODO : donner un ordre de grandeur'') ;
+* '''long''': afin que tous les caractères, même les moins utilisés, puissent se voir attribués une fréquence d’occurrence (donc d’utilisation relative) de manière représentative, il faut que le corpus soit suffisamment long (pour ordre de grandeur, on peut considérer la taille d'un dictionnaire ou d'une série encyclopédique) ;
-* '''non-homogène''' : il faut que le corpus soit le moins spécifique possible, pour éviter les biais dans la détermination des fréquences. Un texte qui ferait un usage anormalement intense d'un caractère conduirait sans doute à surestimer cette fréquence et, en relatif, à sous-estimer les autres. Au final, cela pourrait amener certains caractères peu utilisés à être trop bien placés au regard de leur fréquence d'utilisation, prenant la place de caractères plus fréquents dans d'autres spécimens de textes ;
+* '''non-homogène''' : il faut que le corpus soit le moins spécifique possible, pour éviter les biais dans la détermination des fréquences. Un texte qui ferait un usage anormalement intense d’un caractère conduirait sans doute à surestimer cette fréquence et, en relatif, à sous-estimer les autres. Au final, cela pourrait amener certains caractères peu utilisés à être trop bien placés au regard de leur fréquence d’utilisation, prenant la place de caractères plus fréquents dans d’autres spécimens de textes ;
-* '''représentatif de la langue''' : un dernier point à prendre en compte est la conformité à la langue étudiée, notamment du point de vue typographique. Par exemple, il faut que le corpus utilisé intègre les guillemets à la française, qu'il soit grammaticalement et typographiquement correct (p. ex. : utilisation des lettres accentuées majuscules), etc. Un aperçu de ces « contraintes » est disponible dans une [http://www.academie-francaise.fr/langue/questions.html FAQ] de l'académie française.
+* '''représentatif de la langue''' : un dernier point à prendre en compte est la conformité à la langue étudiée, notamment du point de vue typographique. Par exemple, il faut que le corpus utilisé intègre les guillemets à la française, qu’il soit grammaticalement et typographiquement correct (p. ex. : utilisation des lettres accentuées majuscules), etc. Un aperçu de ces « contraintes » est disponible dans une [http://www.academie-francaise.fr/langue/questions.html FAQ] de l’académie française.
 == Types de documents inclus dans notre corpus ==
-Comme définit dans les objectifs, notre disposition sera orientée vers un usage général en informatique, il nous faut donc des documents qui reflète cette usage. Nous avons donc utilisé:
+Comme défini dans les objectifs, notre disposition sera orientée vers un usage général en informatique, il nous faut donc des documents qui reflètent cet usage. Nous avons donc utilisé:
 * De textes littéraires ('''''TODO''': spécifier lesquels'')
 * Le contenu de page web (issues de Wikipédia).
@@ Ligne 28 : / Ligne 28 : @@
 ==Gestion des caractères spéciaux==
-Bien que la disposition fr-dvorak-bépo ait pour vocation d'être destinée à un usage générale, il faudrait néanmoins éviter que les utilisateurs basiques qui restent majoritaires soient pénalisés à cause de choix de placements de caractères principalement destinés au programmeur et qu'il n'emploieront probablement presque jamais.
+Bien que la disposition fr-dvorak-bépo ait pour vocation d’être destinée à un usage générale, il faudrait néanmoins éviter que les utilisateurs basiques qui restent majoritaires soient pénalisés à cause de choix de placements de caractères principalement destinés au programmeur et qu’il n’emploieront probablement presque jamais.
-Pour ce faire, ces caractères « spéciaux » ne sont intégrés que tardivement au corpus, uniquement après que tout les autres symboles (lettres et autres) aie été déjà été disposés. Ainsi, ces caractères spéciaux n'influencent pas la disposition des symboles classiques tout en bénéficiant de l'étude de fréquence pour leur placement.
+Pour ce faire, ces caractères « spéciaux » ne sont intégrés que tardivement au corpus, uniquement après que tous les autres symboles (lettres et autres) ont déjà été disposés. Ainsi, ces caractères spéciaux n’influencent pas la disposition des symboles classiques tout en bénéficiant de l’étude de fréquence pour leur placement.
 ==Le corpus==
 Le corpus utilisé pour la génération de la [[version 0.1]] est disponible {{dl|donnees/corpus/corpus-johnix.zip|ici}}.
-D’autres corpus sont disponibles dans ce {{dl|donnees/|dossier}}.
+D’autres corpus sont disponibles dans ce {{dl|#donnees/|dossier}}.
 ==Base de donnée de corpus==
@@ Ligne 44 : / Ligne 44 : @@
 Les textes peuvent être nettoyés mais avec prudence, afin de ne pas altérer la frappe réelle.
 * les retours à la lignes artificiels peuvent être gommés et les tabulation supprimées
-* le texte ne devraient pas être modifié (ex : ne pas rajouter d'espace insécable pour le guillemets s'il n'y en a pas, ne pas remplacer les guillemets anglais par des français, l'impostrophe par l'apostrophe, etc.)
+* le texte ne devraient pas être modifié (ex : ne pas rajouter d’espace insécable pour le guillemets s’il n’y en a pas, ne pas remplacer les guillemets anglais par des français, l’impostrophe par l’apostrophe, etc.)
-* si possible, toujours choisir l'encodage UTF-8
+* si possible, toujours choisir l’encodage UTF-8
-* Convention de nommage pour les extraits et corpus : extrait_###.txt ou ### est un numéro donné dans l'ordre d'ajout
+* Convention de nommage pour les extraits et corpus : extrait_###.txt ou ### est un numéro donné dans l’ordre d’ajout
 On recherche :
@@ Ligne 62 : / Ligne 62 : @@
 |[http://clement.chassagne.free.fr/public/dvorak-fr/corpus/extrait_002.txt]|| ||getopt.c et fft.c (sans les licences et les doc strings)||26 715||ISO-8859-15
 |-
-|[http://clavier-dvorak.org/donnees/corpus/romans.txt.bz2]|| ||oeuvres littéraires intégrales www.ebooksgratuits.com||25 003 017||UTF-8||
+|[http://clavier-dvorak.org/donnees/corpus/romans.txt.bz2]|| ||œuvres littéraires intégrales www.ebooksgratuits.com||25 003 017||UTF-8
+|}
+===Liens externes===
+Pour le traitement des corpus : [http://fr.wikipedia.org/wiki/Wikip%C3%A9dia:Fautes_d%27orthographe/Courantes liste de fautes d’orthographes courantes, directement en regexp] —
+[[Catégorie:Méthodologie]]