Discussion:Fréquence des caractères

De Disposition de clavier bépo
Version datée du 17 juin 2015 à 16:22 par Pomme (discussion | contributions) (→‎Dump de wikipedia : Première analyse effectuée, discussion des paramètres)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

Liens vers les corpus

Le lien vers le corpus de Thomas Tempé est mort et il n'y a pas de lien vers celui de Nicolas Charlier… Quelqu'un pourrait-il les raffraichir? Lawrent 24 juillet 2013 à 10:55 (UTC)

Le corpus de Thomas Tempé ne semble plus en ligne nulle part : j'ai envoyé un courriel à l'auteur pour voir s'il le remettrait en ligne (ou nous l'enverrait pour hébergement). L'archive de la description du corpus montre qu'on ne pourra pas le refaire à l'identique (quels courriels des liste de diffusion avait-il choisis ?) mais je peux en refaire un s'en approchant sinon. Pomme (discussion) 17 juin 2015 à 17:16 (CEST) .

Statistiques chiffres

(de l'ancien pmwiki Données)

Sur les stats que j'ai fait de mon coté j'ai ca pour les chiffres : (symbole / position dans le classement / nb d'occurence)

1       41      15618
2       45      14538
0       48      14154
3       52      8744
5       55      5182
4       57      4835
6       58      3566
8       59      3345


Dump de wikipedia

« (Crako prépare une analyse fréquentielle basée sur l'encyclopédie wikipédia francophone qui devrait permette de trancher.) » Wikipedia ne comportant que des articles encyclopédique, il doit logiquement y avoir moins de « je » et de future qu'une discussion IRC, on pourrait citer d'autres exemples. Bref ça sera mieux, mais toujours pas parfait. Olympi 18 janvier 2009 à 17:06 (CET)

J'ai réalisé une première analyse fréquentielle sur le corpus de Wikipédia (celui prétraité par un laboratoire et hébergé chez eux) afin de pouvoir présenter des fréquences vérifiables ; mon script sera mis-en-ligne une fois qu'il sera fini. En effet :
- Prenons-nous tous les mots ou seulement ceux présents au moins 10 fois (comme suggéré en commentaire du code de l'article) ? Je n'y suis pas favorable si on veut garder l'ampleur du nombre de mots différents de la Wikipédia par rapport aux autres corpus : il y a 347 998 mots différents ayant au moins 10 occurrences (pour 3 192 864 mots différents, loi de Zipf…) ;
- Effectuons-nous un formatage sur le corpus disponible pour supprimer les identifiants numériques ajoutés par le laboratoire ayant prétraité le corpus ? j'y suis favorable parce ce que cet identifiant fait grimper les occurrences des chiffres (et de « < », « > ». ce qui représente un pourcentage non négligeable de la fréquence. Je modifie le script en ce sens puis poste les fréquences ici pour comparaison.
J'ai regardé et il est possible de partir d'un dump (encodé en UTF-8) que l'on prétraiterait nous-mêmes mais c'est vraiment beaucoup de travail (enlever la syntaxe wiki) et nos résultats ne seraient pas vérifiables de façon pérenne, sauf si on héberge le dump brut : Wikipéda ne les conserve pas plus d'une année en ligne. Pomme (discussion) 17 juin 2015 à 17:22 (CEST) .