Discussion:Fréquence des caractères
Liens vers les corpus
Le lien vers le corpus de Thomas Tempé est mort et il n'y a pas de lien vers celui de Nicolas Charlier… Quelqu'un pourrait-il les raffraichir? Lawrent 24 juillet 2013 à 10:55 (UTC)
- Le corpus de Thomas Tempé ne semble plus en ligne nulle part : j'ai envoyé un courriel à l'auteur pour voir s'il le remettrait en ligne (ou nous l'enverrait pour hébergement). L'archive de la description du corpus montre qu'on ne pourra pas le refaire à l'identique (quels courriels des liste de diffusion avait-il choisis ?) mais je peux en refaire un s'en approchant sinon. Pomme (discussion) 17 juin 2015 à 17:16 (CEST) .
Statistiques chiffres
(de l'ancien pmwiki Données)
Sur les stats que j'ai fait de mon coté j'ai ca pour les chiffres : (symbole / position dans le classement / nb d'occurence)
1 41 15618 2 45 14538 0 48 14154 3 52 8744 5 55 5182 4 57 4835 6 58 3566 8 59 3345
Dump de wikipedia
« (Crako prépare une analyse fréquentielle basée sur l'encyclopédie wikipédia francophone qui devrait permette de trancher.) » Wikipedia ne comportant que des articles encyclopédique, il doit logiquement y avoir moins de « je » et de future qu'une discussion IRC, on pourrait citer d'autres exemples. Bref ça sera mieux, mais toujours pas parfait. Olympi 18 janvier 2009 à 17:06 (CET)
- J'ai réalisé une première analyse fréquentielle sur le corpus de Wikipédia (celui prétraité par un laboratoire et hébergé chez eux) afin de pouvoir présenter des fréquences vérifiables ; mon script sera mis-en-ligne une fois qu'il sera fini. En effet :
- - Prenons-nous tous les mots ou seulement ceux présents au moins 10 fois (comme suggéré en commentaire du code de l'article) ? Je n'y suis pas favorable si on veut garder l'ampleur du nombre de mots différents de la Wikipédia par rapport aux autres corpus : il y a 347 998 mots différents ayant au moins 10 occurrences (pour 3 192 864 mots différents, loi de Zipf…) ;
- - Effectuons-nous un formatage sur le corpus disponible pour supprimer les identifiants numériques ajoutés par le laboratoire ayant prétraité le corpus ? j'y suis favorable parce ce que cet identifiant fait grimper les occurrences des chiffres (et de « < », « > ». ce qui représente un pourcentage non négligeable de la fréquence. Je modifie le script en ce sens puis poste les fréquences ici pour comparaison.
- J'ai regardé et il est possible de partir d'un dump (encodé en UTF-8) que l'on prétraiterait nous-mêmes mais c'est vraiment beaucoup de travail (enlever la syntaxe wiki) et nos résultats ne seraient pas vérifiables de façon pérenne, sauf si on héberge le dump brut : Wikipéda ne les conserve pas plus d'une année en ligne. Pomme (discussion) 17 juin 2015 à 17:22 (CEST) .