« Discussion:Fréquence des caractères » : différence entre les versions
Aucun résumé des modifications |
(→Dump de wikipedia : Première analyse effectuée, discussion des paramètres) |
||
(Une version intermédiaire par le même utilisateur non affichée) | |||
Ligne 1 : | Ligne 1 : | ||
==Liens vers les corpus== | ==Liens vers les corpus== | ||
Le lien vers le corpus de Thomas Tempé est mort et il n'y a pas de lien vers celui de Nicolas Charlier… Quelqu'un pourrait-il les raffraichir? [[Utilisateur:Lawrent|Lawrent]] 24 juillet 2013 à 10:55 (UTC) | Le lien vers le corpus de Thomas Tempé est mort et il n'y a pas de lien vers celui de Nicolas Charlier… Quelqu'un pourrait-il les raffraichir? [[Utilisateur:Lawrent|Lawrent]] 24 juillet 2013 à 10:55 (UTC) | ||
:Le corpus de Thomas Tempé ne semble plus en ligne nulle part : j'ai envoyé un courriel à l'auteur pour voir s'il le remettrait en ligne (ou nous l'enverrait pour hébergement). L'archive de la [http://web.archive.org/web/20080213211515/http://gpl.insa-lyon.fr/Dvorak-Fr/CorpusDeThomasTemp%C3%A9 description du corpus] montre qu'on ne pourra pas le refaire à l'identique (quels courriels des liste de diffusion avait-il choisis ?) mais je peux en refaire un s'en approchant sinon. [[Utilisateur:Pomme|Pomme]] ([[Discussion utilisateur:Pomme|discussion]]) 17 juin 2015 à 17:16 (CEST) . | |||
==Statistiques chiffres== | ==Statistiques chiffres== | ||
Ligne 22 : | Ligne 24 : | ||
« (Crako prépare une analyse fréquentielle basée sur l'encyclopédie wikipédia francophone qui devrait permette de trancher.) » | « (Crako prépare une analyse fréquentielle basée sur l'encyclopédie wikipédia francophone qui devrait permette de trancher.) » | ||
Wikipedia ne comportant que des articles encyclopédique, il doit logiquement y avoir moins de « je » et de future qu'une discussion IRC, on pourrait citer d'autres exemples. Bref ça sera mieux, mais toujours pas parfait. [[Utilisateur:Olympi|Olympi]] 18 janvier 2009 à 17:06 (CET) | Wikipedia ne comportant que des articles encyclopédique, il doit logiquement y avoir moins de « je » et de future qu'une discussion IRC, on pourrait citer d'autres exemples. Bref ça sera mieux, mais toujours pas parfait. [[Utilisateur:Olympi|Olympi]] 18 janvier 2009 à 17:06 (CET) | ||
:J'ai réalisé une première analyse fréquentielle sur le corpus de Wikipédia (celui prétraité par un laboratoire et hébergé chez eux) afin de pouvoir présenter des fréquences vérifiables ; mon script sera mis-en-ligne une fois qu'il sera fini. En effet : | |||
:- Prenons-nous tous les mots ou seulement ceux présents au moins 10 fois (comme suggéré en commentaire du code de l'article) ? Je n'y suis pas favorable si on veut garder l'ampleur du nombre de mots différents de la Wikipédia par rapport aux autres corpus : il y a {{formatnum:347998}} mots différents ayant au moins 10 occurrences (pour {{formatnum:3192864}} mots différents, loi de Zipf…) ; | |||
:- Effectuons-nous un formatage sur le corpus disponible pour supprimer les identifiants numériques ajoutés par le laboratoire ayant prétraité le corpus ? j'y suis favorable parce ce que cet identifiant fait grimper les occurrences des chiffres (et de « < », « > ». ce qui représente un pourcentage non négligeable de la fréquence. Je modifie le script en ce sens puis poste les fréquences ici pour comparaison. | |||
:J'ai regardé et il est possible de partir d'un dump (encodé en UTF-8) que l'on prétraiterait nous-mêmes mais c'est vraiment beaucoup de travail (enlever la syntaxe wiki) et nos résultats ne seraient pas vérifiables de façon pérenne, sauf si on héberge le dump brut : Wikipéda ne les conserve pas plus [http://dumps.wikimedia.org/frwiki/ d'une année en ligne]. [[Utilisateur:Pomme|Pomme]] ([[Discussion utilisateur:Pomme|discussion]]) 17 juin 2015 à 17:22 (CEST) . |
Dernière version du 17 juin 2015 à 16:22
Liens vers les corpus
Le lien vers le corpus de Thomas Tempé est mort et il n'y a pas de lien vers celui de Nicolas Charlier… Quelqu'un pourrait-il les raffraichir? Lawrent 24 juillet 2013 à 10:55 (UTC)
- Le corpus de Thomas Tempé ne semble plus en ligne nulle part : j'ai envoyé un courriel à l'auteur pour voir s'il le remettrait en ligne (ou nous l'enverrait pour hébergement). L'archive de la description du corpus montre qu'on ne pourra pas le refaire à l'identique (quels courriels des liste de diffusion avait-il choisis ?) mais je peux en refaire un s'en approchant sinon. Pomme (discussion) 17 juin 2015 à 17:16 (CEST) .
Statistiques chiffres
(de l'ancien pmwiki Données)
Sur les stats que j'ai fait de mon coté j'ai ca pour les chiffres : (symbole / position dans le classement / nb d'occurence)
1 41 15618 2 45 14538 0 48 14154 3 52 8744 5 55 5182 4 57 4835 6 58 3566 8 59 3345
Dump de wikipedia
« (Crako prépare une analyse fréquentielle basée sur l'encyclopédie wikipédia francophone qui devrait permette de trancher.) » Wikipedia ne comportant que des articles encyclopédique, il doit logiquement y avoir moins de « je » et de future qu'une discussion IRC, on pourrait citer d'autres exemples. Bref ça sera mieux, mais toujours pas parfait. Olympi 18 janvier 2009 à 17:06 (CET)
- J'ai réalisé une première analyse fréquentielle sur le corpus de Wikipédia (celui prétraité par un laboratoire et hébergé chez eux) afin de pouvoir présenter des fréquences vérifiables ; mon script sera mis-en-ligne une fois qu'il sera fini. En effet :
- - Prenons-nous tous les mots ou seulement ceux présents au moins 10 fois (comme suggéré en commentaire du code de l'article) ? Je n'y suis pas favorable si on veut garder l'ampleur du nombre de mots différents de la Wikipédia par rapport aux autres corpus : il y a 347 998 mots différents ayant au moins 10 occurrences (pour 3 192 864 mots différents, loi de Zipf…) ;
- - Effectuons-nous un formatage sur le corpus disponible pour supprimer les identifiants numériques ajoutés par le laboratoire ayant prétraité le corpus ? j'y suis favorable parce ce que cet identifiant fait grimper les occurrences des chiffres (et de « < », « > ». ce qui représente un pourcentage non négligeable de la fréquence. Je modifie le script en ce sens puis poste les fréquences ici pour comparaison.
- J'ai regardé et il est possible de partir d'un dump (encodé en UTF-8) que l'on prétraiterait nous-mêmes mais c'est vraiment beaucoup de travail (enlever la syntaxe wiki) et nos résultats ne seraient pas vérifiables de façon pérenne, sauf si on héberge le dump brut : Wikipéda ne les conserve pas plus d'une année en ligne. Pomme (discussion) 17 juin 2015 à 17:22 (CEST) .