Utilisateur:Skippy le Grand Gourou/corpus juin 2014

De Disposition de clavier bépo

Corpus correspondant à l'utilisation intensive entre septembre et octobre 2013 puis entre janvier et juin 2014 du clavier AZERTY configuré en bépo de deux ordinateurs portables (certaines touches du clavier du dernier commencent à faiblir — saloperie de chiclet —, ce qui me pousse à publier avant que les statistiques ne soient trop biaisées). Usage essentiellement français/anglais, un peu de programmation, pas mal de bash (mais aussi beaucoup de texte brut en français sous lxterminal).

Statistiques établies avec le logiciel corpux, pour des frappes espacées de moins de 10 secondes, avec distinction de la casse (qui a finalement peu d'influence).

Les statistiques totales sont d'abord présentées, puis des statistiques séparées pour les trois logiciels les plus utilisés. Seuls les 20 premiers N-grammes sont affichés. Des statistiques plus détaillées (500 premiers N-grammes) sont disponibles en suivant les liens vers les sous-pages, et les statistiques complètes (et même pour N>5 et/ou sans distinction de casse) sur simple demande.

Statistiques totales

Corpus de 1 845 984 caractères (sans compter les frappes longues, préalablement supprimées).

Monogrammes

␣	143528
e	92761
s	53070
a	52862
t	52101
i	50905
n	49341
r	48264
o	43587
␤	42399
u	37649
l	37287
d	28314
c	24765
p	23883
m	22169
.	13255
h	12614
f	11784
g	10718

Digrammes

e␣	23595
s␣	14736
␣␣	11968
t␣	10885
re	8876
␣d	8761
es	8415
␣p	7994
le	7971
ee	7918
on	7827
n␣	7768
en	7613
er	6957
nt	6901
␤␤	6809
an	6755
␣l	6670
ou	6630
ss	6557

Trigrammes

␣de	3863
es␣	3397
le␣	3168
de␣	3059
ent	2908
␣␣␣	2831
nt␣	2687
re␣	2665
on␣	2559
␣pa	2337
er␣	2253
is␣	2189
␣co	2189
␣qu	2172
␣le	2146
our	2100
e␣d	2043
que	1979
ion	1958
nnn	1925

Quadrigrammes

␣de␣	2386
tion	1482
ment	1349
␣la␣	1344
ent␣	1306
....	1180
␣le␣	1162
que␣	1135
our␣	1100
␣the	1096
␣pas	1024
the␣	1022
␣que	1019
␣et␣	1016
ion␣	1013
e␣de	985
est␣	967
les␣	950
␣par	911
pas␣	883

Pentagrammes

.....	1095
␣the␣	872
ment␣	853
ement	799
␣pas␣	796
pour␣	782
tion␣	780
␣pour	746
␣que␣	746
ation	736
nnnnn	700
e␣de␣	649
␣les␣	638
ls␣-l	617
s␣-lt	600
␣-ltr	594
s␣de␣	498
]]]]]	492
elle␣	489
␣de␣l	488

Statistiques pour Firefox

Corpus de 668 764 caractères (sans compter les frappes longues, préalablement supprimées).

Monogrammes

␣	46953
e	31610
a	18718
t	18601
i	17881
s	16825
r	16688
o	16392
n	16101
u	11822
l	11814
d	8623
c	8553
␤	8445
p	7390
m	7254
h	5715
f	4440
g	4064
b	3627

Digrammes

e␣	7311
␣␣	5067
s␣	4062
ee	3533
t␣	3396
re	2907
on	2682
␣t	2679
in	2587
er	2571
es	2542
en	2415
n␣	2395
ss	2379
le	2378
␣p	2348
te	2237
an	2218
␣d	2175
nt	2048

Trigrammes

␣␣␣	1164
␣th	1094
the	1019
␣de	1003
es␣	938
he␣	906
le␣	863
ent	855
is␣	819
on␣	810
de␣	793
re␣	776
ion	773
er␣	723
eee	719
nt␣	681
␣to	677
␣pa	642
␣co	628
que	611

Quadrigrammes

␣the	773
the␣	744
␣de␣	602
tion	557
␣to␣	434
ment	375
ion␣	365
our␣	357
ent␣	355
ing␣	337
␣la␣	326
que␣	318
␣que	314
and␣	286
␣le␣	275
est␣	273
␣pas	265
␣of␣	252
atio	243
pas␣	239

Pentagrammes

␣the␣	630
tion␣	277
ation	238
␣que␣	217
pour␣	214
␣pas␣	214
ment␣	211
ement	204
␣pour	196
␣and␣	172
nnnnn	155
'est␣	142
s␣de␣	131
␣de␣l	130
e␣de␣	130
␣you␣	130
␣les␣	129
n␣the	121
e␣la␣	111
mais␣	110

Statistiques pour Thunderbird

Corpus de 351 173 caractères (sans compter les frappes longues, préalablement supprimées).

Monogrammes

␣	40233
e	26776
s	14122
a	13854
t	13707
i	13502
n	13435
r	12583
o	11712
u	11552
l	8769
d	6599
␤	6320
c	6213
p	6029
m	5250
'	3008
é	2951
,	2645
v	2623

Digrammes

e␣	7770
s␣	4579
t␣	3491
␤␤	3203
␣d	3088
␣␣	3078
␣p	2882
en	2716
n␣	2632
es	2530
on	2514
ou	2423
re	2359
r␣	2232
␣l	2213
ee	2197
er	2146
le	2131
nt	2111
de	2021

Trigrammes

␣de	1469
de␣	1163
es␣	1161
ent	1100
re␣	968
nt␣	943
le␣	934
on␣	914
␣qu	899
␣pa	833
er␣	830
our	830
␣le	807
ur␣	799
␤␤␤	782
e␣d	760
␣co	759
que	750
␣␣␣	718
ne␣	699

Quadrigrammes

␣de␣	961
ment	578
ent␣	530
tion	509
our␣	481
est␣	476
␣le␣	460
que␣	456
␣que	451
␣pas	437
pour	413
␣pou	403
ion␣	387
emen	375
pas␣	368
␣la␣	360
ais␣	360
les␣	355
␣un␣	347
e␣de	340

Pentagrammes

ment␣	385
ement	362
pour␣	352
␣pour	348
␣pas␣	344
␣que␣	342
tion␣	300
ation	259
'est␣	255
␣les␣	245
␤@+␤␤	245
e␣de␣	236
␤␤@+␤	224
@+␤␤.	212
s␣de␣	206
mais␣	184
␣des␣	182
␣de␣l	179
␣est␣	177
␣une␣	177

Statistiques pour lxterminal

Corpus de 665 778 caractères (sans compter les frappes longues, préalablement supprimées).

Monogrammes

␣	50437
e	29830
␤	25300
s	19767
a	17525
t	16804
n	16745
r	16740
i	16656
l	15025
o	13216
u	12871
d	11769
p	9338
c	8788
m	8550
q	4931
/	4605
v	4570
h	4105

Digrammes

e␣	7759
s␣	5435
t␣	3539
␣␣	3337
re	3211
le	3169
␣d	3115
es	2871
␣p	2515
␣l	2501
,␣	2454
nt	2344
an	2331
n␣	2290
on	2223
␣-	2193
ss	2162
nn	2149
de	2075
en	2063

Trigrammes

le␣	1299
ls␣	1271
␤ls	1255
␣de	1217
es␣	1028
nnn	973
de␣	965
nt␣	891
:wq	865
␣-l	864
re␣	845
wq␤	829
␣pa	802
les	792
e␣l	758
␣la	755
ent	752
e␣d	738
s␣-	735
␣co	729

Quadrigrammes

:wq␤	804
␤ls␣	733
␣de␣	716
nnnn	683
ls␣-	663
s␣-l	656
␣la␣	629
␣-lt	602
-ltr	583
udo␣	494
␤ls␤	477
lle␣	467
sudo	451
␣et␣	450
less	434
␤:q␤	434
elle	430
␤vi␣	399
␣le␣	397
␤cd␣	395

Pentagrammes

ls␣-l	602
s␣-lt	582
␣-ltr	576
nnnnn	545
sudo␣	443
␤ls␣-	384
elle␣	369
grep␣	358
-ltr␤	322
less␣	301
␤:n␤:	269
e␣de␣	267
␤mpla	240
␣pas␣	228
␣les␣	227
␣elle	224
-ltr␣	224
dans␣	214
n␤:n␤	211
:n␤:n	208