Université de Savoie LPNC Lexique - Une Base de Données Lexicales Libre RISC CNRS
Un site réalisé par Boris New & Christophe Pallier et hébergé par le RISC


Menu principal


Fréquence des lettres


A plusieurs reprises, on m'a demandé la fréquence des lettres en français. J'ai fourni dans le document 'Awk pour Lexique', page 6, un script awk de deux lignes permettant de les calculer.

Des informations très détaillées sont également disponibles dans le dossier 'Surface' concocté par Boris.

Toutefois, pour les gens pressés, voici les estimations des fréquences des lettres (en %), calculées sur les environ 240000 mots distincts de la base de 31 millions d'items de Frantext (qui fournit, pour chaque forme orthographique, son nombre d'occurrences dans la base).

Je suis intéressé de comparer ces estimations avec d'autres obtenues par d'autres moyens. J'avais en mémoire la suite 'esantirulo' pour les lettres les plus utilisées en français (selon le ``Manuel des Castors Juniors'' ;-). Ca colle bien avec ce que je retrouve.
--------------------------------------------------
col.1: lettre
col.2: fréquence dans la liste des 240000 mots
col.3: fréquence pondérée par les fréquences des mots porteurs


e 10.561 13.754
i 8.487 7.027
a 8.734 7.265
s 7.231 7.800
r 7.780 6.216
n 7.071 6.671
t 6.689 6.699
o 6.258 5.095
u 4.169 5.697
l 4.718 5.438
c 3.695 3.029
p 2.481 2.704
m 2.917 2.743
é 2.815 1.974
d 2.392 3.538
v 1.200 1.398
h 1.944 0.810
g 1.965 0.972
f 1.303 1.018
b 1.770 0.893
* 1.750 0.341
y 0.729 0.269
q 0.546 1.045
k 0.525 0.046
z 0.461 0.116
x 0.353 0.411
è 0.324 0.343
j 0.254 0.480
w 0.221 0.025
â 0.137 0.045
ï 0.066 0.010
ê 0.056 0.192
ç 0.051 0.080
î 0.046 0.044
ô 0.041 0.053
û 0.030 0.033
ü 0.023 0.001
ë 0.011 0.003
à 0.020 0.459
ù 0.001 0.039


---------------------------------------------------
Voilà un extrait de GrMoy.txt (fréquences basées sur les mots de graphemes.txt) qui est compris dans la base Surface 2.00. Tout est exprimé en fréquence par million. Par exemple a a une fréquence de type de 5554 par million et une fréquence de tokens de 15867 par million.
col.1: lettre
col.2: fréquence de type
col.3: fréquence de token

e	6508	27666
i	5569	14557
a	5555	15867
r	5053	12862
s	4804	15748
t	4259	12901
n	4177	12636
o	3393	10007
l	2628	10459
c	2576	6839
u	2563	11993
é	2302	3988
p	1857	6407
m	1814	5937
d	1639	8894
b	1255	2389
g	1210	2144
f	1123	2838
v	875	3710
h	871	1613
q	426	2328
y	390	720
è	256	810
z	246	254
j	212	1556
x	203	847
â	183	153
ê	96	887
k	80	42
ç	73	297
î	73	169
û	47	150
ô	44	238
ï	37	22
w	21	19
ë	5	6
à	2	3814
ü	1	1
ù	1	828
ÿ	1	0

A propos de la fréquence des lettres en français, donnée sur le site de lexique.org, je voudrais signaler
que j'ai fait une étude sur les 106,8 millions de mots de la base Frantext catégorisée (1830 - 2000), et portant
sur les mots n'apparaissant que 10 fois ou plus (ce qui exclut des mots fantaisistes provenant de poèmes Dada) ;
les résultats sont les suivants :
col.1: lettre
col.2: nombre d'occurences (fréquence de type)
col.3: pourcentage

caractère	nbocc	
e	71889538	14.699%
s	39185354	8.012%
a	36874333	7.540%
i	35137433	7.184%
n	33720188	6.895%
t	33688246	6.888%
r	31772475	6.496%
u	29974507	6.129%
l	27563346	5.636%
o	25910113	5.298%
d	17905604	3.661%
c	15085754	3.085%
m	14641296	2.994%
p	13436762	2.747%
é	9260487	1.893%
v	7692339	1.573%
'	6819457	1.394%
q	5596700	1.144%
f	5146739	1.052%
g	4716482	0.964%
b	4627074	0.946%
h	4350377	0.890%
j	2828752	0.578%
à	2378198	0.486%
x	2025673	0.414%
è	1713276	0.350%
y	1400656	0.286%
ê	1053185	0.215%
z	753886	0.154%
ç	346305	0.071%
â	299396	0.061%
ô	263548	0.054%
î	259010	0.053%
ù	232788	0.048%
û	203967	0.042%
k	146188	0.030%
w	88479	0.018%
ï	60589	0.012%
ë	23698	0.005%
ü	5426	0.001%
ö	295	0.000%
*	174	0.000%
total	489078093	
nb_mots	109087358	
A noter : - l'importance de l'apostrophe qui est à mon avis à ne pas négliger. En effet le " l' " (7è bigramme) et le " d' " (10è bigramme) apparaissent respectivement 2 millions et 1,4 millions de fois. - la présence du "ü" qui révèle des noms propres germaniques dans les textes. - les quelques étoiles, dues à l'auto-censure des écrivains qui notaient les gros mots ainsi : b***, m***, f***, p*** (etc.) - l'absence du "oe" et du "ae" qui n'existent pas dans Frantext. Les mots analysés forment un ensemble de 112345 graphies, et représentent 99,4 % du corpus total (qui lui, compte 361887 graphies). L'analyse sur le corpus total ne provoque que deux interversions au classement : le "z" et le "ê", et d'autre part le "ç" et le "ô". Jean-Luc MANGUIN CNRS - Laboratoire CRISCO Université de Caen 14032 CAEN Cedex

Auteurs

  • L'équipe de Lexique

Licence

Si vous utilisez cette base, nous vous serions reconnaissant de mettre un lien vers le site de Lexique (http://www.lexique.org) et de citer les auteurs.
Toutes ces listes sont distribuée sous la même licence que Lexique.
En résumé, ces listes sont redistribuable ou utilisable dans un autre produit uniquement si celui-ci est aussi sous licence Gnu (http://www.gnu.org).
Lexique - Une Base de Données Lexicales Libre
Copyleft © 2001 Lexique
Powered by phpWebLog