|
|
Fréquence des lettresDes informations très détaillées sont également disponibles dans le dossier 'Surface' concocté par Boris. Toutefois, pour les gens pressés, voici les estimations des fréquences des lettres (en %), calculées sur les environ 240000 mots distincts de la base de 31 millions d'items de Frantext (qui fournit, pour chaque forme orthographique, son nombre d'occurrences dans la base). Je suis intéressé de comparer ces estimations avec d'autres obtenues par d'autres moyens. J'avais en mémoire la suite 'esantirulo' pour les lettres les plus utilisées en français (selon le ``Manuel des Castors Juniors'' ;-). Ca colle bien avec ce que je retrouve. -------------------------------------------------- col.1: lettre col.2: fréquence dans la liste des 240000 mots col.3: fréquence pondérée par les fréquences des mots porteurs e 10.561 13.754 i 8.487 7.027 a 8.734 7.265 s 7.231 7.800 r 7.780 6.216 n 7.071 6.671 t 6.689 6.699 o 6.258 5.095 u 4.169 5.697 l 4.718 5.438 c 3.695 3.029 p 2.481 2.704 m 2.917 2.743 é 2.815 1.974 d 2.392 3.538 v 1.200 1.398 h 1.944 0.810 g 1.965 0.972 f 1.303 1.018 b 1.770 0.893 * 1.750 0.341 y 0.729 0.269 q 0.546 1.045 k 0.525 0.046 z 0.461 0.116 x 0.353 0.411 è 0.324 0.343 j 0.254 0.480 w 0.221 0.025 â 0.137 0.045 ï 0.066 0.010 ê 0.056 0.192 ç 0.051 0.080 î 0.046 0.044 ô 0.041 0.053 û 0.030 0.033 ü 0.023 0.001 ë 0.011 0.003 à 0.020 0.459 ù 0.001 0.039 ---------------------------------------------------Voilà un extrait de GrMoy.txt (fréquences basées sur les mots de graphemes.txt) qui est compris dans la base Surface 2.00. Tout est exprimé en fréquence par million. Par exemple a a une fréquence de type de 5554 par million et une fréquence de tokens de 15867 par million. col.1: lettre col.2: fréquence de type col.3: fréquence de token e 6508 27666 i 5569 14557 a 5555 15867 r 5053 12862 s 4804 15748 t 4259 12901 n 4177 12636 o 3393 10007 l 2628 10459 c 2576 6839 u 2563 11993 é 2302 3988 p 1857 6407 m 1814 5937 d 1639 8894 b 1255 2389 g 1210 2144 f 1123 2838 v 875 3710 h 871 1613 q 426 2328 y 390 720 è 256 810 z 246 254 j 212 1556 x 203 847 â 183 153 ê 96 887 k 80 42 ç 73 297 î 73 169 û 47 150 ô 44 238 ï 37 22 w 21 19 ë 5 6 à 2 3814 ü 1 1 ù 1 828 ÿ 1 0 A propos de la fréquence des lettres en français, donnée sur le site de lexique.org, je voudrais signaler que j'ai fait une étude sur les 106,8 millions de mots de la base Frantext catégorisée (1830 - 2000), et portant sur les mots n'apparaissant que 10 fois ou plus (ce qui exclut des mots fantaisistes provenant de poèmes Dada) ; les résultats sont les suivants : col.1: lettre col.2: nombre d'occurences (fréquence de type) col.3: pourcentage caractère nbocc e 71889538 14.699% s 39185354 8.012% a 36874333 7.540% i 35137433 7.184% n 33720188 6.895% t 33688246 6.888% r 31772475 6.496% u 29974507 6.129% l 27563346 5.636% o 25910113 5.298% d 17905604 3.661% c 15085754 3.085% m 14641296 2.994% p 13436762 2.747% é 9260487 1.893% v 7692339 1.573% ' 6819457 1.394% q 5596700 1.144% f 5146739 1.052% g 4716482 0.964% b 4627074 0.946% h 4350377 0.890% j 2828752 0.578% à 2378198 0.486% x 2025673 0.414% è 1713276 0.350% y 1400656 0.286% ê 1053185 0.215% z 753886 0.154% ç 346305 0.071% â 299396 0.061% ô 263548 0.054% î 259010 0.053% ù 232788 0.048% û 203967 0.042% k 146188 0.030% w 88479 0.018% ï 60589 0.012% ë 23698 0.005% ü 5426 0.001% ö 295 0.000% * 174 0.000% total 489078093 nb_mots 109087358A noter : - l'importance de l'apostrophe qui est à mon avis à ne pas négliger. En effet le " l' " (7è bigramme) et le " d' " (10è bigramme) apparaissent respectivement 2 millions et 1,4 millions de fois. - la présence du "ü" qui révèle des noms propres germaniques dans les textes. - les quelques étoiles, dues à l'auto-censure des écrivains qui notaient les gros mots ainsi : b***, m***, f***, p*** (etc.) - l'absence du "oe" et du "ae" qui n'existent pas dans Frantext. Les mots analysés forment un ensemble de 112345 graphies, et représentent 99,4 % du corpus total (qui lui, compte 361887 graphies). L'analyse sur le corpus total ne provoque que deux interversions au classement : le "z" et le "ê", et d'autre part le "ç" et le "ô". Jean-Luc MANGUIN CNRS - Laboratoire CRISCO Université de Caen 14032 CAEN Cedex Auteurs
LicenceSi vous utilisez cette base, nous vous serions reconnaissant de mettre un lien vers le site de Lexique (http://www.lexique.org) et de citer les auteurs.Toutes ces listes sont distribuée sous la même licence que Lexique. En résumé, ces listes sont redistribuable ou utilisable dans un autre produit uniquement si celui-ci est aussi sous licence Gnu (http://www.gnu.org). |
||||||
|