Gougenheim 2.00
Description
Le fichier Gougenheim.txt présente pour 8774 mots leur
fréquence et pour les mots de fréquence supérieure
à 20 leur répartition (nombre de textes dans lesquels ils
apparaissent). Le corpus sur lequel, il est basé est un corpus
de langue oral basé sur un ensembles d'entretiens avec 275
personnes. C'est donc non seulement un corpus de langue orale mais
aussi de langue produite (dans le sens où les personnes
interrogées avaient une conversation courante ce qui n'est pas
forcément le cas dans des corpus radiophoniques ou
télévisuels p. ex.). Le corpus original comprend 163
textes, 312.135 mots et 7.995 lemmes différents.
Cette base a été élaborée à partir
du livre "L'élaboration du français fondamental", 1964 (pour
les mots de fréquence supérieure à 20) et un
ensemble de pages dactylographiées pour les mots de
fréquence inférieure à 20.
Les champs sont les suivants
- mots: le mot
- semgram: indication grammaticale et sémantique sur le lemme
- lemfreq: fréquence brute du lemme (p.ex. adéquat)
- surfreq: fréquence de surface (p.ex. adéquate) (n'existe que pour
les mots de fréquence < 20)
- répar: le nombre de textes dans lequel le mot est
présent (n'existe que pour les mots de fréquence > 19)
Auteurs
- Cette base est tirée du livre "L'élaboration du
français fondamental" écrit par
- G. Gougenheim
- P. Rivenc
- R. Michéa
- A. Sauvageot
- Pour la mise sous format électronique: Boris New
Remerciements
Je remercie les auteurs ci-dessus pour leur fabuleux travail et Liliane
Sprenger-Charolles pour m'avoir prêté les feuilles
dactylographiés comprenant les mots de fréquences
inférieures à 20.
Téléchargement
Gougenheim 2.00
Historique
- 2.00 Donne les fréquences inférieures à 20.
Corrections mineures.
- 1.00 Cette base élaborée uniquement d'après
le livre "L'élaboration du français
fondamental" ne donne pas les fréquences pour les mots de
fréquences
inférieures à 20.