Manuel de Lexique 3

Document version 3.03

Boris New1,  Christophe Pallier2

 

 

 

 

1Laboratoire de Psychologie expérimentale

UMR 8581 CNRS, Université Paris Descartes,

71, avenue Edouard Vaillant, 92774 Boulogne Billancourt Cedex, France

 

2Unité de neuroimagerie cognitive INSERM U562

Service Hospitalier Frédéric Joliot, CEA

F91401 Orsay FRANCE

 

 

E-mail :boris.new AT psycho.univ-paris5.fr

 

Remerciements: Nous remercions Agnès Bontemps-New qui a eu l'idée de constituer un corpus à base de dialogues films. Nous remercions le projet Technolangue qui  nous a permis de financer une partie de Lexique 3. Nous tenons aussi à remercier l'ATILF, Jacques Dendien, Jean-Marie Pierrel, Claude de Loupy, et Jean Veronis pour leur précieuse aide.

 

Mots clés : Reconnaissance de mots, Fréquence, Base de donnée



Introduction rapide pour le nouveau venu

Si vous cherchez une information particulière et ne connaissez rien à Lexique, nous vous conseillons de procéder de la façon suivante :

-          lisez ce manuel (dans les grandes lignes) afin de

o        déterminer dans quelle base se trouve l’information que vous cherchez  (le plus souvent c’est la base Lexique3)

o        comprendre comment cette base est structurée (quel sont le ou les champs dont vous avez besoin)

o        déterminer quelle recherche vous allez utiliser (online ou offline). Essayez d’abord la recherche online et si vous ne pouvez utiliser celle-ci pour avoir l’information qui vous intéresse, essayez alors l’interrogation offline. (Undows)

Si vous avez un problème, faites d’abord une recherche sur le forum. Si vous ne trouvez pas de réponse à votre question, n’hésitez pas à la poster.

 

Comment citer Lexique ?

Lexique étant souvent mis à jour, faites attention à bien citer la version de Lexique que vous avez utilisé. (p.ex. Lexique 3.01 ou Lexique 2.50, etc.)

 

Historique de cette documentation

3.03         Nouvelle définition des fréquences de sous-titres

                Nouvelles définitions pour les champs sur le nombre de définitions

3.02         Rajout de "Comment citer Lexique?"

                Avertissement concernant la fréquence des sous-titres

3.01         Rajout d'explications à propos du code phonétique utilisé

                Suppression de la partie sur les fréquences

3.00         Introduction de o ouvert/fermé; suppression de o d'origine étrangère

                Changement de caractère pour le schwa

                Annexe décrivant l'historique du champs "Phonologie"

                Définition du nouveau champs cgramlem

3.00b3     Nombre de mots des corpora recalculé

                Rajout de la catégorie grammaticale LIA (liaison euphonique)

3.00b2     Refonte de la conclusion et du début de l'état de l'art

3.00b1     Mise à jour afin de rendre compte des nouveautés de Lexique 3

 


TABLE DES MATIERES

Introduction rapide pour le nouveau venu  2

1 Etat de l'art des bases de données lexicales en français  6

2 Constitution des corpus  8

2.1 Le corpus de textes (Frantext) 8

2.2 Le corpus de films (ou corpus de sous-titres) 8

3 Etiquetage grammatical du corpus  8

4 Estimation de la fiabilité des fréquences  9

5 Avantages du corpus de sous-titres  9

6 Organisation de la base Lexique 3  9

6.1 Organisation de la table Lexique3  10

6.2 Organisation de la table lex3.lemmes.txt 19

7 Les autres bases  19

8 Les Outils  20

8.1 Les outils "en ligne"  20

8.1.1 La recherche de fréquence dans les corpus  20

8.1.2 La recherche par mots  20

8.1.3 La recherche par propriété  21

8.2 Open Lexique  23

8.3 Les outils "hors ligne" : Undows  24

9 Disponibilité et site web   25

10 Licence   25

11 Conclusion   25

Bibliographie  27

Annexe A: Open Lexique - Noms des champs  29

Annexe B: Historique de l'obtention des codes phonologiques de Lexique  30

 


TABLE des TABLEAUX

Tableau 1 Présentation d'un extrait de Lexique3.txt 13

Tableau 2 Codes phonémiques. 14

Tableau 3: Codes des catégories grammaticales. 15

Tableau 4: Nombre et exemples de lemmes selon leur fréquence (corpus de sous-titres) 15

Tableau 5: Informations complémentaires sur les verbes. 16

Tableau 6: Nombre de mots dans Lexique 3 en fonction du nombre de syllabes et du nombre de lettres. 17

Tableau 7 Présentation des opérateurs utilisés dans recherches simples. 20

Tableau 8 Présentation des opérateurs utilisés dans les expressions régulières. 21

 


 TABLE des FIGURES

Figure 1 Exemple de requête de type "Recherche par Mots". 20

Figure 2 Exemple de requête effectuée sur la base Lexique3. 21

Figure 3 Résultats obtenus suite à la requête présentée dans la Figure 2. 22

Figure 4 Exemple de recherche utilisant les possibilités d'Open Lexique. 22

Figure 5 Exemples de requêtes effectué "hors ligne". 23

 


Ce manuel explique pourquoi et comment utiliser la base de données Lexique 3. Si Lexique 1 et 2 avaient apporté quelques avantages importants par rapport aux bases de données existant à l'époque (présence des formes fléchies, actualisation, différents indices de fréquence), il y avait encore des améliorations possibles. En effet, les fréquences étaient basées sur de la langue écrites exclusivement (et pas de fréquences orales), il n'était pas possible d'obtenir les fréquences de cooccurrences de mots (ou fréquences d'expressions), les mots composés n'étaient pas présentés, et nous n'avions pas accès aux fréquences des différentes formes grammaticales d'un même mot (p.ex. fréquence de danse utilisé comme nom ou utilisé comme verbe). Ce sont tous ces avantages que cette nouvelle version de Lexique apporte.

En résumé voici les principales nouveautés de Lexique 3 par rapport à Lexique 2:

1 Etat de l'art des bases de données lexicales en français

La première base de données lexicales informatisée mis à disposition des psycholinguistes fut Brulex (Content, Mousty et Radeau, 1990) . Brulex regroupait les 35 746 entrées lexicales du Petit Robert et leurs fréquences selon le TLF (Imbs, 1971). Ces fréquences étaient estimées sur un corpus de textes littéraires datant de 1919 à 1964 et comprenant 26 millions de mots.

Brulex connaissait cependant trois limitations importantes. La première était l’absence des formes fléchies telles que les verbes conjugués ou certaines formes écrites plurielles ou féminines. Cela pose problème par exemple pour toutes les études concernant les formes fléchies en français ou pour estimer des fréquences d’unités telles que les syllabes, les lettres, les bigrammes, ou les phonèmes. La seconde était que les fréquences étaient basées uniquement sur des textes relativement anciens de surcroît (le plus récent datant de 1964). La troisième de ces limitations était l'absence de mise à jour. Les auteurs avaient clairement indiqués que leur base ne serait pas mise à jour par de nouvelles champs ou des corrections aux données déjà existantes.

Manulex ou NOVLEX sont deux bases de données plus récente (Lambert et Chesnet, 2001), qui fournissent les formes fléchies et leurs fréquences. En revanche, elles se fondent sur des corpus de manuels scolaires pour les enfants (Novlex: CE2, 417000 mots; Manulex: CP-CM2, 1,9 millions de mots).

Morphalou  (Romary, Salmon-Alt et Francopoulo, 2004) est une base encore plus récentes comprenant 539 413 formes ainsi que des informations morpho-syntaxiques (catégorie grammaticale, genre, nombre et lemme). Cependant Morphalou ne contient ni les mots composés (garde-chasse, pomme de terre), ni les fréquences de ces entrées. Vocolex est encore une autre base de données qui fournit un ensemble d'indicateurs statistiques sur les similarités entre mots de la langue française. MHATLex (Pérennou et Calmès, 2000) est une base payante qui contient 81 000 lemmes et 854 000 formes fléchies ainsi leurs représentations phonologiques, des informations morpho-syntaxiques et fréquentielles.

Afin d'avoir une base de données comprenant les formes fléchies, ainsi que des estimations de fréquences plus actuelles, nous avons créé la base de données Lexique 1 puis Lexique 2. Les fréquences de Lexique 1 & 2 furent constituées à partir d'une sélection de textes publiés après 1950 du corpus de textes Frantext. Lexique 2 comprenait ainsi 130 000 formes fléchies ainsi que leur fréquence. Si Lexique 2 apportait un certain nombre d'innovations comparativement aux bases de données existantes, il subsistait encore quelques limitations. Ainsi, les mots composés n'étaient pas présents dans la base. Un autre défaut provenait du fait que n'ayant pas eu accès aux textes, nous n'avions pas la fréquence des formes homographes telles que danse (dans sa forme nominale (la danse) et dans sa forme verbale (je danse)).  Nous avons donc développé Lexique 3 afin de lever ces limitations.

Pour avoir la fréquence des formes homographes, il nous fallait avoir accès à d'importants corpus de textes.  Nous avons donc demandé aux auteurs de Frantext, l'autorisation d'utiliser la partie la plus récente de leur corpus. Cependant, Frantext est un corpus de textes littéraires (ex d'auteurs: Françoise Sagan, Michel Tournier, mais aussi Georges Perec ou Marguerite Duras). Il y a donc un style assez soutenu et le vocabulaire utilisé ne reflète peut-être pas toujours l'usage de la langue française.

Pour cette raison, nous avons recherché un deuxième corpus reflétant davantage l'usage de la langue. Nous avons d'abord pensé au corpus du journal "Le Monde" mais le style utilisé était encore une fois assez élaboré et, du coup, paraissait éloigné de l'usage courant de la langue française.

Ensuite, nous avons eu l'idée de télécharger un corpus de pages web. Pour autant le contenu textuel des pages web n'est pas utilisable directement en raison des menus, des mentions légales, etc. Il exige donc un important travail de prétraitement des données différent pour chaque site web téléchargé. Ce travail de prétraitement rendait donc difficile l'obtention d'un gros corpus.

En troisième tentative, nous avons essayé de scanner des livres ou des journaux populaires tels que des romans de gare ou des journaux télé. Là encore, la tâche s'est révélée ardue en raison de la mise en page relativement complexe des magazines. Se posait aussi le problème du temps de scannage des ouvrages afin d'obtenir un corpus conséquent.

Enfin, nous avons eu l'idée de travailler sur des dialogues de films et de séries et plus précisément sur les sous-titres. En effet les sous-titres de films et de séries présentent trois avantages non négligeables:

-ils existent déjà sous forme numérique de fichiers textes

-ils proviennent de films et de séries souvent américaines très populaires (ex: Ally McBeal, 24h) qui correspondent donc à ce qui peut être entendu en regardant la télévision.

-enfin, ils correspondent à des dialogues parlés et peuvent, de ce fait, servir à estimer l'usage de la langue parlée

2 Constitution des corpus

2.1 Le corpus de textes (Frantext)

L'Atilf nous a donné accès à 218 textes littéraires (romans) publiés entre 1950 et 2000 : cela représente un corpus de 14,7  millions d’items.

2.2 Le corpus de films (ou corpus de sous-titres)

Ce corpu

Attention ce sont deux corpus de sous-titres différents qui ont été utilisés pour Lexique avant la version 3.40 et celui utilisé pour la version 3.40 et les versions ultérieures.

Tous les détails sur la constitution de ce corpus sont dans l’article ci-joint :

New, B., Brysbaert, M., Veronis, J., & Pallier, C. (in press). The use of film subtitles to estimate word frequencies. Applied Psycholinguistics.

Nous avons téléchargé les sous-titres de 9474 films ou saisons de séries représentant en tout 50 millions de mots. Ces films ont été classés en 4 catégories :

1. sous-titres de films français : 1.9 millions de mots (e.g., Camille Claudel,

C’est arrive pr`es de chez vous),

2. sous-titres de films anglo-saxons : 26.5 millions de mots (e.g.,

Arizona Dream, Schindler’s List),

3. sous-titres de films et series anglo-saxonnes: 19.5 millions de mots

(e.g., Friends, Ally Mc Beal), and

4. sous-titres de films européens non anglo-saxons 2.5 million words

(e.g., Cria Cuervos, Good Bye Lenin!).

 

Comme beaucoup de sous-titres avaient été obtenues par reconnaissance automatique de caractères, nous avons d'abord du effectuer un gros travail de sélection et de correction des fautes d'OCR. (p.ex. "i" remplacé par "l").

Nous avons calculé la fréquence des mots pour chacun de ces sous-corpus. Une fois ceci effectué, nous avons calculé la fréquence moyenne de chacun de ces mots à traver les 4 corpus. De cette façon, nos fréquences étaient basées sur le corpus le plus large possible et nous évitions une trop forte influence des films et séries américaines très fortement représentés.

L’avantage de ce corpus est de se baser davantage sur le langage oral que le corpus de livres. En effet les sous-titres de films sont composés quasiment uniquement de dialogues très proches de ce qu’entendent les gens à la télévision. Ces fréquences ont montré dans plusieurs analyses un avantage, assez souvent non négligeables, en terme d’explication de la variance des temps de réaction de tâche de décision lexicale par rapport aux fréquences de livres.

2.3 Etiquetage grammatical du corpus

Afin d'étiqueter grammaticalement nos corpus, nous avons utilisé l'étiqueteur Cordial Analyseur. Pour l'instant, Cordial semble parmi les tout meilleurs catégoriseurs grammaticaux pour le français.

Nous avons obtenu une liste de 293 000 items distincts incluant les mots composés ainsi que leur fréquence  Ces items comprenaient des symboles (dont la ponctuation), des abréviations, des mots étrangers et des noms propres. Pour "nettoyer" cette liste, nous avons employé Aspell, le dictionnaire Francais-Gutenberg 1.0 (Pythoud, 1996) et le dictionnaire Le Grand Robert (Robert, 1996). Le résultat de ce filtrage a produit une liste de 157 920 items.

3 Estimation de la fiabilité des fréquences

La fréquence des mots est un facteur très important dans la reconnaissance des mots. Les mots utilisés couramment sont plus facilement et plus rapidement reconnus que les mots utilisés plus rarement. Beaucoup d'étude montrent que c'est le facteur expliquant le plus de variance dans la tâche de décision lexicale.

Cet effet n'existe pas uniquement entre les mots très fréquents et les mots très peu fréquent (comme entre porte et osselet) mais il joue aussi pour des différences plus subtiles (comme entre danger et nuage). C'est donc un facteur extrêmement important à contrôler dès lors que l'on veut mettre en évidence l'importance d'un autre facteur dans la reconnaissance de mots.

Gernsbacher (1984) a suggéré que les fréquences basées sur des corpus écrit (comme les fréquences de Brulex ou de Lexique 1 et 2) n'étaient pas de très bons estimateurs de la fréquence d'usage.  Elle a notamment argumenté que ces fréquences écrites "classiques" ne prennent pas en compte la fréquence d'occurrence parlée. De plus ces fréquences reposent souvent sur des corpus anciens et non actualisés. Elle a ainsi montré que la familiarité pouvait être un meilleur prédicteur des temps de décision lexicale (notamment pour les mots de basse fréquence) que les fréquences utilisées à l'époque. Il ressort donc de ces études qu'il est crucial d'avoir les fréquences les plus actualisées et les plus proches de l'usage parlé possible.

Dans Lexique 3, nous proposons deux estimateurs des fréquences d’usage : le premier est fondé sur un sous-ensemble de de textes littéraires  récents (romans) tirés du corpus Frantext; le second repose sur un corpus de sous-titres de films.

4 Avantages du corpus de sous-titres

Un premier avantage de la présence de ce corpus de sous-titres est qu'il contient beaucoup de films très récents ce qui permet d'avoir du vocabulaire plus actuels. Il a permis d'ajouter un grand nombre d'entrées récentes qui avaient beaucoup moins de chance de se trouver dans des textes littéraires. C'est le cas de mots tels que techno, téléchargement, internautes, internet.

Un second avantage provient du fait que les fréquences de termes caractéristiques du langage parlé tels que Salut, Bonjour, Au revoir, Oui, ou Non  sont au moins 5 fois plus fréquents dans le corpus de sous-titres que dans le corpus de livres.

Enfin, un dernier avantage provient du fait qu'il sera très facile de réactualiser ce corpus très régulièrement.

5 Organisation de la base Lexique 3

Lexique 3 est fournie sous forme de fichiers textes, les champs étant séparés par des tabulations. Cela permet de les importer facilement avec la plupart des logiciels.

5.1 Organisation de la table Lexique3

La Tableau 1 présente les différents champs de cette table pour quelques items.

 

 


Tableau 1 Présentation d'un extrait de Lexique3.txt

Légende: ortho: le mot; phon: les formes phonologiques du mot; lemme: les lemmes de ce mot; cgram: les catégories grammaticales de ce mot; genre: le genre; nombre: le nombre; freqlemfilms: la fréquence du lemme selon le corpus de sous-titres (par million d’occurrences); freqlemlivres: la fréquence du lemme selon le corpus de livres (par million d’occurrences); freqfilms: la fréquence du mot selon le corpus de sous-titres (par million d’occurrences); freqlivres: la fréquence du mot selon le corpus de livres (par million d’occurrences);infover: modes, temps, et personnes possibles pour les verbes; nbhomogr: nombre d'homographes; nbhomoph: nombre d'homophones; islem: indique si c'est un lemme ou pas; nblettres: le nombre de lettres; nbphons: nombre de phonèmes; cvcv: la structure orthographique; p-cvcv: la structure phonologique; voisorth: nombre de voisins orthographiques; voisphon: nombre de voisins phonologiques; puorth: point d'unicité orthographique; puphon: point d'unicité phonologique; syll: forme phonologique syllabée; nbsyll: nombre de syllabes ; cv-cv : structure phonologique syllabée; orthrenv: forme orthograhique inversée; phonrenv: forme phonologique inversée; orthosyll: forme orthographique syllabée


-Mot (ortho): La graphie est la forme orthographique du mot (p. ex.chienne)

-Phonie (phon): Représentation phonologique du mot. Les codes phonémiques utilisés sont présentés dans le Tableau 2. L'historique complet de la génération de ce champs est présenté dans l'Annexe B: Historique de l'obtention des codes phonologiques de Lexique.

Tableau 2 Codes phonémiques

 

Voyelles

 

Consonnes

Codes Lexique

Exemples

Sons nommés

 

Codes Lexique

Exemples

Sons nommés

a

bat, plat

A

 

p

père, soupe

p (occlusive)

 i

lit, émis

I

 

b

bon, robe

b (occlusive)

y

lu

U

 

t

terre, vite

t (occlusive)

U

roue

Ou

 

d

dans, aide

d (occlusive)

O

peau, mot

o (fermé)

 

k

carré, laque

k (occlusive)

o

éloge, fort

o (ouvert)

 

g

gare, bague

g (occlusive)

e

été

e-fermé

 

f

feu, neuf

f (fricative)

E

paire, treize

e-ouvert

 

v

vous, rêve

v (fricative)

°

abordera

schwa élidable

 

s

sale, dessous

s (fricative)

2

deux

e-fermé

 

z

zéro, maison

z (fricative)

9

œuf, peur

e-ouvert

 

S

chat, tâche

ch (fricative)

5

cinq, linge

in (voy. Nasale)

 

Z

gilet, mijoter

ge (fricative)

1

un, parfum

un (voy. nasale)

 

m

main, femme

m (cons. nasale)

@

ange

an (voy. nasale)

 

n

nous, tonne

n (cons. nasale)

§

on, savon

on (voy. nasale)

 

N

agneau, vigne

gn (c. nasale palat.)

3

parvenu

schwa non élidable

 

l

lent, sol

l (liquide)

Semi-Voyelles

 

 

 

R

rue, venir

 R

j

yeux, paille

y (semi-voyelle)

 

x

jota

jota (emprunt espagn.)

8

huit, lui

ui (semi-voyelle)

 

G

camping

ng (emprunt angl.)

w

oui, nouer

w (semi-voyelle)

 

 

 

 

 

-          Lemme (lemme) : Le lemme est la forme canonique, c’est à dire l’infinitif pour un verbe, la masculin singulier pour un nom ou un adjectif. Par exemple, l'item chienne a pour lemme chien.

-          Classe grammaticale (cgram) : Les différents codes utilisés pour représenter les catégories grammaticales sont présentés dans le Tableau 3.

Tableau 3: Codes des catégories grammaticales

Abréviations

Catégorie grammaticale

ADJ

Adjectif

ADJ:dem

Adjectif démonstratif

ADJ:ind

Adjectif indéfini

ADJ:int

Adjectif interrogatif

ADJ:num

Adjectif numérique

ADJ:pos

Adjectif possessif

ADV

Adverbe

ART:def

Article défini

ART:inf

Article indéfini

AUX

Auxiliaire

CON

Conjonction

LIA

Liaison euphonique (l')

NOM

Nom commun

ONO

Onomatopée

PRE

Préposition

PRO:dem

Pronom démonstratif

PRO:ind

Pronom indéfini

PRO:int

Pronom interrogatif

PRO:per

Pronom personnel

PRO:pos

Pronom possessif

PRO:rel

Pronom relatif

VER

Verbe

 

- Genre (genre) : Un mot peut être masculin (m) ou féminin (f).

- Nombre (nombre) : Un mot peut être singulier (s) ou pluriel (p)

- Fréquence du lemme par million selon le corpus de films (freqlemfilm2) : Elle correspond à la somme des fréquences des formes fléchies de chaque lemme fournie par notre sélection de films. Ex: freq (arbre) = freq ("arbre") + freq ("arbres")

Pour advantage de détails sur cette fréquence : New, B., Brysbaert, M., Veronis, J., & Pallier, C. (in press). The use of film subtitles to estimate word frequencies. Applied Psycholinguistics.

Attention cette fréquence a changé à partir de Lexique 3.40. (Elle est alors basée sur un plus gros corpus et un moyennage sur les sous-corpus)

 

Tableau 4: Nombre et exemples de lemmes selon leur fréquence (corpus de sous-titres)

- Fréquence du lemme par million selon le corpus de livres (freqlemlivre) : Elle correspond à la somme des fréquences des formes fléchies de chaque lemme fournie par notre sélection de livres de Frantext, normalisée par une division par 14,8 (le corpus original comprenant 14,7 millions d'occurrences).

- Fréquence par million selon le corpus de films (freqfilm2) : Elle correspond à la fréquence par million d'occurrences du mot selon notre corpus de sous-titres. Contrairement à Lexique 2, danse aura deux entrées et deux fréquences, une pour sa forme nominale (p.ex. la danse) et une pour sa forme verbale (je danse). Attention, cette fréquence a changé à partir de Lexique 3.40.

- Fréquence par million selon le corpus de livres (freqlivre) : Elle correspond à la fréquence par million d'occurrences du mot selon notre corpus de livres. (14,7 millions de mots).

- Informations verbales (infover): Ce sont les informations de mode, de temps, et de personne que sont susceptibles de prendre les formes verbales

Tableau 5: Informations complémentaires sur les verbes

Mode

 

 

Personne

 

 

Temps

 

ind

indicatif

 

1s

1ère personne du singulier

 

pre

présent

cnd

conditionnel

 

2s

2ème personne du singulier

 

fut

futur

sub

subjonctif

 

3s

3ème personne du singulier

 

imp

imparfait

par

participe

 

1p

1ère personne du pluriel

 

pas

passé

inf

infinitif

 

2p

2ème personne du pluriel

 

 

 

imp