Manuel de Lexique 2

Document version 2.62c

Boris New1,  Christophe Pallier2

 

 

 

 

1Laboratoire de Psychologie expérimentale

UMR 8581 CNRS, Université René Descartes, Paris V

71, avenue Edouard Vaillant, 92774 Boulogne Billancourt Cedex, France

 

2Laboratoire de Sciences Cognitives et Psycholinguistique,

UMR 8554, CNRS, Ecole des Hautes Etudes en Sciences Sociales (EHESS),

54 Boulevard Raspail,75270 Paris CEDEX 06,

 

 

E-mail :new@psycho.univ-paris5.fr

 

Remerciements: Nous tenons à remercier Pascale Bernard de l'Inalf pour ses précieux renseignements, ainsi que Ray Sydney et l'équipe de FastSearch pour leurs moteurs de recherche Internet, Helmut Schmid pour son excellent lemmatiseur et Sid Kouider pour son aide et son programme permettant le calcul des voisins.

 

Mots clés : Reconnaissance de mots, Fréquence, Base de donnée



Historique de cette documentation

2.62c  Correction des champs frantfreqparm qui devient freqfrant et fsfreqparm qui devient freqweb

2.62b  Noms des champs pour toutes les bases d’Open Lexique

           Tableau avec la répartition du nombre de mots de Graphemes par nombre de syllabes et nombre de lettres

           Histogramme des fréquences

2.62a  Correction des catégories grammaticales

            Précisions sur le champs « Syllabation »

2.62    Corrections de mise en formes (liens hypertextes, moins de notes de bas de page, en-têtes corrigés)

2.61    Introduction rapide pour le nouveau venu

Correction de la description de BigrMoy.txt selon Surface 2.10

Rajout de la table des tableaux (permettant un accès direct aux codes grammaticaux ou phonologiques)

Petites corrections pour les outils hors-ligne (Undows)

Création de la section « Les autres bases »

2.60     Ajout d’une description précise du point d’unicité phonologique et orthographique dans Lexique 2.60

2.50     Ajout de la description des champs concernant le nombre de voisins (orthographiques et phonologiques)

            et des représentations inversées

            Amélioration de la description de la table Surface.txt

2.02     Correction mineure du tableau  présentant les formes phonologiques

            Ajout de cet historique

2.01     Corrections du tableau  présentant les formes phonologiques

2.00     Ajout/Modifications des sections:       -2.2 Fréquences à partir des pages web

                                                                                -3.2 Acquisition de la forme phonologique

                                                                                -4.4 Organisation du dossier Surface

                                                                                6. Licence

                                                                                7 Les outils

1.00     Naissance de cette documentation

 

Introduction rapide pour le nouveau venu

Si vous cherchez une information particulière et ne connaissez rien à Lexique, nous vous conseillons de procéder de la façon suivante :

-          lisez ce manuel (dans les grandes lignes) afin de

o        déterminer dans quelle base se trouve l’information que vous cherchez  (le plus souvent c’est la base Graphemes)

o        comprendre comment cette base est structurée (quel sont le ou les champs dont vous avez besoin)

o        déterminer quelle recherche vous allez utiliser (online ou offline). Essayez d’abord la recherche online et si vous ne pouvez utiliser celle-ci pour avoir l’information qui vous intéresse, essayez alors l’interrogation offline. (Undows)

Si vous avez un problème, faites d’abord une recherche sur le forum. Si vous ne trouvez pas de réponse à votre question, n’hésitez pas à la poster.

 

 

 

 

 

TABLE DES MATIERES

Introduction rapide pour le nouveau venu  2

1 Description du corpus original  6

2 Calcul des fréquences  6

2.1 Fréquences à partir d'un corpus de textes  6

2.2 Fréquences à partir des pages web  7

3 Obtention des autres descripteurs  8

3.1 Catégorie grammaticale, genre et nombre  8

3.2 Acquisition de la forme phonologique  9

4 Organisation de la base   9

4.1 Organisation de la table Graphemes  10

4.2 Organisation de la table Lemmes  17

4.3 Organisation de la table Surface  19

4.4 Organisation du dossier Surface  20

4.4.1 Bigr.txt 20

4.4.2 BigrMoy.txt 20

4.4.3 BigrMots.txt 21

4.4.4 BigrMotsMoy.txt 21

4.4.5 Calculs à partir de la dernière position  21

5 Les autres bases  22

6 Disponibilité et site web   22

7 Licence   23

8 Les outils  23

8.1 Les outils "en ligne"  23

8.2 Open Lexique  27

8.3 Les outils "hors ligne" : Undows  28

8.4 Évolutivité  29

9 Conclusion   30

Annexe A: Noms des champs  31

 


TABLE des TABLEAUX

Tableau 1 Présentation d'un extrait de Graphemes.txt 11

Tableau 2 Codes phonémiques. 12

Tableau 3 Codes des catégories grammaticales. 13

Tableau 4 Codes utilisés pour le genre. 13

Tableau 5 Codes du champ nombre. 14

Tableau 6 : Nombre de mots dans Graphemes en fonction du nombre de syllabes et du nombre de lettres. 16

Tableau 7: Présentation d'un extrait de Lemmes.txt 18

Tableau 8: Gros plan sur un verbe:"abaisser". 18

Tableau 9 Présentation du mot abaissa dans la table Surface. 20

Tableau 10: Présentation de la table Bigr.txt 20

Tableau 11: Présentation du bigramme ab dans la table BigrMoy.txt 21

Tableau 12: Présentation de la table BigrMots.txt 21

Tableau 13: Présentation du mot abaissa dans la table BigrMotsMoy.txt 21

Tableau 14 Présentation des opérateurs utilisés dans recherches simples. 24

Tableau 15 Présentation des opérateurs utilisés dans les expressions régulières. 26

 


 TABLE des FIGURES

Figure 1 Nuages de points présentant les corrélations entre les fréquences basées sur Brulex, Frantext et les fréquences basées sur le web  9

Figure 2 : Histogramme des fréquences Frantext pour les mots de fréquence supérieure à 1. 16

Figure 3 Exemple de requête de type "Recherche par Mots". 26

Figure 4 Exemple de requête effectuée sur la base Graphemes. 28

Figure 5 Résultats obtenus suite à la requête présentée dans la Figure 3. 29

Figure 6 Exemple de recherche utilisant les possibilités d'Open Lexique. Nous demandons ici tous les mots de 2 syllabes selon Graphemes qui ont 3 homographes selon Brulex. 30

Figure 7 Exemples de requêtes effectué "hors ligne". 31

 


Une base de données lexicales pour la langue française: Lexique 2

 

 

 

Pendant longtemps, les psycholinguistes ont sélectionné manuellement le matériel verbal dans le Trésor de la Langue Française (Imbs, 1971). Leur travail a été grandement facilité quand Content, Mousty et Radeau (1990) ont mis à leur disposition Brulex, une base de données informatisée regroupant les 35 746 entrées lexicales du Petit Robert et leurs fréquences selon le TLF. Ces fréquences étaient estimées sur un corpus de textes littéraires datant de 1919 à 1964 et comprenant 26 millions de mots. Une limitation notable de Brulex était l’absence des formes fléchies telles que les verbes conjugués ou certaines formes écrites plurielles ou féminines. Cela pose problème par exemple pour toutes les études concernant les formes fléchies en français ou pour estimer des fréquences d’unités telles que les syllabes. NOVLEX, une base de données plus récente (Lambert et Chesnet, 2001), fournit les formes fléchies mais se fonde sur un corpus spécialisé de textes pour enfants de 417 000 mots. C’est pourquoi nous avons entrepris de construire une nouvelle base de données avec des estimations de fréquences plus complètes, plus actuelles, et comprenant les formes fléchies.

1 Description du corpus original

Afin de constituer la base initiale de mots, nous avons sélectionné dans la base Frantext les textes publiés entre 1950 et 2000 : cela représentait un corpus de 31 millions d’items. Frantext est une base de données textuelles regroupant 3 200 textes représentatifs du français des 19e et 20e siècle, développée par l'INALF-Nancy, devenu aujourd'hui l'ATILF. Ces textes étaient essentiellement des romans, mais comprenaient également quelques recueils de poésie, des essais et des traités scientifiques ou techniques. Nous avons obtenu une liste de 246 000 items distincts ainsi que leur fréquence (Le logiciel d’interrogation ne traitait malheureusement pas correctement les noms composés : un mot comme « garde-manger » était identifié comme deux items distincts « garde » et « manger »). Ces items comprenaient des symboles (dont la ponctuation), des abréviations, des mots étrangers et des noms propres. Pour "nettoyer" cette liste, nous avons employé le dictionnaire Francais-Gutenberg 1.0 (Pythoud, 1996) et le dictionnaire Le Grand Robert (Robert, 1996). Le résultat de ce filtrage a produit une liste de 130 000 items ayant des formes orthographiques distinctes.

2 Calcul des fréquences

2.1 Fréquences à partir d'un corpus de textes

La fréquence des mots joue un rôle fondamental dans la plupart des tâches psycholinguistiques (voir Monsell, 1991 pour une synthèse). De nombreuses études ont montré que les performances étaient meilleures pour les mots de haute fréquence que pour les mots de basse fréquence, que cela soit en terme de nombre d’erreurs ou de temps de réaction. Cependant, d’autres facteurs comme l’âge d’acquisition, ou la familiarité, généralement très corrélés avec la fréquence d’usage, interviennent (Morrison et Ellis, 1995 ; Connine, Mullenix, Shernoff et Yelen, 1990). Pour décorréler ces différents facteurs, il est primordial d’avoir de bonnes estimations de chacun d’entre eux.

Dans Lexique, nous proposons deux estimateurs des fréquences d’usage : le premier est fondé sur le corpus initial de Frantext, constitué de textes littéraires ; le second repose sur le nombre de pages web françaises contenant un mot donné. Ce deuxième estimateur, fondé sur quinze millions de pages web, nous a paru constituer une source d’information supplémentaire sur l’usage du français.

2.2 Fréquences à partir des pages web

Plus précisément, nous avons soumis au moteur de recherche FastSearch, les 130 000 formes orthographiques obtenues à partir du corpus Frantext. Nous avons choisi ce moteur en raison de son indication précise du nombre de pages contenant le mot recherché (Google p. ex. ne donne que des approximations), et du fait qu'il différencie les caractères accentués des caractères non accentués. En revanche, il n'effectue pas de différenciation entre les majuscules et les minuscules tout comme nos fréquences basées sur Frantext. L’interrogation était effectuée sur les 15 millions de pages françaises répertoriées, en mode SafeSearch pour éviter la sur-représentation des mots à connotation sexuelle. Pour chaque mot a été obtenu le nombre de pages dans lesquelles celui-ci apparaissait ; il ne s’agit donc pas exactement de la fréquence lexicale de la forme, mais néanmoins d’un estimateur de l’usage de ce mot. Par exemple, des mots tels que publicité, entreprise ou télévision se retrouvent avec des fréquences comparables à celles de mots tels que champ, arbre ou chaise selon FastSearch, mais avec des fréquences très divergentes selon Frantext. D'autres items tels que kiwi sont extrêmement rares selon Brulex ou Frantext alors que FastSearch les considère, de façon plus réaliste, comme "plutôt rares". Pour comparer ces deux estimations de fréquence entre elles et par rapport aux fréquences du TLF, nous avons construit le diagramme de corrélation de la Figure 1 à partir du logarithme des fréquences de 23 440 items selon le TLF, Frantext et FastSearch.

Figure 1 Nuages de points présentant les corrélations entre les fréquences basées sur Brulex, Frantext et les fréquences basées sur le web

Plus récemment, Blair, Urland et Ma (2002) ont effectué une comparaison sur 400 mots anglais entre les fréquences obtenues en nombre de hits de 4 moteurs de recherche (AltaVista, Northern Light, Excite et Yahoo!), et les fréquences fondées sur des bases de textes (Francis et Kucera, 1982; et Baayen, Piepenbrock, et van Rijn, 1993). Ces auteurs observent une forte corrélation entre les différents moteurs et les bases de textes. Le web étant plus versatile que les bases de textes, ils vont aussi interroger à nouveau ces moteurs 6 mois plus tard et constater que les fréquences n'ont pas significativement changé. En revanche, ils constatent une corrélation moyenne (entre 0,45 et 0,49) entre ces différentes bases et l'indice de familiarité donné par les sujets. Cette corrélation est tout aussi importante pour les fréquences estimées par les moteurs de recherche que pour celles données par les bases de textes.

Ils en concluent que même si l'indice fréquentiel (nombre de pages contenant ce mot) donné par les moteurs de recherche n'est pas le même que celui donné par les bases de textes (nombre de mots apparaissant dans le corpus), cet indice semble tout aussi représentatif que celui donné par les corpus de textes.

3 Obtention des autres descripteurs

3.1 Catégorie grammaticale, genre et nombre

Pour obtenir la catégorie grammaticale, le genre, le nombre et le lemme des mots (un lemme est le mot choisi pour représenter toute une famille de formes apparentées. Par exemple: manger est le lemme de mangea, mangeait, …etc.), nous avons utilisé conjointement le Grand Robert, et les deux lemmatiseurs: Tree Tagger de Helmut Schmid et Flemm 2.0 (Namer, 2000). En effet, aucune de ces sources seules ne permettait d'avoir une information suffisamment complète.

3.2 Acquisition de la forme phonologique

Dans une troisième étape, nous avons dérivé la forme phonologique de nos entrées grâce au logiciel LAIPTTS 1.13. Ce logiciel utilise un noyau de 500 règles de conversion graphème-phonème rendant compte de plus de 86% des prononciations. Afin de traiter les exceptions, il dispose aussi d’un dictionnaire composé de 6 000 mots ayant des prononciations exceptionnelles. Sur 4 000 phrases du quotidien Le Monde, l’auteur rapporte que son logiciel a un taux d’erreur de 0,001 %.

Or ce logiciel (LAIPTTS) était un logiciel prévu pour générer de la parole à partir de textes continus et non de mots isolés. Peereman et Dufour (sous presse) ont examiné, une fois la première version de Lexique rendue publique, les codes phonémiques donnés par Lexique en les comparant aux notations phonémiques données par Brulex (elles-mêmes basées sur le dictionnaire Le Petit Robert). Ils ont ainsi détecté 2 500 différences (sur les 30 000 entrées que contient Brulex) de codifications phonémiques entre Lexique et Brulex. Ces 2 500 différences relevaient soit de mots à prononciation exceptionnelle, soit de problèmes de règles de conversion utilisées par le logiciel. Ils ont donc corrigé ces entrées. Ils ont aussi retraité l'ensemble des codes phonémiques pour le positionnement des schwas. Afin de rendre les codes phonémiques les plus cohérents possibles, les auteurs de ces corrections ont aussi supprimé la distinction entre les deux types de "a" et les deux types de "o", les deux types de "r", l'arrêt glottique, ainsi que la marque d'aspiration "h".

Le site http://leadserv.u-bourgogne.fr/bases/lexiquecorr/ met à disposition un document décrivant les corrections réalisées, les scripts de correction utilisés ainsi que l'ensemble des correctifs. Ces corrections ont été intégrées à la version 2 de Lexique.

4 Organisation de la base

Etant donné le grand nombre d'informations disponibles, nous avons choisi pour des raisons d'accessibilité et de lisibilité de diviser notre base en trois tables principales :

- Graphemes.txt : une base organisée à partir des formes orthographiques qui comprend environ 129 000 entrées.

- Lemmes.txt : une base organisée à partir des lemmes qui comprend environ 54 000 entrées. Nous avons choisi la forme "infinitif" pour les verbes et la forme "masculin singulier" pour les participes passés, adjectifs et noms.

- Surface.txt: une base qui résume les statistiques fréquentielles concernant les lettres, bigrammes, trigrammes, phonèmes et syllabes pour chaque mot. Elle comprend 129 000 entrées tout comme graphemes.txt.

Ces tables sont fournies sous forme de fichiers textes, les champs étant séparés par des tabulations. Cela permet de les importer facilement avec la plupart des logiciels. Deux dossiers supplémentaires, Surface et Outils, contiennent respectivement des informations fréquentielles détaillées à propos des lettres, bigrammes, trigrammes, phonèmes et syllabes, et des outils facilitant l’utilisation des tables.

4.1 Organisation de la table Graphemes

La table Graphemes est présentée dans le fichier graphemes.txt. C'est la base à partir de laquelle nous avons créé les autres bases (Lemmes et Surface p.ex.). Nous allons présenter dans cette partie une description des différents champs qui constituent cette base.

La Tableau 1 présente les différents champs de cette table pour quelques items.

 

 


Tableau 1 Présentation d'un extrait de Graphemes.txt


Légende: graph: le mot; phon: les formes phonologiques du mot; cgram: les catégories grammaticales de ce mot; genre: le genre; nombre: le nombre; lemme: les lemmes de ce mot; freqfrant: les fréquences de frantext par million d’occurences; freqweb: les fréquences de fastsearch (web) par million de pages; nblettres: le nombre de lettres; nbphons: nombre de phonèmes; cvcv: la structure orthographique; p-cvcv: la structure phonologique; puorth: point d'unicité orthographique; puphon: point d'unicité phonologique; syll: forme phonologique syllabée; nbsyll: nombre de syllabes ; cv-cv : structure phonologique syllabée


-Graphie (graph): La graphie est la forme orthographique du mot (p. ex.chienne)

-Phonie (phon): Les codes phonémiques utilisés sont présentés dans le Tableau 2

Tableau 2 Codes phonémiques

 

Codes Lexique

Exemples

Sons nommés

 

Codes Lexique

Exemples

Sons nommés

Voyelles

 

 

 

Consonnes

 

 

a

bat, plat

a

 

p

père, soupe

p (occlusive)

 i

lit, émis

i

 

b

bon, robe

b (occlusive)

y

lu

u

 

t

terre, vite

t (occlusive)

u

roue

ou

 

d

dans, aide

d (occlusive)

O

éloge, peau

o (fermé ou ouvert)

 

k

carré, laque

k (occlusive)

e

été

e-fermé

 

g

gare, bague

g (occlusive)

E

paire, treize

e-ouvert

 

f

feu, neuf

f (fricative)

*

premier, abattre 

schwa

 

v

vous, rêve

v (fricative)

2

deux

e-fermé

 

s

sale, dessous

s (fricative)

9

œuf, peur

e-ouvert

 

z

zéro, maison

z (fricative)

5

cinq, linge

in (voy. nasale)

 

S

chat, tâche

ch (fricative)

1

un, parfum

un (voy. nasale)

 

Z

gilet, mijoter

ge (fricative)

@

ange

an (voy. nasale)

 

m

main, femme

m (cons. nasale)

§

on, savon

on (voy. nasale)

 

n

nous, tonne

n (cons. nasale)

o

minoen

o d’origine étrangère

 

N

agneau, vigne

gn (c. nasale palat.)

Semi-Voyelles

 

 

 

l

lent, sol

l (liquide)

j

yeux, paille

y (semi-voyelle)

 

R

rue, venir

 R

8

huit, lui

ui (semi-voyelle)

 

x

jota

jota (emprunt espagn.)

w

oui, nouer

w (semi-voyelle)

 

G

camping

ng (emprunt angl.)

 

 

 

 

h

hachoir

h aspiré

 

- Classe grammaticale (cgram) : Si une même entrée peut appartenir à plusieurs classes grammaticales différentes, celles-ci sont séparées par un point-virgule. Les différents codes utilisés pour représenter les catégories grammaticales sont présentés dans le Tableau 3.

Tableau 3 Codes des catégories grammaticales

Abréviations

Signification

ABR

Abréviations

ADJ

Adjectif

ADV

Adverbe

Cond

Conditionnel

CONJ

Conjonction

demo

démonstratif

DET

Déterminant

EXCLAM

Exclamation

Futu

Futur

Imp

Impératif

Impf

Imparfait

Ind

Indicatif

Indef

indéfini

Infi

Infinitif

INT

Interjection

invar

Une des formes est invariable

LOC

Locution

NOM

Nom

ONOMAT

Onomatopée

pers

Pronom personnel

poss

Pronom possessif

Pper

Participe passé

Ppre

Participe présent

Pr

Présent

PRE

Préposition

PREF

Préfixe

PRO

Pronom

Ps

Passé simple

Sub

Subjonctif

SUFFIXE

Suffixe

SYM

Symbole

VER

Verbe

 

- Genre (genre) : Les différents codes utilisés pour représenter le genre sont présentés dans le Tableau 4.

Tableau 4 Codes utilisés pour le genre

m

masculin

f

féminin

é

épicène

(Un épicène est un mot dont la forme ne varie pas avec le genre (p. ex. pianiste))

- Nombre (nombre) : Les codes utilisés pour représenter le singulier, le pluriel, etc. sont indiqués dans le Tableau 5.

Tableau 5 Codes du champ nombre

s

Singulier

p

Pluriel

(p)

probablement pluriel mais peut aussi être pluriel ou singulier (vieux)

1s

1ère personne du singulier

2s

2ème personne du singulier

3s

3ème personne du singulier

1p

1ère personne du pluriel

2p

2ème personne du pluriel

3p

3ème personne du pluriel

- Lemme (lemme) : Le lemme est la forme canonique, c’est à dire l’infinitif pour un verbe, la masculin singulier pour un nom ou un adjectif. Par exemple, l'item chienne a pour lemme chien.

- Nombre aléatoire (rand) : Un nombre aléatoire tiré entre 1 et 1 000 000. Si vous utilisez cette colonne afin de trier les résultats obtenus, vous pouvez ainsi obtenir des items dont les premières lettres sont distribuées dans la totalité de l'alphabet (ce peut être très utile lors de la constitution du matériel d'une expérience).

- Fréquence par million selon Frantext (freqfrant) : Elle correspond à la fréquence fournie par Frantext, normalisée par une division par 31 (le corpus original comprenant 31 millions d'occurences). La somme des fréquences de ce champs ne fait pas un million en raison du premier filtrage effectué. En effet, après avoir collecté toutes les formes orthographiquement distinctes présentes dans la base de textes Frantext, nous avons dû enlever de cette liste toutes les formes étrangères, noms propres, etc.

Figure 2 : Histogramme des fréquences Frantext pour les mots de fréquence supérieure à 1

Ce graphique indique qu’entre : (les fréquences sont données en occurrences par millions)

0 et 1: 98 000 mots

1 et 3 : 15 000 mots

3 et 10 : 9 000 mots

10 et 31 : 4000 mots

31 et 100 : 1600 mots

100 et plus : 700

-Fréquence par million de pages selon FastSearch (freqweb) : Le nombre de pages web par million où ce mot apparaît, selon FastSearch (sur un corpus de 14,27 millions de pages).

- Nombre de lettres (nblettres)

Tableau 6 : Nombre de mots dans Graphemes en fonction du nombre de syllabes et du nombre de lettres

- Nombre de phonèmes (nbphons) : C'est le nombre de phonèmes d'après la représentation phonologique présentée dans le champ phon.

- Structure orthographique (cvcv) : Elle décrit la structure orthographique. Les voyelles sont notées V, les consonnes sont notées par C. Ainsi chienne est représentée par ccvvccv.

-Structure de la forme phonologique (p-cvcv) : C'est un découpage du mot en voyelles (V) et consonnes (C) selon sa représentation phonologique.

-Point d’unicité orthographique (puorth) : Le point d’unicité orthographique correspond au rang de la lettre en partant de la gauche à partir duquel le mot peut être identifié sans ambiguïté. Nous avons calculé les points d'unicité pour les sur la base des lemmes pour que les formes plurielles ne parasitent pas les calculs (sinon toutes les formes ayant un pluriel ont un point d'unicité égale à leur longueur).Pour les formes orthographiques n'étant pas lemme, le point d'unicté est de 0. [avant la version 2.60 les voisins n’étaient pas calculés sur les lemmes mais sur toutes les entrées de graphemes]

- Point d’unicité phonologique (puphon) : Le point d’unicité phonologique correspond au rang du phonème en partant de la gauche à partir duquel le mot peut être identifié sans ambiguïté. Le point d'unicité phonologique a aussi été calculé sur la base des lemmes. Pour certains lemmes très rares nous n'avions pas leurs représentations phonologiques (les représentations phonologiques ont été calculées sur les formes orthographiques). Pour les formes orthographiques n'étant pas lemmes, ou pour les formes dont le lemme dont nous n'avons pas de représentation phonologique, le point d'unicité phonologique est donc de 0.

- Syllabation (syll) : Les formes phonologiques ont été syllabées selon un algorithme de syllabation décrit dans Dufour, Peereman, Pallier et Radeau (sous presse). Une version mise à jour de l’article décrivant l’algorithme utilisé est présente à l’adresse suivante En résumé, nous avons retenu la syllabation adoptée par Pallier (1994). La syllabation est calculée sur la représentation phonologique présente dans Lexique dont on a enlevé les schwas finaux. Cette syllabation est basée sur le principe général d'une segmentation syllabique entre deux consonnes sauf dans les cas des occlusives + liquides ou d'une fricative labio-dentale suivie d'une liquide. Le script de syllabation (syllabation.awk) est distribué avec lexique.

- Nombre de syllabes (nbsyll)

- Structure phonologique syllabique (cv-cv) : Elle décrit la structure phonologique du mot syllabé. Les consonnes sont notées C, les voyelles sont notées V et les semi-voyelles Y

- Nombre de voisins orthographiques (voisorth) : Le nombre de voisins orthographiques calculés selon toutes les entrées de la base Graphemes. Les voisins orthographiques d’un mot sont les mots qui peuvent être créés en changeant une lettre sans modifier pour autant la position des autres lettres (Coltheart, Davelaar, Jonasson et Besner, 1977). Par exemple, les mots vidé, et aidé sont tous des voisins orthographiques du mot aidé. Les différents voisins de chaque mot sont présentés dans la table Voisins (que l'on peut télécharger sur http://www.lexique.org).

- Nombre de voisins phonologiques (voisphon) : Les voisins phonologiques d'un mot sont des mots qui peuvent être créés en changeant un phonème sans modifier les autres. Ils ont aussi été calculés à partir des entrées phonologiques de la base Graphemes.

- Représentation orthographique inversée (orthrenv) : Ex: erbra (arbre). Ce type de champs, une fois trié, est très utile pour les personnes travaillant sur les terminaisons (p.ex. en morphologie)

- Représentation phonologique inversée (phonrenv) : Ex: RbRa (aRbR). Même champs que précédemment mais pour la représentation phonologique.

4.2 Organisation de la table Lemmes

La table Lemmes est présentée dans le fichier Lemmes.txt. La base Lemmes a été créée à partir de Graphemes. Nous allons présenter dans cette partie une description des différents champs qui constituent cette base.

Le Tableau 7 présente les différents champs de cette table pour quelques items.


Tableau 7: Présentation d'un extrait de Lemmes.txt


Légende: lem: le lemme; graph: les formes fléchies du lemme; phon: les formes phonologiques des formes fléchies; cgram: les catégories grammaticales auxquelles appartiennent les formes fléchies; genre: le genre des formes fléchies; nombre: le nombre des formes fléchies; freqfrantcum : la fréquence du lemme selon Frantext (en tant que somme des fréquences des formes fléchies associées); ); freqfrantgraph: les fréquences des formes fléchies selon Frantext freqwebcum la fréquence du lemme du web (en tant que somme des fréquences des formes fléchies associées); freqwebgraph: les fréquences des formes fléchies du web.

Tableau 8: Gros plan sur un verbe:"abaisser"

Abaisser

abaissa;abaissai;abaissaient;abaissait;abaissant;abaisse;abaissent;abaisser;abaissera;abaisserai;abaisseraient;abaisserait;abaisses;abaissez;abaissons;abaissât;abaissèrent;abaissé;abaissée;abaissées;abaissés

abEsa;abEsE;abEsE;abEsE;abEs@;abEs;abEs;abese;abEsRa;abEsRE;abEsRE;abEsRE;abEs;abEse;abEs§;abEsA;abEsER;abese;abese;abese;abese

ADJ;NOM;VER:cond:pr;imp:pr;ind:futu;ind:impf;ind:pr;ind:ps;infi;pper;ppre;sub:impf;sub:pr

F;m

1s;2s;2p;1p;3s;3p;s;(p);p

658

45;2;8;40;74;167;42;138;3;3;4;6;2;3;1;1;7;66;24;4;18

45732

761;62;259;625;3560;7960;1730;16800;576;72;66;258;332;1190;120;13;143;6100;2820;855;1430

 


- Lemme (lem) : Cette base est organisée selon ce champs qui est le lemme.

- Graphies (graph) : Ce champs présente les graphies des formes fléchies associées à ce lemme. Ainsi pour le lemme chien, les graphies sont chien, chienne, chiens et chiennes.

Les champs qui suivent présentent l'information de Graphemes.txt pour chacune des formes fléchies.

- Phonies (phon)

- Classes grammaticales (cgram)

- Genre (genre)

- Nombre (nombre)

- La fréquence cumulée du lemme selon Frantext (frantfreqcum) : C'est la somme des fréquences des formes orthographiques (calculées ci-dessous).

- La fréquence des formes orthographiques selon Frantext (frantfreqgraph) : Ce sont les fréquences des formes fléchies du lemme. Ainsi le lemme arbre ayant deux formes fléchies arbre et arbres, nous affichons 8 004.64;8 448.17

- La fréquence cumulée du lemme selon FastSearch (fsfreqcum)

- La fréquence des formes orthographiques selon FastSearch (fsfreqgraph)

4.3 Organisation de la table Surface

Le fichier Surface.txt résume l'information concernant les fréquences des lettres, bigrammes, trigrammes, phonèmes et syllabes pour chaque item de Graphemes.txt.

Afin d’effectuer ce résumé, nous avons tout d’abord calculé la fréquence cumulée de chaque unité (lettre, bigramme, etc.) pour chaque position. Pour ce faire, nous avons sommé la fréquence du mot où cette lettre apparaissait à telle ou telle position. Une fois obtenues ces fréquences par position, la fréquence d’un mot présentée dans la base Surface correspond à la moyenne de la fréquence des unités le composant.

Par exemple, la fréquence du champs GrTok pour abaissa correspond à la moyenne des fréquences de a en première position, b en deuxième, etc.

Tableau 9 Présentation du mot abaissa dans la table Surface

Graph

GrTok

GrTokEt

BigrTok

BigrTokEt

TrigrTok

TrigrTokEt

PhonTok

PhonTokEt

SyllTok

SyllTokEt

abaissa

28950.19

16528.04