Université de Savoie LPNC Lexique - Une Base de Données Lexicales Libre RISC CNRS
Un site réalisé par Boris New & Christophe Pallier et hébergé par le RISC


Menu principal


Corpus de textes - Corpatext 1.02

Corpatext 1.02

Description

Les corpus de textes sont très rares en français. Si il est assez facile de trouver des textes, il est très rare de trouver de gros corpus de textes librement utilisables (nous n'en connaissons aucun). Etant donné qu'un corpus de textes est quelque chose d'extrêmement utile, nous avons décidé d'essayer de combler ce manque avec Corpatext.

Le fichier Corpatext.txt est un corpus de 2700 textes et 37 millions de mots.
Les textes sont séparés par la chaîne suivante "$$$$$".
Ces textes proviennent de la WordTheque.

Nous les avons téléchargé et les redistribuons sous la forme d'un gros fichier.

Licence

Ces textes sont normalement dans le domaine public.
Cependant, si ce n'est pas le cas (cela arrive), contactez-nous et nous les enlèverons.

Auteurs

Téléchargement

Corpatext 1.02

Mises à jours

  • Corpatext 1.02 (21 Juillet 2006): Retrait des textes de Bernard Vauléon, Antoine Desroches,(textes qui ne sont pas dans le domaine public) et Staline.
  • Corpatext 1.01 (23 Juin 2006): Correction de problèmes d'accents
Lexique - Une Base de Données Lexicales Libre
Copyleft © 2001 Lexique
Powered by phpWebLog