Corpus de textes - Corpatext 1.02
Corpatext 1.02
Description
Les corpus de textes sont très rares en français. Si il est assez facile de trouver des textes, il est très rare de trouver de gros corpus de textes librement utilisables (nous n'en connaissons aucun). Etant donné qu'un corpus de textes est quelque chose d'extrêmement utile, nous avons décidé d'essayer de combler ce manque avec Corpatext.
Le fichier Corpatext.txt est un corpus de 2700 textes et 37 millions de mots.
Les textes sont séparés par la chaîne suivante "$$$$$".
Ces textes proviennent de la
WordTheque.
Nous les avons téléchargé et les redistribuons sous la forme d'un gros fichier.
Licence
Ces textes sont normalement dans le
domaine public.
Cependant, si ce n'est pas le cas (cela arrive), contactez-nous et nous les enlèverons.
Auteurs
Téléchargement
Corpatext 1.02
Mises à jours
- Corpatext 1.02 (21 Juillet 2006): Retrait des textes de Bernard Vauléon, Antoine Desroches,(textes qui ne sont pas dans le domaine public) et Staline.
- Corpatext 1.01 (23 Juin 2006): Correction de problèmes d'accents