Corpatext 1.02

Description

Les corpus de textes sont très rares en français. Si il est assez facile de trouver des textes, il est très rare de trouver de gros corpus de textes librement utilisables (nous n'en connaissons aucun). Etant donné qu'un corpus de textes est quelque chose d'extrêmement utile, nous avons décidé d'essayer de combler ce manque avec Corpatext.

Le fichier Corpatext.txt est un corpus de 2700 textes et 37 millions de mots.
Les textes sont séparés par la chaîne suivante "$$$$$".
Ces textes proviennent de la WordTheque.

Nous les avons téléchargé et les redistribuons sous la forme d'un gros fichier.

Licence

Ces textes sont normalement dans le domaine public.
Cependant, si ce n'est pas le cas (cela arrive), contactez-nous et nous les enlèverons.

Auteurs

Téléchargement

Corpatext 1.02

Mises à jours