Université Paris5 Lexique - Une Base de Données Lexicales Libre CNRS
Un site réalisé par Boris New & Christophe Pallier et hébergé par le RISC
Menu principal
  • Accueil
  • Nouveautés
  • Interroger Open Lexique
  • Télécharger
  • Documentation
  • Forums de discussion
  • Fil Rss
  • Autres ressources
  • Contributeurs
  • Qui utilise Lexique
  • Listes Diverses
  • UnDows
  • Lexique Toolbox

  • Corpus de textes - Corpatext 1.02

    Corpatext 1.02

    Description

    Les corpus de textes sont très rares en français. Si il est assez facile de trouver des textes, il est très rare de trouver de gros corpus de textes librement utilisables (nous n'en connaissons aucun). Etant donné qu'un corpus de textes est quelque chose d'extrêmement utile, nous avons décidé d'essayer de combler ce manque avec Corpatext.

    Le fichier Corpatext.txt est un corpus de 2700 textes et 37 millions de mots.
    Les textes sont séparés par la chaîne suivante "$$$$$".
    Ces textes proviennent de la WordTheque.

    Nous les avons téléchargé et les redistribuons sous la forme d'un gros fichier.

    Licence

    Ces textes sont normalement dans le domaine public.
    Cependant, si ce n'est pas le cas (cela arrive), contactez-nous et nous les enlèverons.

    Auteurs

    Téléchargement

    Corpatext 1.02

    Mises à jours

    • Corpatext 1.02 (21 Juillet 2006): Retrait des textes de Bernard Vauléon, Antoine Desroches,(textes qui ne sont pas dans le domaine public) et Staline.
    • Corpatext 1.01 (23 Juin 2006): Correction de problèmes d'accents
    Lexique - Une Base de Données Lexicales Libre
    Copyleft © 2001 Lexique
    Powered by phpWebLog