Home » Corpus comparable multilingue


Corpus comparable multilingue


Corpus comparables, étiquetés et lémmatisés

Cette page recense les 2 corpus comparables étiquetés et lémmatisés issus du projet européen TTC sur 1) l’énergie éolienne et 2) la technologie mobile pour les 7 langues suivantes : français, anglais, allemand, espagnol, russe, letton et chinois.

Le déliverable D-2.5 du projet européen TTC décrit la structure des corpus livrés.

Chaque corpus est fournit sous la forme d’une archive compressée. Pour la décompresser, il suffit d’exécuter la commande suivante :

tar zxvf corpus.tgz

Chaque corpus se structure de la manière suivantes :

  • un répertoire txt/ avec des fichiers *.txt contenant les textes « nettoyés » du corpus ;
  • un répertoire xml/ avec des fichiers *.xml contenant les méta-données au format XML DublinCore des fichiers texte du répertoire précédent ;
  • un répertoire xmi/ avec des fichiers *.xmi contenant le corpus étiquetés et lemmatisés au format XMI avec le système de types UIMA pour TTC TermSuite
  • un répertoire tsv/ avec des fichiers *.tsv contenant les corpus étiquetés et lemmatisés au format TSV (tabulated-separated values) avec un mot par ligne et 3 colonnes par mot (le mot rencontré, sa catégorie grammaticale et son lemme) .

L’ensemble des corpus comparables sur l’énergie éolienne est disponible avec l’archive wind-energy.tgz.

L’ensemble des corpus comparables sur la technologie mobile est disponible avec l’archive mobile-technology.tgz.

Copyright : LS2N 2017 - Mentions Légales - 
 -