Home » Liste des logiciels par équipes


Equipe / Team : TALN
Participants : B. Daille (correspondant), J. Rocheteau, D. Cram
Licence : Apache 2
Mots clés : Extraction terminologique, variation, alignement bilingue, UIMA Token Regexp
Résumé : TermSuite est outil libre sous licence Apache 2 dédié à l’extraction terminologique monolingue et à l’extraction terminologique bilingue à partir de corpus comparables. TermSuite traite les langues : anglais, français, allemand, espagnol, letton, chinois et russe. TermSuite adopte la plate-forme Apache UIMA conçue pour faciliter l’assemblage de composants, leur intégration au sein d’une chaîne de traitement ainsi que le passage à l’échelle. TermSuite effectue les traitements informatiques en 3 phases :
  • Analyses linguistiques : découpage du texte en mots, analyse morphosyntaxique et lemmatisation et conversion au format Multext à l’aide TreeTagger ;
  • Extraction terminologique monolingue : détection d’occurrences de termes simples et complexes, normalisation et regroupement des termes en fonction de leurs variations, filtrage statistique ; listes de termes en format tsv et TBX.
  • Alignement terminologique bilingue : plusieurs types d’alignement par paires de langues sont proposés qui adoptent différentes approches : distributionnelle pour les termes simples, compositionnelle ou mixte pour les termes complexes et les composés savants.


    Copyright : LS2N 2017 - Mentions Légales - 
     -