Les entités nommées : Installer TagEn sous Linux

Les entités nommées sont une appellation générique pour désigner les noms propres de personnes, de lieux, d’organismes, mais aussi des dates, des prix, etc.

TagEN est un outil de reconnaissance d’entités nommées développé par Jean-François Berroyer et Thierry Poibeau, au Laboratoire d’Informatique de Paris-Nord (LIPN). L’implémentation de TagEN est basée sur des automates à états-finis et utilise pour cela la plate-forme Unitex développée à l’Université de Marne-la-Vallée.

Pour installer TagEN, il faut commencer par le télécharger, puis :

  1. Décompresser l’archive TagEN.tar.gz à l’endroit définitif de son choix
  2. Exécuter le script compile dans le répertoire TagEN/src
Pour utiliser TagEN, il faut lui spécifier l’un des modes renseignés dans le fichier tagen.conf, comme :
  • mucfr : entités nommées MUC (français) ;
  • equer : domaine médical (français) ;
  • bio : genes, proteins and species names (english) ;
  • carnivore : carnivore plants (english) ;
Par exemple, pour exécuter TagEN sur le fichier ptprince.txt en utilisant le mode mucfr, il faut saisir la commande :
./tagen :mucfr ptprince.txt
Voici quelques extraits du fichier ptprince.tag.txt produit en sortie :
[...]Quand il est <timex><time>midi</time></timex> aux <enamex><location>Etats-Unis</location></enamex>, le soleil, tout le monde sait, se couche sur la <enamex><location>France</location></enamex>.[...]
[...]J'ai vu une maison de <numex><money>cent mille francs</money></numex>[...]
[...]le rayonnement du cadeau de <timex><date>Noël</date></timex> que je recevais[...]
[...]ce sera ce soir vers <timex><time>sept heures quarante</time></timex>[...]
Remarque : il existe une option -t (ex : ./tagen -t :mucfr ptprince.txt) qui ne semble pas documentée et qui produit un résultat plus synthétique contenant le type et les offsets des entités nommées identifiées :
enamex 31 36
person 31 36
enamex 367 372
Cette entrée a été publiée dans TALN. Placez un signet sur le permalien.

3 Responses to Les entités nommées : Installer TagEn sous Linux

  1. Z

    bonjour, monsieur
    Dans le cadre d'extraction des entités nommés, je voulais tester le TAGEN mais la compilation de TAGEN ne marche pas de tout.
    avez-vous une solution pour résoudre ce problème.
    merci d'avance

    Cordialement

    Ronald

    Reply

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *