TreeTagger pour l’étiquetage morpho-syntaxique et la lemmatisation

L’étiquetage morpho-syntaxique d’un texte (Part-of-Speech tagging ou POS tagging en anglais), est souvent l’une des premières étapes en traitement automatique des langues (TAL). Il consiste à identifier pour chaque mot sa classe morpho-syntaxique (catégorie grammaticale, genre, nombre, temps…) à partir de son contexte. La lemmatisation désigne l’analyse lexicale consistant à retrouver la forme canonique d’un mot fléchie appelée le lemme.

TreeTagger permet d’effectuer les opérations décrites ci-dessus et peut également être utilisé comme un « chunker » pour identifier des parties du discours et délimiter des groupes syntaxiques.

Installation de TreeTagger
La procédure est décrite sur le site de TreeTagger. Pour l’installer sous Linux pour l’anglais et le français, il suffit de :

Cette entrée a été publiée dans TALN. Placez un signet sur le permalien.

One Response to TreeTagger pour l’étiquetage morpho-syntaxique et la lemmatisation

  1. Rajaonarison Alain Patrick

    Bonjour,
    Je suis un etudiant preparant ma memoire de Diplome d’Etude Approfondie en TAL. Ma recherche est de trouver une metode pour etiqueter ma langue : la langue Malgache, je dispose déjà tous les lexiques mais je veut adapter cette etiquetage avec treetigger.
    Est-ce que vous pouvez m’aider?
    Merci.

    Reply

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *