TreeTagger pour l’étiquetage morpho-syntaxique et la lemmatisation

L’étiquetage morpho-syntaxique d’un texte (Part-of-Speech tagging ou POS tagging en anglais), est souvent l’une des premières étapes en traitement automatique des langues (TAL). Il consiste à identifier pour chaque mot sa classe morpho-syntaxique (catégorie grammaticale, genre, nombre, temps…) à partir de son contexte. La lemmatisation désigne l’analyse lexicale consistant à retrouver la forme canonique d’un mot fléchie appelée le lemme.

TreeTagger permet d’effectuer les opérations décrites ci-dessus et peut également être utilisé comme un « chunker » pour identifier des parties du discours et délimiter des groupes syntaxiques.

Installation de TreeTagger
La procédure est décrite sur le site de TreeTagger. Pour l’installer sous Linux pour l’anglais et le français, il suffit de :

Télécharger le paquetage tree-tagger à l’endroit définitif de son choix
Télécharger le script d’étiquetage dans le même répertoire
Télécharger le script d’installation dans le même répertoire
Télécharger les fichiers de paramétrage pour l’anglais, le français encodé en Latin1 et le français encodé en utf8 toujours dans le même répertoire
Exécuter le script d’installation depuis le dit répertoire
> sh install-tagger.sh
Si vous voulez que les autres utilisateurs du système puissent utiliser TreeTagger, il faut probablement résoudre des problèmes de droits
> chmod -R a+rX repInstallTreeTagger
Reste enfin à tester l’installation
> echo 'Hello world!' | repInstallTreeTagger/cmd/tree-tagger-english

La page de TreeTagger
Tree Tagger : Etiquetage morpho-syntaxique et Lemmatisation

One Response to TreeTagger pour l’étiquetage morpho-syntaxique et la lemmatisation

Rajaonarison Alain Patrick 19 novembre 2012 à 14 h 23 min

Bonjour,
Je suis un etudiant preparant ma memoire de Diplome d’Etude Approfondie en TAL. Ma recherche est de trouver une metode pour etiqueter ma langue : la langue Malgache, je dispose déjà tous les lexiques mais je veut adapter cette etiquetage avec treetigger.
Est-ce que vous pouvez m’aider?
Merci.

Reply ↓

josDBlog

le blog de Laurent (Informatique, Domotique…)

TreeTagger pour l’étiquetage morpho-syntaxique et la lemmatisation

One Response to TreeTagger pour l’étiquetage morpho-syntaxique et la lemmatisation

Laisser un commentaire Annuler la réponse

Livres

National Geographic

Chercher un article

Liste des Catégories

Archives

A propos de l’auteur

Méta