L’étiquetage morpho-syntaxique d’un texte (Part-of-Speech tagging ou POS tagging en anglais), est souvent l’une des premières étapes en traitement automatique des langues (TAL). Il consiste à identifier pour chaque mot sa classe morpho-syntaxique (catégorie grammaticale, genre, nombre, temps…) à partir de son contexte. La lemmatisation désigne l’analyse lexicale consistant à retrouver la forme canonique d’un mot fléchie appelée le lemme.
TreeTagger permet d’effectuer les opérations décrites ci-dessus et peut également être utilisé comme un « chunker » pour identifier des parties du discours et délimiter des groupes syntaxiques.
Installation de TreeTagger
La procédure est décrite sur le site de TreeTagger. Pour l’installer sous Linux pour l’anglais et le français, il suffit de :
- Télécharger le paquetage tree-tagger à l’endroit définitif de son choix
- Télécharger le script d’étiquetage dans le même répertoire
- Télécharger le script d’installation dans le même répertoire
- Télécharger les fichiers de paramétrage pour l’anglais, le français encodé en Latin1 et le français encodé en utf8 toujours dans le même répertoire
-
Exécuter le script d’installation depuis le dit répertoire
> sh install-tagger.sh
-
Si vous voulez que les autres utilisateurs du système puissent utiliser TreeTagger, il faut probablement résoudre des problèmes de droits
> chmod -R a+rX repInstallTreeTagger
-
Reste enfin à tester l’installation
> echo 'Hello world!' | repInstallTreeTagger/cmd/tree-tagger-english
Bonjour,
Je suis un etudiant preparant ma memoire de Diplome d’Etude Approfondie en TAL. Ma recherche est de trouver une metode pour etiqueter ma langue : la langue Malgache, je dispose déjà tous les lexiques mais je veut adapter cette etiquetage avec treetigger.
Est-ce que vous pouvez m’aider?
Merci.