UIMA : taille des annotations, un problème de taille ?

Prenons une corpus de texte brut occupant 32 468 605 Octets (soit 31 Mo) totalisant 6 468 522 mots (ponctuation comprise). L’étiquetage de ce corpus au format tabulaire (comme celui que produit TreeTagger ou de Cordial Analyseur) avec 12 colonnes nous a conduit à un fichier de 763 866 469 Octets (soit 728 Mo).
Le rapport est ici de 1 pour 24 entre le corpus de départ et le corpus annoté.

Passons maintenant à un fichier d’annotation xmi produit par UIMA pour représenter les mêmes annotations. Le format est bien plus verbeux qu’un fichier tabulaire puisqu’il s’agit d’XML. Nous obtenons un fichier de 5 919 830 882 Octets (soit 5645 Mo ou encore 5,5 Go).
Le rapport est ici de 1 pour 182 entre le corpus de départ et le corpus annoté par UIMA !

Ne s’agit-il pas là d’un problème de taille pour des corpus de grande taille ?

Sommaire UIMA sur ce blog

josDBlog

le blog de Laurent (Informatique, Domotique…)

UIMA : taille des annotations, un problème de taille ?

Laisser un commentaire Annuler la réponse

Livres

National Geographic

Chercher un article

Liste des Catégories

Archives

A propos de l’auteur

Méta