Prenons une corpus de texte brut occupant 32 468 605 Octets (soit 31 Mo) totalisant 6 468 522 mots (ponctuation comprise). L’étiquetage de ce corpus au format tabulaire (comme celui que produit TreeTagger ou de Cordial Analyseur) avec 12 colonnes nous a conduit à un fichier de 763 866 469 Octets (soit 728 Mo).
Le rapport est ici de 1 pour 24 entre le corpus de départ et le corpus annoté.
Passons maintenant à un fichier d’annotation xmi produit par UIMA pour représenter les mêmes annotations. Le format est bien plus verbeux qu’un fichier tabulaire puisqu’il s’agit d’XML. Nous obtenons un fichier de 5 919 830 882 Octets (soit 5645 Mo ou encore 5,5 Go).
Le rapport est ici de 1 pour 182 entre le corpus de départ et le corpus annoté par UIMA !
Ne s’agit-il pas là d’un problème de taille pour des corpus de grande taille ?