vendredi 11 janvier 2013

Tag Crowd



TagCrowd  est un outil d’analyse de texte qui permet de calculer et de visualiser la fréquence des mots (Word cloud). Les usages sont variés.

J’ai testé les deux premiers usages en soumettant  les 75000 mots de mon mémoire actuel enregistré au format txt. Le problème qui s’est posé tout de suite  est la redondance de certains mots qui apparaissent (même famille, féminin/masculin , singulier /pluriel).  la fonction Group similar words n’est valable que pour l’anglais. Aussi il faut régulièrement nettoyer avec tout ce qui n’est pas significatif. J’ai ainsi enlevé (afrique, and, camerounais, camerounaise, coloniale ,français, francaise, furent, fut, in, of, part ,partis, politiques, reseau ,the. ). Mais du coup la fréquence de mots apparentés comme « France, français et française » est d’autant diminué. C’est vraiment dommage.


Cependant le moins que l’on puisse dire est que l’on a une idée assez exact de  mon sujet en un clin d’oeil. Je suis assez bluffé. Il y a des surprises intéressantes à analyser. Je me suis interrogé sur la fréquence du mot « Paris ». Il  correspond en fait aux références bibliographiques et à l’éditeur.

Aucun commentaire:

Enregistrer un commentaire