Histoire et ressources: blog de Christophe Ralite

mardi 15 janvier 2013

La critique de l'histoire numérique sur le web

Kelly Schrum, "Surfing for the Past: How to Separate the Good from the Bad," AHA Perspectives (May 2003) [standard]

Cohen, Daniel J. and Roy Rosenzweig. “Web of lies? Historical knowledge on the Internet.” First Monday (December 2005). [standard]

Edward L. Ayers, "Doing scholarship on the Web: ten years if triumphs -- and a disappointment", Journal of scholarly publishing, vol. 35, no. 3, 2004, pp. 143-47 [court]

Kelly Schrum part du constat que l’historien doit faire face à une masse écrasante d’informations de nature historique disséminée sur le web (Voir les “archives de l’infini”) ce qui le contraint à redéfinir ses stratégies de sélection. Il y a également des enjeux pédagogiques dans la mesure où les étudiants recourent massivement au WEB et pas toujours avec la distance critique nécessaire. Il relève ainsi trois familles de questionnement face à un site à prétention historique: Qui est à l’origine du site ? Dans quel but a t-il été crée (A qui est-il destiné ?) ? Quel est sa crédibilité (A quels autres sites est-il lié?) ?

Kelly Schrum suggère de “s’outiller” afin de s’orienter correctement dans ce maquis d’informations de valeurs inégales. Faute de quoi il suggère de contourner la difficulté en passant par les bons portails (sites de références). Ce qui revient à opter pour les « catalogues » par opposition aux algorithmes…

Fort bien. L’on peut cependant se demander en quoi cette « méthode critique » diffère tant de celle définie par Langlois et Seignobos au début du XX siècle. Antoine Prost en proposait une synthèse[1]. Le souci des faits en histoire est celui de l’administration de la « preuve » donc de la référence. Une affirmation doit pouvoir être vérifiée. L’historien doit pouvoir en faire la critique externe (caractéristiques du document), la Critique interne (cohérence du texte), la critique de sincérité (les intentions du témoin a t-il des raisons conscientes ou pas de déformer le témoignage ?) et enfin la critique d’exactitude (erreurs, situation objective du témoin. Sa position Impliquait-elle des biais ?).

La question de fond n’est-elle pas alors : les ressources du Web remettent-elle en cause les fondements de la démarche critique en Histoire ? Et si la réponse apportée est vraisemblablement négative pour des raisons de simple bon sens, la question devient : en quoi Internet change les conditions de l’examen critique ?

Daniel J. Cohen et Roy Rosenzweig pointent les limites des moteurs de recherche tel que Google («a swift locator of people and information ») et les réticences de nombreux historiens à rentrer de plein pied dans le monde du numérique arguant des chausse-trappes dans lesquelles tombent la plupart des étudiants. Comme Kelly Schrum, ils insistent sur la nécessité de nouveaux outils de recherche (automated methods for mining historical knowledge digitally) tel H.Bot. Mais maîtriser ces outils algorythmiques suppose d’avoir une bonne connaissance pratique du fonctionnement du net. D’autre part se pose la question de la pertinence des méthodes d’analyse mathématiques. Au fond la question déjà posée dans ce séminaire reste « une base de donnée étant un silo auquel on peut poser des questions ; comment faire en sorte que les questions traversent les silos ? Les auteurs jugent très bonne la capacité de H-bot à répondre de façon pertinente à des questions historiques. Soit mais l’article étant rédigé en 2005, on a du mal aujourd’hui à trouver trace de H-bot sur le net. Est-on passé à autre chose ? Ils soulignent cependant la « naïveté » de H-bot. Faut-il s’en étonner ? Ils rappellent opportunément que la notion problématique de vérité historique n’est pas la même dans le monde académique et sur le Web. Sur le Web c’est une affaire de consensus fut-il changeant. Pour les chercheurs ce sont les travaux les plus récents et reconnus par la communauté des historiens qui font foi. Ce point est à mes yeux, crucial, et nous retrouvons ici les limites intrinsèques des encyclopédies en ligne comme Wikipédia. La vérité a-t-elle valeur démocratique ? Est-elle détenue par le plus grand nombre ? Faute d’être complètement insaisissable (sinon à quoi bon exercer le métier d’historien) une vérité historique est « construite » donc fuyante et capricieuse ("People don't realize how hard it is to nail the simplest things," Lars Mahinske, chercheur pour l’Encyclopedia Britannica). Et si elle est établie par la communauté (la validation des pairs se substituant à la « preuve » administrée, problématique en sciences humaines), elle ne l’est souvent qu’à titre provisoire, de nouvelles sources ou questionnement pouvant à tout moment chambouler l’édifice.

Ce consensus autour des faits historiques comme faisant foi pose donc problème à l’historien. Au début d’une recherche sur un sujet précis, l’on est souvent tenté de faire un état des lieux de la connaissance sur le web. Fort bien, mais le processus de recherche ne commencera réellement qu’à partir du moment où nous trouverons les travaux de référence sur la question et c’est clairement les limites d’internet faute d’outils adaptés. La question que nous pouvons nous poser serait aussi : dans la mesure ou des outils algorithmiques de type H.bot permettent de retrouver de façon pertinente un certain nombre de faits ou matériaux historiques, ne nous limitent-ils pas à une approche triviale, factualiste de l’histoire ? Le danger est que ces outils nous amène par leur nature même (multiple choice) à une vision réductrice et naïve de l’histoire.

Derrière cette question, Daniel J. Cohen et Roy Rosenzweig pointent aussi les limites de la recherche en intelligence artificielle qui est loin de répondre aujourd’hui aux espoirs et aux fantasmes qu’elle a pu susciter dans le passé. Nous sommes très loin d’approcher les capacités d’un cerveau électronique comme HAL dans 2001 l’odyssée de l’espace ! Mais si de tels outils ne nous apparaitront jamais comme « intelligent » ils peuvent cependant nous faire gagner un temps précieux en discriminant et en présélectionnant les informations sur le net, fusse de façon imparfaite et incomplète. They are dumb but fast machines ! Toutefois les techniques d’analyse de texte peuvent à l’évidence apporter beaucoup à l’historien en termes de compréhension cette fois. En bref les méthodes quantitatives peuvent être au service de réponses qualitatives.

[1] Prost Antoine, Douze leçons sur l’histoire, Paris, Seuil, 1996.

vendredi 11 janvier 2013

The brain (suite)

Je reviens sur le mind-mapping car j’ai pu mettre la main à la pâte cette fois-ci. The Brain s’est avérée peu adaptée pour reproduire mes schémas de réseaux (voir post précédent) car la pagination se fait automatiquement ce qui est dans ce cas un inconvénient. Xmind me parait plus souple pour l’agencement des blocs dans l’espace. De plus, les différents modèles sont bien utiles. Voici comment j’ai commencé à planifié mon boulot pour l’année de master. Grace à un système de repères visuels, on peut facilement voir l’avancement du travail.

En revanche, pour le brain storming pur et dur, je préfère The Brain car les possibilités de mise en relation sont très riches. J’ai commencé par le cœur de mon sujet « les processus de politisation » et j’ai essayé de voir sous quel angle je pouvais l’aborder.

Un certain niveau de complexité est vite atteint en tirant les fils mais il est toujours aisé de simplifier l’affichage (+ ou -) et de déplacer le regard, ce qui est un vrai plus, car chaque idée se voit éclairer de multiples résonnances (parfois inattendues).

Tirer des fils est particulièrement intuitif mais il faut cependant réfléchir à la notion d’idée « enfant » (qui correspond à une inférence) et celle de « parent » qui affiche aussitôt les « siblings » (frères et sœurs). Très pratique le lien Jump (à gauche) qui permet d’associer librement d’autres idées qui se rapporte à l’idée affichée.

Après cette étape, dans la mesure où on doit produire un texte linéaire, on se rend compte rapidement qu’il n’y a pas qu’un fil rouge possible (qu’on peut faire apparaître au sens propre !!!). Par exemple dans mon cas le plan « les processus de politisation à travers les réseaux par les effets d’échelle (de l’international au très local) » n’est pas le seul possible. Il y a de fait plusieurs angles d’attaque possible.

C’est un excellent outil pour modéliser le complexe sans se faire des nœuds dans la tête. La deuxième étape va être de renseigner chaque idée avec des références (sources, biblio ect…) et de trouver les bons arguments. A ce stade je ne sais comment insérer le plan de mon mémoire qui doit présenter une linéarité (c’est un texte). Faut-il créer un nouveau fichier ? Une nouvelle arborescence en parallèle (jump)? A voir…

Mindmapping: the Brain

Travaillant sur les réseaux politiques, j’ai été amené à synthétiser sous forme de schémas les relations entre les différents types de réseaux. Pour cela j’ai utilisé Word 2010 qui présente un certain nombre de fonctionnalités. J’aurai souhaité mettre la main sur des logiciels de mind mapping comme Brain ! Ce logiciel (un standalone , yes !) permet d’organiser, de visualiser, de partager des informations et surtout de les mettre en relations (les liens apparemment peuvent être customisés). Je n’ai guère le temps hélas de mettre vraiment la main à la pâte avant notre séance de mercredi mais c’est très prometteur. Que d’idées ! A en croire les auteurs thebrain permet de hiérarchiser et de visualiser ce que qui est important dans le contexte

Une remarque intéressante: il serait utile d’utiliser thebrain pour mettre en relation différentes sources référencées par Zotéro avec différentes thématiques. J’ai déjà eu l’occasion de dire que les possibilités de classement des références étaient assez limitées sur Zotéro.

Ce logiciel permet aussi de faire du brainstorming digital. On peut balancer les idées et progressivement les agencer, les référencer (en attachant des fichiers ou des notes), les lier les unes aux autres. Bref faire autre chose que de l’onanisme égomaniaque fut-il intellectuel (genre « ô miroir dis-moi mes pensées les plus profondes » ) , pratique qui n’est sans doute pas étrangère au succès de Thebrain (1 million d’utilisateurs tout de même).

C’est aussi un outil de conceptualisation, de construction d’idéal-types qui permet de mettre en exergue les attributs essentiels du concept et ceux qui sont secondaires ou anecdotiques. Exemple concret pour mon projet : c’est quoi se politiser pour un fonctionnaire Ewondo, un petit exploitant de Cacao Eton ou un marketboy bamiléké ? Tout un ensemble de pratiques sociales peuvent être ainsi référencés et schématisées. C’est aussi un excellent outil de prise de notes.

Il reste à savoir si Thebrain est bien adapté pour créer des schémas sociométriques c-à-d mettre en relation des individus et des groupes en fonction d’attributs communs (marqueurs identitaires, religieux politiques, sociaux) et d’expérience communes (A rencontre B dans tel réunion ..).

Cerise sur le Chapeau, comme Zotéro , on a accés à son « cloud » via le net en utilisant différentes machines (fonction synchronisation).

Sous word mes schémas de réseaux sont un peu laborieux et surtout pas commode à retravailler. L’aspect dynamique de la chose est cruciale pour rendre intelligible des « configurations en perpétuel mouvement » dixit Norbert Elias, c'est-à-dire un « système mobile de place »[1]. Etant adepte de la formule « un bon schéma vaut mieux qu’un long discours », j’étais à la recherche d’un bon outil pour le faire.

[1] Elias Norbert, Qu’est-ce-que la sociologie?, [s. l.], Pocket, 2003.

Tag Crowd

TagCrowd est un outil d’analyse de texte qui permet de calculer et de visualiser la fréquence des mots (Word cloud). Les usages sont variés.

topic summaries for speeches and written works
helping writers and students reflect on their work
blog tool or website analysis for search engine optimization (SEO)
visual analysis of qualitative data
brand clouds that let companies see how they are perceived by the world
data mining a text corpus
name tags for conferences, cocktail parties or wherever new collaborations start
resumes in a single glance
visual poetry

J’ai testé les deux premiers usages en soumettant les 75000 mots de mon mémoire actuel enregistré au format txt. Le problème qui s’est posé tout de suite est la redondance de certains mots qui apparaissent (même famille, féminin/masculin , singulier /pluriel). la fonction Group similar words n’est valable que pour l’anglais. Aussi il faut régulièrement nettoyer avec tout ce qui n’est pas significatif. J’ai ainsi enlevé (afrique, and, camerounais, camerounaise, coloniale ,français, francaise, furent, fut, in, of, part ,partis, politiques, reseau ,the. ). Mais du coup la fréquence de mots apparentés comme « France, français et française » est d’autant diminué. C’est vraiment dommage.

Cependant le moins que l’on puisse dire est que l’on a une idée assez exact de mon sujet en un clin d’oeil. Je suis assez bluffé. Il y a des surprises intéressantes à analyser. Je me suis interrogé sur la fréquence du mot « Paris ». Il correspond en fait aux références bibliographiques et à l’éditeur.