Exercice de recherche prospective… Corpus amériquain et européen

(Une première version de ce projet a été écrite dans la cadre d’échanges avec Christian Vandendorpe, auteur de Du papyrus à l’hypertexte. Essai sur les mutations du texte et de la lecture, Montréal, Boréal & Paris, La Découverte, 1999, 271p.)

À partir de Google Archives qui a indexé toutes les dates (la frise chronologique n’est plus affichée maintenant), j’ai essayé quelques requêtes personnelles. Je me suis d’abord branché à Google Books pour sélectionner 50 titres des Éditions du Septentrion (spécialisée en histoire Canada-Québec) et je les ai ajoutés à Ma Bibliothèque personnelle Google Books. Ensuite, j’ai paramêtré « Éditeur = « Éditions du Septentrion », et voici ce que j’ai cherché et trouvé à partir de « Grandes Questions ». Évidemment, l’échantillon est arbitraire, non scientifique, et les résultats en soi sont trop incomplets pour permettre des conclusions précises.

Je voulais plutôt tester une méthode de recherche et d’extraction de données « sémantiques ».


Grande Question I

1) Pourrait-on construire une base de données biographiques/généalogiques des habitants de la Nouvelle-France à partir de 10 millions de pages?
(Mon échantillon est de 50 ouvrages, entre 10 000 et 15 000 pages). Dans les listes suivantes: sujet de recherche = total des résulats trouvés:

– « né à » = 166 lieux de naissance d’homme (précédé ou suivi des noms de personne)
– « née à » = 66 lieux de naissance de femmes
– « il meurt le » = 30 dates de décès d’hommes
– « la mort de » = 222 décès
– « le fils de » = 119 noms d’homme et relations fils-parents
– « la fille de » = 85 noms de femmes et relations filiales
– « grand-père de » = 37 noms d’hommes et relations filiales

– « âgé de » = 120 repères biographiques masculins
– « âgée de » = 60 repères biographiques féminins
– « étudié à » = 33 infos sur les études de X dans le lieu d’enseignement Y
Etc, etc…

La méthode serait la suivante:

– sur le plan lexical, on établit une liste de «mots-chercheurs» et leur réseau de synonymes
– lié à un lexique encyclopédique des noms Autorité des toponymes, anthropoymes, etc.
– sur le plan grammatical, on « lemmentise » les expressions (né, naquit…), on varie selon le genre (elle/il) et le nombre
– sur le plan syntaxique, on schématise les structures pertinentes et joue de la permutation: la/le(s) fils/fille(s); enfant(s), etc.

À partir de ces données brutes, on crée des sous-requêtes pour trouver les informations associées (« fils de » + Nom Propre) pour raffiner autant qu’on peut la cueillette d’infos. On étiquette chaque résultat, puis on filtre, vérifie, corrige, identifie les doublons, supprime de fausses occurrences, et on commence à construire une base généalogique, un dictionnaire biographiques des habitants de la Nouvelle-France, et un index général qui indiquent les textes où ils sont mentionnés. (Après quelques mois de travail!)

Grande Question II

2) À partir d’un sous-corpus de la totalité des textes de découvertes et d’exploration (multilingues), peut-on tracer la carte la plus complète de leur déplacement chronologique dans le territoire du Nouveau Monde?
Pour ce faire, il faudrait répertorier tous les indices temporels possibles:

– « lundi le » = 27 lundi historiques
– « en juin » = 200 événements
– « au mois de » = 130 dates et événements
– « aux années » (trouvent les expressions comme « jusqu’aux années 1950″) = 80 événéments
– « avant 1760 » = 21 évéments ou interprétations d’avant la Conquête
– « après 1760 » = 20 évéments ou interprétations d’avant la Conquête
Etc., etc.

Ensuite, il faudrait considérer la durée des événements (je n’ai pas retenu le total des résultats pour toutes les autres recherches après avoir trouvé la « méthode »):

– L’expédition dura deux ans et quatre mois
– un procès qui dura douze ans
– une bataille qui dura toute la journée
– Le trajet dura quatre heures
– l’incendie ne dura pas plus d’une heure
– Cette association ne dura que ces deux années-là
– son gouvernement, qui dura de 1887 à 1891
– Pendant la semaine que dura la bataille
– La grève des enseignants dura deux mois
– Etc., etc. 

La structuration de ces résultats montre qu’on pourrait créer une table de concordances exploitée de cette manière, avec un logiciel qui saisirait le substantif-événement-sujet placé avant le verbe et le(s) substantifs temporels compléments circonstanciels de temps placés après:

– trouver les verbes, expressions, locutions qui indiquent des déplacements
– « embarque sur » = permet de trouver 34 noms de bateaux, des voyages en train, etc
– « arrive à » et « arrivé à » = 372 lieu d’arrivées
– « partit de » = 24 lieux de départs
– « le voyage de » = 83 voyages + nom propre et/date
– le voyage de Carton de Wiart
– le voyage de nôtre Capitaine Jacques Quartier
– Le voyage de retour commence le 6 juillet 1672
– le Voyage de Pehr Kalm au Canada en 1749
– le voyage de Montréal à Walla Walla
– Le voyage de messire Brady n’est pas moins de trois jours et de 24 lieues de
route
– Au temps de Frédéric, le voyage de Montréal à Sainte-Anne-de-Beaupré par bateau
dure trente-six heures [très riches données temporelles et spatiales en un seul énoncé]
« il s’établit » = 36 « établissements » + Noms
il s’établit lui-même à La Hève
il s’établit d’abord sur la rue du Parloir
À partir de la banque terminologique de la Commission de toponymies et d’autres inventaires officiels, on indexerait tous les toponymes. Il y a peut-être même un programme d’analyse linguistique qui pourrait trouver les lieux: si on cherche « où », on trouve des « lieux », etc. Le temps et l’espace ont des champs lexicaux larges mais définis: années, mois, moment, jours, avant, pendant, après, etc.; maison, colline, rivière, port, ville, paroisse, comtés. Un programme pourrait de cette manière recueillir des données fabuleuses. Ça deviendrait une base d’une recherche, une collection de matériaux linguistiques, des sources d’analyses. Je parle surtout de documents historiques, mais la même chose pourrait être fait dans un Grand Corpus Littéraire Numérisé. Qu’est-ce que cela pourrait signifier et nous apprendre? Qui sait? Quand on aura ces données, on les fera parler. Ensuite, on pourrait superposer les résultats de l’univers fictif sur celui de l’histoire réelle. On pourrait étudier alors sur une très grande échelle la « mimesis ».

Grande Question III

3) Que peut-on savoir de la vie économique en Nouvelle-France à partir de la recherche dans le fonds numérisé sur l’Amérique française. Suivant la même méthode:

– « où il achète »
– Le 28 septembre 1697, il achète du marchand Pierre Lamoureux de Saint- Germain deux emplacements
– En décembre 1678, il achète du maïs
– « où il vend »
– En 1736, il vend encore un navire à Benjamin
– il vend ses produits en gros à un autre marchand local
– il vend la terre à Jean-Baptiste, offrant ainsi à l’ancien esclave
– il vend de nombreux emplacements de 10 par 30 mètres
– le tailleur Lizée afin qu’il paie les 8 livres qu’il devait pour un habit et une culotte.
– il paie 100 sous
– « prix de »
– à Olivier Cadet en 1753 au prix de 550
– il vend à Olivier Charbonneau, au prix de 200
– Les lynx qu’il rapporte sont évalué* entre 6 et 15 écus, un prix de beaucoup inférieur
– Le prix de la pension est de 120 livres par année

– Etc. etc.

On recueille donc ainsi la totalité des informations économiques brutes pour un corpus donné, pour une époque donnée.


L’objectif général

D’abord, je ne dis pas que ce genre de cueillette de données n’a jamais été faites, et les types requêtes ne sont nullement nouvelles: conditions (if, else, if not…), variables, « joker ». Mais l’analyse des données textuelles-sémantiques est toujours complexe quand on veut aller plus loin que compter les occurrences. Qu’est-ce que ces exemples pourraient nous apprendre pour l’étude de Très Grands Corpus?

Peut-être le plus important. Au départ, pour développer un protocole de recherche, ce qui compte, ce n’est pas du tout la grandeur du corpus (un petit 100 000 pages serait parfait): ce qu’il faut, c’est concevoir les modules de requêtes et surtout, surtout, savoir un peu ce qu’on veut découvrir, dans quelle direction on veut chercher.

Au début de ces recherches dans les Grands Corpus, les données quantitatives vont s’imposer. On débrousse, on code, on inventorie, on compte, on fait des statistiques: on les fera faire par les ordis! Ensuite, on peut créer d’autres requêtes qui interrogent les relations que nous avons établies entre les données, commencer à tisser les réseaux de parentés, les lier aux villes et paroisses, tracer les cartes des alliances et des mariages. Ensuite, projeter ces réseaux sociaux et familiaux sur les réseaux économiques établis parallèlement. Puis, pour la période d’exploration de la Nouvelle-France, relier les deux premiers ensembles aux chemins de découvertes et d’établissement pour superposer les déplacements-explorations sur la vie économiques et les réseaux de parentés. C’est dans ce genre de projet que des applications de crowdsourcing seraient les plus utiles: il y a un cadre de recherche structuré, « pré-digéré », par des experts; ensuite, on stimule et encourage la participation des collectivités intéressées.

Avec toutes ces informations et données représentées sur une carte branchée sur une géo-chronologie, on pourrait reconstituer sur la base d’un Très Grand Corpus Documentaire, l’établissement des communautés francophones en Amériques. On met le curseur à 1534, on clique et on voit à l’écran se dérouler l’établissement des communautés françaises en Amérique.
Je simplifie à l’extrême la complexité et peut-être même la faisabilité d’un tel projet, mais il n’est pas du tout sûr qu’on peut prouver scientifiquement que cela soit impossible…
Comment?

– comment brancher à grande échelle le milieu sur les nouvelles sources documentaires
– comment brancher les ressources documentaires les unes avec les autres

L’autre point serait comment auto-brancher le milieu de la recherche sur lui-même, interconnecter, réseauter organiquement les chercheurs, les amateurs, les non-experts.

Dans l’évolution des ;échanges et des modes de production de la recherche, n’aurait-on pas besoin d’un réseau supra-institutionnel pour regrouper les chercheurs entre eux, liés par leurs travaux et intérêts, leurs publications (et non seulement par leur lien institutionnel), branchés sur leurs publications, etc. 

Bibliographier Internet?

Un problème quasi insoluble en ce moment, c’est d’établir une bibliographie thématique annotée des informations trouvées dans Internet. Plusieurs difficultés:

  1. ajout perpétuel et rapide d’infos
  2. pluralité des « types » de documents dans Internet: en plus de tous les genres de textes connus associés à l’imprimé (articles, livres, lettres, chroniques…) et leur version numérique, il y a tout un ensemble de nouveaux genres: les blogues et leurs commentaires, les « profils de membres », les clips audio, vidéos, tous les types de photos, etc. S’ajoutent à ces variétés non-standardisées le fait que ce soit souvent des genres très courts, bien moins qu’une page, parfois quelques dizaines de mots comme dans les « chats » les séances de clavardage, les textes hyper brefs de la nouvelle patente « Twitter » (140 mots au maximum, je pense). Autre difficulté, une seule page peut contenir toutes sortes de types de documents, comme une page de journal, mais en pire! Dans l’indexation des journaux anciens, on indique parfois la colonne où apparaît le document ou la citation. Dans les périodiques contemporains, avec leur graphisme éclaté, le concept même de colonne est problématique. Dans Internet, en plus, la « publication » du document est elle-même problématique, elle est souvent aléatoire, contextualisée par une requête de l’usager. L’étude de la publicité pourrait être encore plus difficile. On peut localiser une pub dans un imprimé, mais comment localiser un bandeau publicitaire qui apparaît de temps en temps en puisant dans une liste de bandeaux virtuels?

Donc, il y a une première difficulté à décrire le type de document et d’informations, à le localiser physiquement « spatialement », et à le dater. Sur ce plan, l’indexation d’Internet reste vraiment problématique. Pour l’imprimé, même dans le cas d’un imprimé détruit, on pourrait quand même être sûr que le texte X a paru dans le document Y à la date Z, et ce pour toujours! Un poème publiés dans Les fleurs du mal, mentionné dans la table des matières, ne disparaît pas si on perd l’exemplaire du livre. Dans Internet, cela est possible. On risque fort de ne pas retrouver le texte déjà identifié lorsqu’on retourne sur un site, il n’y a peut-être même plus de trace que ce document ait un jour existé. C’est pourquoi Zotero, par exemple, offre la possibilié de conserver des saisis d’écran de tous les sites et pages que l’on ajoute à sa bibliothèque. Au moin, si la pge disparaît, change et supprime les informations qui nous intéressaient, on aura pas l’impression d’avoir rêvé. Comme si l’établissement d’une bibliographie exigeait que l’on conserve aussi un exemplaire de tous les livres mentionnés au cas où ils disparaîtraient! Cela ne fait que montrer l’importance des institutions de conservation traditionnelle, bibliothèques et archives, mais montre aussi la tâche extrêment complexe d’archiver Internet.

Autres difficultés:

  1. Aussi, localiser correctement un document et lui donner une adresse précise est aussi problématique: le document peut changer souvent de place dans un même site, et être reproduit des dizaines de fois, des centaines de fois. Internet, c’est le règne des doublons. Mais tous les catalogues de bibliothèques mis en ensemble demeurent sans doute le plus énorme univers de doublons jamais créé. Les catalogues collectifs sont confrontés à cela: pour un titre, on trouve des centaines de localisation, de doublons. C’est pratique quand on est rendu à l’étape d’aller le consulter à la bibliothèque près de chez soi, mais dans les résultats préliminaires de recherche, cette montagne de doublons doit être surmontée par une sélection des documents-titres « uniques », ce qui oblige à avoir des descriptions les plus standardisées possibles. Trouver les doublons à partir de descriptions dissemblables est chose presque impossible. Les grandes bibliothèques, grâce à leur tradition, arriveront assez bien à résoudre ce problème de doublons, mais comment Google pourrait-il y arriver? Comme Ebay oy Abebooks où se sont des millions d’usagers-clients-abonnés qui créent leurs descriptions personnelles des documents. Les pages complètes, entièrement identiques sont probablement, toute proportion gardée, peu nombreuses, mais les fragments d’informations, eux, doivent atteindre une quantité astronomique. Avec toutes les applications qui se développent, ce sera encore mille fois pire bientôt.

Alors combien d’informations originales? Et que signifie « combien »?

L’autre chose est la nature des résultats de recherche que donne Google, par exemple. Malgré la possibilité de développer un moteur de recherche personnalisé, on recommence toujours à zéro avec Google et les autres moteurs de recherche. Peut-être y a-t-il un moyen « d’écumer », « d’élaguer » peu à peu un premier résultat et d’éliminer tous les résultats non-pertinents pour ne conserver que ceux qu’on choisit pour annoter, mais cela n’est pas facile à réaliser. Le métachercheur Copernic, version pro, paraît offrir la possibilité de gérer les résultats, de les filtrer, etc. Il semble cependant que l’évolution de ce logiciel soit arrêté. Plus personne en parle, et les dernières infos sur leur site date d’un année ou deux
Aussi, on ne peut chercher que quelques mots à la fois (avec les opérateurs booléens, par exemple… Google fixe le maximum à 25, je crois). Pour une recherche le moindrement complexe qui couvrent un domaine de recherche substantiel, un mot à la fois ne mène à rien. Il faudrait pouvoir chercher des listes d’expressions, fusionner les résultats, et les conserver! Puis, travailler à les identifier, les choisir, les annoter avec des mots-clés standards, et surtout rejeter de ce résultat, les pages-références qui ne sont pas pertinentes.

Une nouvelle histoire des couleurs

Pourquoi pas un inventaire des couleurs mondiales par des statistiques sur les couleurs les plus fréquentes dans les cents milles milliards de pixels des fichiers images de tout format.

On pourrait ainsi créer les palettes de l’histoire de l’art, des cultures, des courants artistiques, de la pub, des lithos sur les jouets en métal!

Ça pose bien sûr la question de standardisation de la numérisation, des marges d’erreurs, etc.

Les palettes des grands peintres en fonction de leurs couleurs préférées, mesurées en relation avec la grandeur de la toile, de la résolution du fichier, etc. Il n’y a certainement pas de vert fluo dans aucune toile de Rembrant…

On pourrait tracer une sorte d’histoire de la bourse des couleurs: le brun des années 60, le jaune et rouge dans la culture populaire des années 1920-30, etc. Il y a aussi, pour l’époque de l’impression couleur, les catalogues, les échantillons de couleur, de peinture, de tissu, etc., mis en relation avec le marché international des pigments…

Ou suivre l’évolution des couleurs chez un peintre, chez Picasso, la période bleue, comme exemple qui n’a pas besoin du numérique, ou les bruns-beiges de cubistes.
On pourrait trouver des peintres aux antipodes stylistiquement, mais aux palettes de couleurs des plus semblables.

Dans ce genre d’étude généraliste, la difficulté est de trouver quelque chose qui ne soit pas évident, c’est-à-dire quelque chose qu’on ne voit spontanément sans aucun soutien technologique. Tellement de recherches « scientifiques » nous apprennent ce qu’on sait déjà et ne réussissent qu’à quantifier la chose ou le phénomène étudié.