Exercice de recherche prospective… Corpus amériquain et européen

(Une première version de ce projet a été écrite dans la cadre d’échanges avec Christian Vandendorpe, auteur de Du papyrus à l’hypertexte. Essai sur les mutations du texte et de la lecture, Montréal, Boréal & Paris, La Découverte, 1999, 271p.)

À partir de Google Archives qui a indexé toutes les dates (la frise chronologique n’est plus affichée maintenant), j’ai essayé quelques requêtes personnelles. Je me suis d’abord branché à Google Books pour sélectionner 50 titres des Éditions du Septentrion (spécialisée en histoire Canada-Québec) et je les ai ajoutés à Ma Bibliothèque personnelle Google Books. Ensuite, j’ai paramêtré « Éditeur = « Éditions du Septentrion », et voici ce que j’ai cherché et trouvé à partir de « Grandes Questions ». Évidemment, l’échantillon est arbitraire, non scientifique, et les résultats en soi sont trop incomplets pour permettre des conclusions précises.

Je voulais plutôt tester une méthode de recherche et d’extraction de données « sémantiques ».


Grande Question I

1) Pourrait-on construire une base de données biographiques/généalogiques des habitants de la Nouvelle-France à partir de 10 millions de pages?
(Mon échantillon est de 50 ouvrages, entre 10 000 et 15 000 pages). Dans les listes suivantes: sujet de recherche = total des résulats trouvés:

– « né à » = 166 lieux de naissance d’homme (précédé ou suivi des noms de personne)
– « née à » = 66 lieux de naissance de femmes
– « il meurt le » = 30 dates de décès d’hommes
– « la mort de » = 222 décès
– « le fils de » = 119 noms d’homme et relations fils-parents
– « la fille de » = 85 noms de femmes et relations filiales
– « grand-père de » = 37 noms d’hommes et relations filiales

– « âgé de » = 120 repères biographiques masculins
– « âgée de » = 60 repères biographiques féminins
– « étudié à » = 33 infos sur les études de X dans le lieu d’enseignement Y
Etc, etc…

La méthode serait la suivante:

– sur le plan lexical, on établit une liste de «mots-chercheurs» et leur réseau de synonymes
– lié à un lexique encyclopédique des noms Autorité des toponymes, anthropoymes, etc.
– sur le plan grammatical, on « lemmentise » les expressions (né, naquit…), on varie selon le genre (elle/il) et le nombre
– sur le plan syntaxique, on schématise les structures pertinentes et joue de la permutation: la/le(s) fils/fille(s); enfant(s), etc.

À partir de ces données brutes, on crée des sous-requêtes pour trouver les informations associées (« fils de » + Nom Propre) pour raffiner autant qu’on peut la cueillette d’infos. On étiquette chaque résultat, puis on filtre, vérifie, corrige, identifie les doublons, supprime de fausses occurrences, et on commence à construire une base généalogique, un dictionnaire biographiques des habitants de la Nouvelle-France, et un index général qui indiquent les textes où ils sont mentionnés. (Après quelques mois de travail!)

Grande Question II

2) À partir d’un sous-corpus de la totalité des textes de découvertes et d’exploration (multilingues), peut-on tracer la carte la plus complète de leur déplacement chronologique dans le territoire du Nouveau Monde?
Pour ce faire, il faudrait répertorier tous les indices temporels possibles:

– « lundi le » = 27 lundi historiques
– « en juin » = 200 événements
– « au mois de » = 130 dates et événements
– « aux années » (trouvent les expressions comme « jusqu’aux années 1950″) = 80 événéments
– « avant 1760 » = 21 évéments ou interprétations d’avant la Conquête
– « après 1760 » = 20 évéments ou interprétations d’avant la Conquête
Etc., etc.

Ensuite, il faudrait considérer la durée des événements (je n’ai pas retenu le total des résultats pour toutes les autres recherches après avoir trouvé la « méthode »):

– L’expédition dura deux ans et quatre mois
– un procès qui dura douze ans
– une bataille qui dura toute la journée
– Le trajet dura quatre heures
– l’incendie ne dura pas plus d’une heure
– Cette association ne dura que ces deux années-là
– son gouvernement, qui dura de 1887 à 1891
– Pendant la semaine que dura la bataille
– La grève des enseignants dura deux mois
– Etc., etc. 

La structuration de ces résultats montre qu’on pourrait créer une table de concordances exploitée de cette manière, avec un logiciel qui saisirait le substantif-événement-sujet placé avant le verbe et le(s) substantifs temporels compléments circonstanciels de temps placés après:

– trouver les verbes, expressions, locutions qui indiquent des déplacements
– « embarque sur » = permet de trouver 34 noms de bateaux, des voyages en train, etc
– « arrive à » et « arrivé à » = 372 lieu d’arrivées
– « partit de » = 24 lieux de départs
– « le voyage de » = 83 voyages + nom propre et/date
– le voyage de Carton de Wiart
– le voyage de nôtre Capitaine Jacques Quartier
– Le voyage de retour commence le 6 juillet 1672
– le Voyage de Pehr Kalm au Canada en 1749
– le voyage de Montréal à Walla Walla
– Le voyage de messire Brady n’est pas moins de trois jours et de 24 lieues de
route
– Au temps de Frédéric, le voyage de Montréal à Sainte-Anne-de-Beaupré par bateau
dure trente-six heures [très riches données temporelles et spatiales en un seul énoncé]
« il s’établit » = 36 « établissements » + Noms
il s’établit lui-même à La Hève
il s’établit d’abord sur la rue du Parloir
À partir de la banque terminologique de la Commission de toponymies et d’autres inventaires officiels, on indexerait tous les toponymes. Il y a peut-être même un programme d’analyse linguistique qui pourrait trouver les lieux: si on cherche « où », on trouve des « lieux », etc. Le temps et l’espace ont des champs lexicaux larges mais définis: années, mois, moment, jours, avant, pendant, après, etc.; maison, colline, rivière, port, ville, paroisse, comtés. Un programme pourrait de cette manière recueillir des données fabuleuses. Ça deviendrait une base d’une recherche, une collection de matériaux linguistiques, des sources d’analyses. Je parle surtout de documents historiques, mais la même chose pourrait être fait dans un Grand Corpus Littéraire Numérisé. Qu’est-ce que cela pourrait signifier et nous apprendre? Qui sait? Quand on aura ces données, on les fera parler. Ensuite, on pourrait superposer les résultats de l’univers fictif sur celui de l’histoire réelle. On pourrait étudier alors sur une très grande échelle la « mimesis ».

Grande Question III

3) Que peut-on savoir de la vie économique en Nouvelle-France à partir de la recherche dans le fonds numérisé sur l’Amérique française. Suivant la même méthode:

– « où il achète »
– Le 28 septembre 1697, il achète du marchand Pierre Lamoureux de Saint- Germain deux emplacements
– En décembre 1678, il achète du maïs
– « où il vend »
– En 1736, il vend encore un navire à Benjamin
– il vend ses produits en gros à un autre marchand local
– il vend la terre à Jean-Baptiste, offrant ainsi à l’ancien esclave
– il vend de nombreux emplacements de 10 par 30 mètres
– le tailleur Lizée afin qu’il paie les 8 livres qu’il devait pour un habit et une culotte.
– il paie 100 sous
– « prix de »
– à Olivier Cadet en 1753 au prix de 550
– il vend à Olivier Charbonneau, au prix de 200
– Les lynx qu’il rapporte sont évalué* entre 6 et 15 écus, un prix de beaucoup inférieur
– Le prix de la pension est de 120 livres par année

– Etc. etc.

On recueille donc ainsi la totalité des informations économiques brutes pour un corpus donné, pour une époque donnée.


L’objectif général

D’abord, je ne dis pas que ce genre de cueillette de données n’a jamais été faites, et les types requêtes ne sont nullement nouvelles: conditions (if, else, if not…), variables, « joker ». Mais l’analyse des données textuelles-sémantiques est toujours complexe quand on veut aller plus loin que compter les occurrences. Qu’est-ce que ces exemples pourraient nous apprendre pour l’étude de Très Grands Corpus?

Peut-être le plus important. Au départ, pour développer un protocole de recherche, ce qui compte, ce n’est pas du tout la grandeur du corpus (un petit 100 000 pages serait parfait): ce qu’il faut, c’est concevoir les modules de requêtes et surtout, surtout, savoir un peu ce qu’on veut découvrir, dans quelle direction on veut chercher.

Au début de ces recherches dans les Grands Corpus, les données quantitatives vont s’imposer. On débrousse, on code, on inventorie, on compte, on fait des statistiques: on les fera faire par les ordis! Ensuite, on peut créer d’autres requêtes qui interrogent les relations que nous avons établies entre les données, commencer à tisser les réseaux de parentés, les lier aux villes et paroisses, tracer les cartes des alliances et des mariages. Ensuite, projeter ces réseaux sociaux et familiaux sur les réseaux économiques établis parallèlement. Puis, pour la période d’exploration de la Nouvelle-France, relier les deux premiers ensembles aux chemins de découvertes et d’établissement pour superposer les déplacements-explorations sur la vie économiques et les réseaux de parentés. C’est dans ce genre de projet que des applications de crowdsourcing seraient les plus utiles: il y a un cadre de recherche structuré, « pré-digéré », par des experts; ensuite, on stimule et encourage la participation des collectivités intéressées.

Avec toutes ces informations et données représentées sur une carte branchée sur une géo-chronologie, on pourrait reconstituer sur la base d’un Très Grand Corpus Documentaire, l’établissement des communautés francophones en Amériques. On met le curseur à 1534, on clique et on voit à l’écran se dérouler l’établissement des communautés françaises en Amérique.
Je simplifie à l’extrême la complexité et peut-être même la faisabilité d’un tel projet, mais il n’est pas du tout sûr qu’on peut prouver scientifiquement que cela soit impossible…
Comment?

– comment brancher à grande échelle le milieu sur les nouvelles sources documentaires
– comment brancher les ressources documentaires les unes avec les autres

L’autre point serait comment auto-brancher le milieu de la recherche sur lui-même, interconnecter, réseauter organiquement les chercheurs, les amateurs, les non-experts.

Dans l’évolution des ;échanges et des modes de production de la recherche, n’aurait-on pas besoin d’un réseau supra-institutionnel pour regrouper les chercheurs entre eux, liés par leurs travaux et intérêts, leurs publications (et non seulement par leur lien institutionnel), branchés sur leurs publications, etc. 

Après les systèmes Dewey et Congress II

Les grands sites commerciaux, ceux qui gèrent des millions de documents, d’informations et de documents, comme Ebay, Amazon, Facebook, Youtube, etc, ont développé d’autres systèmes de classement, non-standardisés, plus intuitifs, où les usagers jouent un rôle central dans l’indexation des dizaines de millions documents multimédias qu’ils décrivent. En ce domaine, c’est sans doute l’expérience de Ebay qui est la plus riche et originale. Le site regroupe des millions d’acheteurs et de vendeurs qui font des millions de transaction par jour pour vendre-acheter de tout: livres, bébelles, voitures, maisons (!), billets de spectacle, vêtements, « weird stuff », etc. La variété des choses décrites est absolument phénoménale: elle recoupe tous les produits et choses possibles. Et pourtant, les acheteurs trouvent rapidement ce que des milliers de vendeurs sans aucune formation en bibliothéconomie ou en indexation décrivent spontanément, sans trop rigueur, d’une manières souvent incomplète et même souvent (involontairement) fausse. Et ça marche! Moins rigoureux que ceux des bibliothèque mais plus souple, ce système est très performant parce qu’il évolue tout le temps selon les ressources nouvelles des NTIC. Celui des bibliothèques ne bouge pas, n’évolue pas. Si de nombreuses discussions portent sur la manière d’introduire la folksonomie dans les bibliothèques web 2.0, faut noter que les exemples sont encore rares et plutôt prudents et craintifs.

Mais comment le sytème d’Ebay réussit-il? Il y a deux systèmes d’identification complémentaire: un thésaurus de catégories structuré, hiérarchique et la recherche plein texte dans le titre (par défaut) et/ou dans le texte de la description rédigée par les vendeurs. Ça peut ressembler à un système Dewey, moins détaillé à l’intérieur de chaque grande classe d’objets (par exemple, le classement des livres y est infiniment moins développé quand dans le Dewey bien sûr), mais avec un spectre, un champ d’application plus large, du dé à coudre pour collectionneur aux photos anciennes, du calendrier aux souliers de contrefaçons.

Autre idée: Youtube permet de découvrir et tous les moteurs de recherche commerciaux sont axés sur la découverte: offrir aux clients plus qu’ils en demandent, leur proposer ce qu’ils ne cherchent pas, les faire cliquer plus et plus, ne jamais les mettre devant « pas de résultats »: ces sites nous inondent d’informations qu’on ne cherche pas, et ça marche: souvent, on oublie un peu ce qu’on est venu chercher et on clique sur ce qu’on nous propose. D’ailleurs, les gens utilisent très souvent l’expression « T’as pas vu ce que j’ai découvert… » ou « Tu sais pas ce que j’ai trouvé… », mais employée dans le sens de « découvrir », verbe qui exprime l’étonnement, la surprise… En un certain sens, les moteurs de recherche de ces sites sont plutôt des moteurs de découverte plus que de recherche.

Dans les sites des institutions publiques, c’est comme si à l’entrée d’une musée il y avait un portier qui demandait l’air un peu bête: que cherchez-vous? Si vous ne le savez pas, attendez de le trouver avant d’entrer. On sait tous que souvent la première motivation, comme dans une librairie, est la curiosité même l’ignorance: « Je ne sais pas trop, je m’en viens voir ce que vous avez… » Et c’est au musée et à la librairie de concevoir un aménagement qui m’en mette plein la vue. C’est ce que font les sites commerciaux qui, autre paradoxe, ne produisent aucun contenu! Ils ne doivent pas classer ce qu’ils produisent, mais ce que les usagers et les abonnés ajoutent à leur base de données. Ce sont des sites qui investissent rien dans le contenu, ou presque, et tout dans des applications pour rendre facile l’ajout du contenu, sa consultation, son échange, etc.
À l’inverse, les bibliothèques et les institutions nationales investissent tout dans le contenu numérisé et rien ou presque dans les applications pour le consulter, le commenter, l’échanger. La popularité des premiers est-elle que tout le monde les connaît – même ceux les non-branchés ont entendu parler de Ebay, Amazon, Facebook – alors que le contenu des seconds est à peine connu et consulté par le public branché.

Après les systèmes Dewey et Congress I

Le système de classement des livres de Dewey et celui de la Library of Congress jouent deux rôles: classer les livres et les documents par leur contenu dans le cadre d’une description standardisées des savoirs, ET à classer les livres sur les rayons des bibliothèques. Pourtant, en théorie, les cotes pour décrire les contenus des livres et leur localisation dans les bibliothèques pourraient être disctincts. Par exemple, touts les documents ont un « call number » ou un numéro de système unique qui sert à les identifier dans la base de données, souvent selon leur date d’acquisition. Ce numéro ne décrit aucun contenu et est attribué arbitrairement, automatiquement. On pourrait classer les livres par ce numéro d’identification, mais ce serait un vrai bordel que de chercher des livres dans une telle bibliothèque: les livres seraient sur le plan des contenus dans un désordre absolu.
Le double usage de la cote Dewey ou Congress vient du choix, apparemment logique et pratique, qu’on a fait de mettre côte à côte les livres qui ont le même sujet, des contenus similaires. Il y a aussi la nécessité d’avoir un seul système qui fait les deux (décrire les contenus et localiser): c’est économique pour la gestion des documents et facile à utiliser par les usagers et le personnel.

Curieusement, dans les moteurs de recherche, les usagers cherchent peu avec la cote ou par sujet. Ils cherchent par titre, par auteur, surtout, et les résultats sont classés par ordre alphabétique ou par date, quand il y a la possibilité de trier les documents trouvés selon différents champs. La chronologie et l’ordre alphabétique sont déjà deux autres systèmes de classement différents de Dewey et du Congress. Même s’ils demeurent élementaires, ce sont les plus utilisés par les usagers, probablement. Même s’ils en ont la possibilité, les usagers parcourent rarement (c’est à vérifier) les résultats des moteurs de recherche par la cote, alors que c’est la pratique la plus courante dans la bibliothèque elle-même.

Un système de classement unique a de multiples avantages, entre d’autres de permettent la standardisation de la description, l’échange des notices, le pré-cataloguage, etc. Cela ne fait pas de doute et qui va proposer d’abandonner ces systèmes? Y aurait-il seulement deux manières de classer les livres, les imprimés et tous les documents produits par l’humanité? Évidemment non. Et la tâche d’inventer un système qui se propose de permettre de tout classer est immensément difficile. Y en a-t-il des meilleurs que d’autres? Certainement. Mais c’est Dewey et Congress qui se soient imposés, comme les thesaurus de mots-clés internationaux qui sont les complètes.

La cote officielle est un compromis. Parce qu’il ne peut y en avoir plus qu’une, elle fait abstraction des différents contenus dont peut parler un document pour en retenir un seul, le plus important, du moins tel que définit à l’intérieur de ces deux systèmes. Les mots-clés complètent ce système et permettent d’ajouter à ce contenu principal d’autres sujets, d’autres contenus. C’est possible de le faire, parce que les livres ne sont pas classés physiquement en se basant sur les mots-clés. Il faudrait alors plusieurs exemplaires d’un même document lié à autant de localisation où il serait placé à côté des autres documents avec le même mot-clé. En fait, dans un tel système, il faudrait avoir autant d’exemplaires d’un document que de mots-clés ayant servi à en décrire le contenu. Peu économique pour la bibliothèque, mais cela pourrait être utile pour l’usager. C’est d’ailleurs ce que les résultats de recherche en ligne permettent, d’afficher une liste de documents par mot-clé. Quand on veut trouver ces ouvrages, au lieu de les trouver côte à côte, on doit se déplacer sur plusieurs rayonnages pour les regrouper tous.
Tout ça pour dire que les classements Dewey et Congress sont des systèmes de description des contenus mais qui remplissent un autre rôle beaucoup plus pragmatique, celui de localiser les documents. C’est cette contrainte matérielle qui empêchent fondamentalement qu’il puisse exister plusieurs systèmes pour décrire les documents des collections.

La question demeure pourtant: pourquoi sont-ils les seuls à être utiliser pour classer la bibliothèque? Pour en intégrer un autre dans une bibliothèque réelle avec de vrais livres sur les rayons, il faudrait que ce soit un système qui ne sert qu’à décrire le contenu. On ne peut pas avoir deux cotes différentes pour localiser un document unique! Pour ouvrir la possibilité d’autres systèmes, il faut donc d’abord distinguer le classement des contenus du classement physique du document. C’est ce que montre la prolifération des modules qui permettent d’ajouter des mots-clés personnels (tag) aux documents consultés.

Ce qu’on appelle la « folksonomie » (classement par le « peuple-folk ») est en voie de se généraliser. Leur caractère spontané et le peu de document que ces taxonomies décrivent n’en font pas des systèmes de classement proprement dits: ces mots-clés s’ajoutent à ceux attribués par les responsables de l’indexation. En fait, ils identifient le contenu plus qu’ils le classent dans une hiérarchie, dans un thésaurus.
D’ailleurs, c’est une des limites des folksonomies actuelles que de ne pas permettre, semble-t-il, la création de véritable thésaurus pour représenter un réseau de relations sémantiques entre les termes utilisés pour décrire les contenus. Sans hiérarchie et relations sémantiques pas de système, que des « nuages » de mots-clés. Du moins, c’est ainsi qu’on représente parfois ces nouveaux mots-clés.

C’est déjà le cas pour les archives où la cote des documents ne désignent que le numéro du fonds, de la boîte et du dossier, rien de plus.