Travaux d’inventaires

Les années soixante ont été l’époque des grands travaux d’inventaires bibliographiques, d’outils de référence, d’index, de répertoire, en littérature et culture québécoise (histoire, sciences humaines, et amateurs – X13, Comics, Pagé – Legris, Verroneau, les périodiques, photographies- Montréal, etc.). Même BAnQ ne publie plus de travaux scientifiques: externaliser (SDM, etc.) La qualité de la référence pour les publications contemporaines est tellement supérieur aux outils pour chercher dans les corpus antérieurs, que cela représente une régression: ex. de l’index de Voix et images, et d’autres. Montrer la supériorité des anciennes biblio – sur le plan méthodologique – sur les bases de données et la recherche plein texte, complètement désarticulée, et qui doit être supporté par des outils d’extraction de données: Ferron)
Véritables travaux archéologiques dans des magasins de journaux poussiéreux, des kilomètres de microfilsm, de mauvaises photocopies, ce travail élémentaire pour construire des outils pour la recherche a été fait des chercheurs rigoureux, méthodiques, disciplinés, patients. Ceux qui ont fait ces travaux disparaissent aujourd’hui, les uns après les autres: René Dionne, Tourangeau, Hamel, Wycsinski, etc. À l’âge de base de données, de Google, de la numérisation de la recherche plein texte, leurs travaux sont de moins consultés, et plus personne ne semble en produire, comme si les NTIC avaient remplacer la travail du bibliographe, de l’indexeur, etc.
Dans leur travaux, il y a savoir-faire, une expertise, une rigueur, une méthodolgie contraignante, que peut de nouveaux chercheurs auraient la patience de reprendre. Comblés, étourdis, par le nombre de résultats, on croit tout savoir et ne plus avoir à consulter leur travaux. Érudit, collections numériques, etc. semble annoncer la disparition de ces grands travaux d’inventaires, de description méthodique. C’est tout le contraire: l’organisation et la description systématique de l’informations et des données culturelles sont encore plus essentielles compte tenu de la quantité exponentielle des données auxquelle nous avons maintenant accès.
Où en est la recherche bibliographique aujourd’hui? Comment récupérer, à travers la numérisation de leur travaux, le travail de ces chercheurs. COmment chercher aujourd’hui? Que trouver, pour faire quoi, décrire quoi?

ON recommence le travail, on perd l

– bilan hommage: méthodologie, reverse-bibliographie…
– nouvelles technologies de recherche, d’extraction, d’organisation, de classement, de description, etc.

– mise en commun, collaboration, partage des données, open datas: nouvelle culture de la recherche.

Direction générale des travaux….

Dans le domaine de l’histoire, il y a maintenant une accessibilité à une quantité gigantesque de documents imprimés, iconographiques, audio-visuels, statistiques, inimaginable voilà à peine quelques années. La connaissance historique que l’on peut faire jaillir de ces vertigineuses données représente un monde possible, un univers à faire advenir, le seul qui soit vraiment et authentiquement virtuel, c’est-à-dire « qui ne l’est qu’en puissance, qui est à l’état de simple possibilité ». Le Robert petit continue et ajoute que les « particules virtuelles sont des particules fictives permettant d’expliquer l’interaction entre les quantons ».

Cette documentation-monde contient donc une connaissance en puissance, une connaissance fictive, alors que les fichiers numériques, eux, sont réels et non virtuels, comme on le dit souvent incorrectement. C’est une connaissance qui n’existe pas encore, elle est seulement une possibilité de connaître, une possibilité de connaissances nouvelles pas encore tombées de l’univers fictif-virtuel créé par la masse documentaire pour prendre forme dans des résultats tangibles: oeuvres, discours, encyclopédie, paroles, sites.
D’où peuvent venir ces objets de connaissances nouvelles?

Sinon de l’acte de connaître lui-même qui consiste d’abord dans l’interrogation des bases de données numériques qui forment aujourd’hui des sortes de réserves culturelles de connaissances, des couches sédimentaires intellectuelles accumulées au cours des siècles dont il convient d’explorer la richesse pour agrandir le domaine du connu, les sortir de l’univers des virtualités cognitives pour en faire du connu.
Mais que voulons savoir, connaître? C’est la question!
Le fait est connu: une majorité de gens cherchent souvent leur propre nom ou quelque chose d’autre qu’ils connaissent déjà très bien dans Internet! Quelle est la motivation, la volonté de connaître dans ces recherches? Quelque chose de nouveau sur eux-mêmes qu’ils ne connaîtraient pas? Ou plutôt connaître « ceux » qui connaissent quelque chose sur eux ou ont « parlé » d’eux? Vanité, peut-être, mais surtout la situation de quelqu’un qui ne sait pas ce qu’il veut chercher ni ce qu’il veut savoir ne sachant pas exactement ce qu’il peut trouver.
Où placer la curiosité dans tout ça, à l’intérieur d’une théorie de la connaissance qui ne s’intéresserait pas seulement à comment nous connaissons mais aussi à pourquoi voulons connaître?
Comment rendre ces connaissances virtuelles réelles? D’où vient tout simplement la connaissance? pourrait demander le philosophe.

Pour s’en tenir à un corpus textuel, quelle lecture nouvelle la numérisation rend-elle possible qui n’existait pas auparavant? Éliminons la lecture continue à l’écran du fichier pdf d’un document papier: c’est une lecture traditionnelle qui continuera malgré toutes les évolutions technologiques pour bien longtemps encore. On parle souvent de lecture discontinue, fragmentaire, aléatoire. Certains la célèbrent; d’autres la dénoncent: ce nouveau mode de lecture est aussi là pour rester, et il étend d’ailleurs, à des proportions inattendues, le très vieux mode du feuilletage, du saut de passages ennuyants, des lectures en diagonales. Une différence inédite pourtant est qu’un lecteur peut feuilleter-sauter instantanément entre plusieurs documents.
C’est encore mettre l’accent sur la lecture individuelle et non pas sur un projet de lecture systématique d’un assez large corpus dans le cadre d’une recherche précise, même si elle peut très bien être celle d’un seul lecteur, poursuivie pour son seul plaisir. Même si ce n’est pas une « vraie » recherche, avec un plan et des objectifs précis, la question demeure: comment lire une grande masse textuelle?
Pour lire, ul faut d’abord une intention, un projet de lecture. On se lasse vite de parcourir des dizaines de documents numériques trouvés au hasard: ou on arrête tout, ou on en choisit un, et on le creuse, on le lit à l’ancienne, en continu.
C’est paradoxal: on dirait que le projet de lire un grand corpus empêche en fait la lecture de ce corpus dans un format nouveau. On ne peut pas tout lire les textes à la manière traditionnelle, alors on n’en lit aucun, ou seulement quelques-uns. De retour à la case de départ. Il y a donc à trouver des modes d’appréhension de la matière textuelle qui soit autre chose qu’une lecture continue d’un document après l’autre, suivie de notes de lectures, de résumé, d’analyse.

Le nombre de textes à lire, souvent impressionnant, apparaît suite à une requête simple dans le moteur de recherche: cette opération ne sert qu’à créer une sous collection du corpus général. La petite fenêtre du formulaire aussi simpliste qu’elle soit demeure la seule voie pour commencer à « lire-chercher » dans un grand corpus. Pour lire mieux, il faut donc multiplier le nombre de requêtes, accroître leur niveau de complexité, prévoir de longue liste de mots à chercher simultanément, avoir des outils d’analyses des résultats, des séries de requêtes combinatoires, des analyseurs sémantiques, etc.

Dans cette perspective, l’acte de « lecture » consiste dans un montage raisonnée de questions, un parcours de curiosité pour chercher un sujet, construit à partir d’un ensemble de mots, d’expressions, éventuellement de catégories linguistiques (verbes, pronoms, adjectifs), de structure syntaxique ou morphologique. « Lecture » entre guillemets puisqu’à cette étape, c’est toujours le moteur de recherche qui ne repère que les chaînes de caractères que l’on donne à chercher.

Le projet de recherche prospective sur l’Amérique conquérante de l’Europe ou sur l’Amérique française dans l’imprimé mondial seraient de bons exemples. On peut bien étendre le concept de lecture à cette étape, mais il s’agit plutôt de sélectionner un corpus thématique à partir duquel des lectures seront possibles. Difficile d’employer le mot « lecture » dans une opération qui consiste essentiellement à entrer quelques mots à la fois dans un formulaire de recherche. C’est plutôt se donner des conditions de lecture dont il s’agit, de sortir le corpus numérisé de sa pure virtualité pour s’approcher de sa lecture réel et de ses lecteurs réels.
Pas une lecture, mais un acte intellectuel par lequel on donne sens à un ensemble de documents par leur réunion dans une bibliothèque particulière de la bibliothèque universelle. De simples données dans un catalogue numérique, les documents s’intègrent dans un ensemble signifiant.

Questions:

– comment exploiter la richesse de la masse documentaire mis à la portée de tous et des chercheurs?
– comment transformer la matière textuelle en informations, en savoirs, en significations, en théorie, en culture, en sagesse…

Projet CRCCF 2

Deux possibilités:
1) – proposer évaluation des performances de leur moteur de recherche en ligne, de l’organisation de leurs BD, à l’interface, l’absence d’applications web 2.0, etc. Sur le site, on parle « d’autres modules, à l’usage du personnel, viendront s’ajouter au système : Acquisition de fonds; Organismes et Contacts. D’autres projets de bases de données seront développés pour certaines tâches (la description préliminaire des versements d’archives), ou certaines catégories de documents (les documents iconographiques). »

– absence de recherche fédérée (ou globale dans tous les fonds en même temps), peu efficace, cela oblige à faire plusieurs recherches pour trouver l’ensemble des documents quel le CRCCF possède sur un sujet.

Ce site me fait penser au site Ferron, avec son retard par rapport aux NTIC d’aujourd’hui.

2) – proposer des projets de mises en valeur et d’exploitation de leur contenu autour de la présence française au Canada et en Amérique.

Finalement, commencer par les projets 2, sur le contenu, et démontrer qu’il est impossible de les réaliser avec la technologie actuelle, et expliquer quelles améliorations-innovations on devrait y faire. Présenter aussi le développement technologiques comme un élément de la recherche et l’exploitation des contenus aujourd’hui, comme le développement de l’imprimerie a bouleversé les conditions de la recherche. Travailler dans cet axe.

Pourquoi ne pas proposer au CRCCF un projet comme si nous étions en 2015, au moment où le dernier document imprimé pouvant contenir des informations sur la présence française est numérisé.
Comment peut-t-on connaître la civilisation canadienne-française et nord-américaine aujourd’hui en 2015? Que pouvons nous savoir? Pour savoir quoi? Pour écrire quoi? Si nous ne profitons pas des NTIC pour penser ce que nous ne pouvions pas penser quand nous n’avions pas tout ce corpus numérisé ni même aucun document numérisé, à quoi cela nous aura-t-il servi?
Les projets de recherche fondés sur des programmes de cueillette d’informations, qui devraient être à la base de toute recherche dans le domaine de l’histoire entre autres, atteignent dans le monde numérique des dimensions qui dépassent notre capacité actuelle de penser des manières de les recueillir. Commencer par quoi? Comment analyser les résultats? En ce moment, on cherche un mot à la fois!!!

Les chercheurs-cueilleurs (sur la métaphore des chasseurs-cueilleurs: le retour des chasseurs-cueilleurs): parcours de cueillette, panier d’artéfacts, abjects hétéroclites, etc. Reparcourir l’Amérique française sur les traces imprimés par les French Canadians dans l’Amérique de langue anglaise.
Reprendre l’idée de « Comment l’Amérique a conquis l’Europe » pour trouver toutes les traces françaises dans la totalité du corpus du Nouveau-Monde de langue anglaise ou tout simplement dans les imprimés de l’Amérique de langue anglaise qui ne peuvent être de toute façon qu’un sous corpus d’une recherche globale totalisante sur les traces écrites de la présence française en Amérique dans tous les imprimés. Dans un livre français édité à Paris, il peut très bien y avoir plus d’informations sur la vie d’un French Canadian aux États-Unis que dans des ouvrages de langue anglaise.

Une étude comparative serait intéressante:
– quel Français est plus le présent dans l’imprimé anglais que dans l’imprimé français
– tracer l’évolution diachronique de ces traces pour trouver, par exemple, qu’à partir de telle année environ un Français cesse complètement d’être mentionné dans les écrits de France et continue de l’être dans les imprimés amériquains de toutes provenances, bien sûr, surtout anglais et français.
À ce sujet, voir l’histoire de l’imprimé canadien pour savoir si l’imprimé canadian aurait été imprimé ou édité aux USA ou en Angleterre.

Il peut sembler fou de même imaginer qu’on puisse réaliser ce type de recherche, mais une équipe internationale de milliers de chercheurs a travaillé pendant des années pour séquencer le génome humain: ils l’ont terminé et réussi. Pourquoi ne pas penser à un projet semblable pour le jour prochain où la totalité de l’écrit sera en ligne: un séquençage de l’écrit humain, ça voudrait dire quoi? Les biologistes cherchaient à décoder l’ADN: que pourrions-nous chercher dans la patrimoine écrit de l’humanité?