Travaux d’inventaires

Les années soixante ont été l’époque des grands travaux d’inventaires bibliographiques, d’outils de référence, d’index, de répertoire, en littérature et culture québécoise (histoire, sciences humaines, et amateurs – X13, Comics, Pagé – Legris, Verroneau, les périodiques, photographies- Montréal, etc.). Même BAnQ ne publie plus de travaux scientifiques: externaliser (SDM, etc.) La qualité de la référence pour les publications contemporaines est tellement supérieur aux outils pour chercher dans les corpus antérieurs, que cela représente une régression: ex. de l’index de Voix et images, et d’autres. Montrer la supériorité des anciennes biblio – sur le plan méthodologique – sur les bases de données et la recherche plein texte, complètement désarticulée, et qui doit être supporté par des outils d’extraction de données: Ferron)
Véritables travaux archéologiques dans des magasins de journaux poussiéreux, des kilomètres de microfilsm, de mauvaises photocopies, ce travail élémentaire pour construire des outils pour la recherche a été fait des chercheurs rigoureux, méthodiques, disciplinés, patients. Ceux qui ont fait ces travaux disparaissent aujourd’hui, les uns après les autres: René Dionne, Tourangeau, Hamel, Wycsinski, etc. À l’âge de base de données, de Google, de la numérisation de la recherche plein texte, leurs travaux sont de moins consultés, et plus personne ne semble en produire, comme si les NTIC avaient remplacer la travail du bibliographe, de l’indexeur, etc.
Dans leur travaux, il y a savoir-faire, une expertise, une rigueur, une méthodolgie contraignante, que peut de nouveaux chercheurs auraient la patience de reprendre. Comblés, étourdis, par le nombre de résultats, on croit tout savoir et ne plus avoir à consulter leur travaux. Érudit, collections numériques, etc. semble annoncer la disparition de ces grands travaux d’inventaires, de description méthodique. C’est tout le contraire: l’organisation et la description systématique de l’informations et des données culturelles sont encore plus essentielles compte tenu de la quantité exponentielle des données auxquelle nous avons maintenant accès.
Où en est la recherche bibliographique aujourd’hui? Comment récupérer, à travers la numérisation de leur travaux, le travail de ces chercheurs. COmment chercher aujourd’hui? Que trouver, pour faire quoi, décrire quoi?

ON recommence le travail, on perd l

– bilan hommage: méthodologie, reverse-bibliographie…
– nouvelles technologies de recherche, d’extraction, d’organisation, de classement, de description, etc.

– mise en commun, collaboration, partage des données, open datas: nouvelle culture de la recherche.

Exploration bibliographique dans le projet Érudit

Comment chercher? Quoi chercher? Que savoir?
Sur le modèle des base de données météorologiques, astronomiques ou génomiques…

D’abord, il faudrait avoir un support informatique pour développer des modules d’interrogations complexes.
Il faudrait pouvoir construire des méta-requêtes composées de plusieurs sous-requêtes pour regrouper, trier, relier des ensembles de résultats divers, pour créer des index spécialisés, des sous-bibliothèques, des graphiques, des chronologies, des parcours bibliométriques, etc.

Premier principe de la critique: les moteurs de recherche sont insuffisants et ne peuvent faire avancer réellement la connaissance, car ils n’offrent la possibilité que de faire les mêmes recherches qu’avant, mais plus rapidement et plus exhaustivement.

Au centre de cela est la question: que voulons nous savoir?

Si c’est la liste des articles qui ont parlé de tel ou tel mot-clé ou auteur, on n’a pas besoin de plus. Déjà, si ce qu’on veut connaître est la liste des articles dans lesquels on parle de toutes les oeuvres d’un romancier, disons une vingtaine, c’est déjà plus compliqué si on veut regrouper les résultats, et ne pas se retrouver devant 20 listes non fusionnées. Ensuite, faudra une autre requête pour connaître les oeuvres dont parle un seul article. On ne le fait pas, parce qu’on n’a pas les bons outils de recherche.

Autre principe: ces types de requêtes exigent la collaboration d’un informaticien, capable de concevoir et d’écrire ces requêtes complexes.

Qu’est-ce qu’une modélisation, comme en météo? Une sorte de méta-requête qui effectue des dizaines, sinon des milliers d’opérations et d’analyses dans une base de données et qui crée des résultats sous forme de graphes ou de cartes, des cartes animées qui représentent le résultat affiché d’une méta-question composée de multiples petites questions et de résultats, regroupés, puis mis en relation les uns avec les autres.

Pour continuer ce sujet de refléxion: poser une question très complexe et la décomposer en multiples requêtes pour montrer un chemin possible à suivre, puis montrer le mode de représentations qu’on pourrait lui donner. Par exemple, l’idée d’établir comment le Nouveau Monde a conquis l’imprimé européen.

Montrer aussi: que ces méta-requêtes peuvent servir à créer de véritables catalogues spécialisés ou même des bibliothèques. Par exemple, dans Érudit il pourrait y avoir la « salle » Révolution tranquille (RT), subdivisée, organisée comme une vraie bibliothèque virtuelle. Ce pourrait être un projet à proposer: regrouper toutes les ressources de l’imprimé autour de la RT.

Aussi, ces réflexions mènent à reconsidérer le « traitement » que l’on fait à un document quand il est acquis et qu’on indique parfois justement « en traitement ». Cela signifie les étapes suivantes: indexation, description, reliure, sécurité, code barre, intégration dans le système informatique puis sur les rayons et dans le logiciel de prêt. Essayer de penser à un traitement automatisé du contenu pour l’intégrer dans les différentes bibliothèques/catalogues spécialisés. Par exemple, on analyse le contenu en texte intégral, identifie les mots-clés associés à la RT, on le « tague » automatiquement, l’ajoute aux index des auteurs, des sujets, aux réseaux bibliométriques. Une façon donc de programmer le traitement sémantique des contenus. Le soumettre à des requêtes pré-établies, le traiter pour lui donner des mots-clés supplémentaires. Ce serait une sorte d’outil d’indexation supplémentaire…

Voir aussi les « FOAF » (Friend of a Friend) qui permettent de représenter les liens entre les personnes.
Trouver aussi des manières de représenter les liens entre les textes critiques, entre les oeuvres elles-mêmes, entre les textes critiques eux-mêmes. On pourrait imaginer des TsuT, un « Texte sur un Texte ».

Créer différentes modalités de représentation des résultats, par exemple sous la forme d’arbres schématiques:
– de la critique, positive, négative…
– de la création littéraire: des branches qui unissent des contenus thématiques, des branches qui unissent des matières textuelles (dans le cas de Ferron très nombreux); ces modules peuvent être transposés dans le domaine de la critique: il y a des liens thématiques ou méthodologiques (psy, sémio, historique…), ou argumentatifs (l’évolution de la réception du thème du pays ou du « Ferron intime »); la matière textuelle de l’oeuvre, cela peut être des citations, des éléments textuels-sémantiques de la critique, que l’on retrace pour tracer des liens, les argumentations de la critique….

– peut-on trouver des manières automatisées de créer soit des résumés et/ou les structures argumentatives en identifiant les opérateurs logiques du texte argumentatif…

– distinguer les formules introductives des citations ou des commentaires (généralement placées après, mais souvent avant aussi: la citation illustre alors un fragment d’analyse)
– liens entres les auteurs de la critique / liens entre les textes de la critique
– identifier aussi les marques de la citation indirecte: « comme disait X… », « Y a écrit que blablabla »…
– tout le défi aussi d’identifier les notes en bas de pages, les bibliographies, etc.: trouver quelques exemples de logiciels qui tentent d’extraire les références bibliographiques des textes imprimés…
– tracer des réseaux sémantiques et argumentatifs entre les textes critiques

Donc proposer des sujets de recherche et aussi des manières de présenter les résultats. En ce moment, le résultat est aussi éphémère que la durée de la session. Les résultats de la recherche ne s’accumulent pas. Imaginons une application qui conservent les recherches effectuées pendant un mois: mots-clés, sujets, titres, auteurs, etc. Au bout d’un mois, une application en fait la synthèse et crée une bibliographie de ce que les usagers ont cherché et trouvé. On pourrait ainsi au moins savoir ce que les usagers cherchent pour inclure les résultats dans
1) une histoire de la recherche
2) une analyse des performances du moteur de recherche
3) une programme de suggestions de recherche
4) pour créer des bibliographies spécialisées en analysant le contenu des recherches.

Enfin, il est impossible que les recherches effectuées ne contiennent aucune information sur les intérêts des chercheurs, les limites du système de requête, sur les stratégies de recherche, etc.
Comment mesurer la performance du chercheur pour trouver ce qu’il cherche: emploie-t-il une mauvaise stratégie ou est-ce l’interface et les possibilités du moteur de recherche qui sont déficientes.

Pour ce sujet, partir d’une vraie question et tracer toute la démarche à suivre pour trouver des « réponses »

Bibliographier Internet?

Un problème quasi insoluble en ce moment, c’est d’établir une bibliographie thématique annotée des informations trouvées dans Internet. Plusieurs difficultés:

  1. ajout perpétuel et rapide d’infos
  2. pluralité des « types » de documents dans Internet: en plus de tous les genres de textes connus associés à l’imprimé (articles, livres, lettres, chroniques…) et leur version numérique, il y a tout un ensemble de nouveaux genres: les blogues et leurs commentaires, les « profils de membres », les clips audio, vidéos, tous les types de photos, etc. S’ajoutent à ces variétés non-standardisées le fait que ce soit souvent des genres très courts, bien moins qu’une page, parfois quelques dizaines de mots comme dans les « chats » les séances de clavardage, les textes hyper brefs de la nouvelle patente « Twitter » (140 mots au maximum, je pense). Autre difficulté, une seule page peut contenir toutes sortes de types de documents, comme une page de journal, mais en pire! Dans l’indexation des journaux anciens, on indique parfois la colonne où apparaît le document ou la citation. Dans les périodiques contemporains, avec leur graphisme éclaté, le concept même de colonne est problématique. Dans Internet, en plus, la « publication » du document est elle-même problématique, elle est souvent aléatoire, contextualisée par une requête de l’usager. L’étude de la publicité pourrait être encore plus difficile. On peut localiser une pub dans un imprimé, mais comment localiser un bandeau publicitaire qui apparaît de temps en temps en puisant dans une liste de bandeaux virtuels?

Donc, il y a une première difficulté à décrire le type de document et d’informations, à le localiser physiquement « spatialement », et à le dater. Sur ce plan, l’indexation d’Internet reste vraiment problématique. Pour l’imprimé, même dans le cas d’un imprimé détruit, on pourrait quand même être sûr que le texte X a paru dans le document Y à la date Z, et ce pour toujours! Un poème publiés dans Les fleurs du mal, mentionné dans la table des matières, ne disparaît pas si on perd l’exemplaire du livre. Dans Internet, cela est possible. On risque fort de ne pas retrouver le texte déjà identifié lorsqu’on retourne sur un site, il n’y a peut-être même plus de trace que ce document ait un jour existé. C’est pourquoi Zotero, par exemple, offre la possibilié de conserver des saisis d’écran de tous les sites et pages que l’on ajoute à sa bibliothèque. Au moin, si la pge disparaît, change et supprime les informations qui nous intéressaient, on aura pas l’impression d’avoir rêvé. Comme si l’établissement d’une bibliographie exigeait que l’on conserve aussi un exemplaire de tous les livres mentionnés au cas où ils disparaîtraient! Cela ne fait que montrer l’importance des institutions de conservation traditionnelle, bibliothèques et archives, mais montre aussi la tâche extrêment complexe d’archiver Internet.

Autres difficultés:

  1. Aussi, localiser correctement un document et lui donner une adresse précise est aussi problématique: le document peut changer souvent de place dans un même site, et être reproduit des dizaines de fois, des centaines de fois. Internet, c’est le règne des doublons. Mais tous les catalogues de bibliothèques mis en ensemble demeurent sans doute le plus énorme univers de doublons jamais créé. Les catalogues collectifs sont confrontés à cela: pour un titre, on trouve des centaines de localisation, de doublons. C’est pratique quand on est rendu à l’étape d’aller le consulter à la bibliothèque près de chez soi, mais dans les résultats préliminaires de recherche, cette montagne de doublons doit être surmontée par une sélection des documents-titres « uniques », ce qui oblige à avoir des descriptions les plus standardisées possibles. Trouver les doublons à partir de descriptions dissemblables est chose presque impossible. Les grandes bibliothèques, grâce à leur tradition, arriveront assez bien à résoudre ce problème de doublons, mais comment Google pourrait-il y arriver? Comme Ebay oy Abebooks où se sont des millions d’usagers-clients-abonnés qui créent leurs descriptions personnelles des documents. Les pages complètes, entièrement identiques sont probablement, toute proportion gardée, peu nombreuses, mais les fragments d’informations, eux, doivent atteindre une quantité astronomique. Avec toutes les applications qui se développent, ce sera encore mille fois pire bientôt.

Alors combien d’informations originales? Et que signifie « combien »?

L’autre chose est la nature des résultats de recherche que donne Google, par exemple. Malgré la possibilité de développer un moteur de recherche personnalisé, on recommence toujours à zéro avec Google et les autres moteurs de recherche. Peut-être y a-t-il un moyen « d’écumer », « d’élaguer » peu à peu un premier résultat et d’éliminer tous les résultats non-pertinents pour ne conserver que ceux qu’on choisit pour annoter, mais cela n’est pas facile à réaliser. Le métachercheur Copernic, version pro, paraît offrir la possibilité de gérer les résultats, de les filtrer, etc. Il semble cependant que l’évolution de ce logiciel soit arrêté. Plus personne en parle, et les dernières infos sur leur site date d’un année ou deux
Aussi, on ne peut chercher que quelques mots à la fois (avec les opérateurs booléens, par exemple… Google fixe le maximum à 25, je crois). Pour une recherche le moindrement complexe qui couvrent un domaine de recherche substantiel, un mot à la fois ne mène à rien. Il faudrait pouvoir chercher des listes d’expressions, fusionner les résultats, et les conserver! Puis, travailler à les identifier, les choisir, les annoter avec des mots-clés standards, et surtout rejeter de ce résultat, les pages-références qui ne sont pas pertinentes.