Publier des bases de données

Les bases de données, terme réservé jusqu’à récemment aux professionnels de l’informatique, est devenu une expression courante, et si le gens n’en sont pas toujours conscients, une part de plus en grande de l’information dans Internet, sinon la plus grande partie, se trouve, d’une façon ou d’une autre, dans une base de données. Les pages html statiques sont de plus en plus rares. À mesure que s’étend les applications où on peut ajouter des infos en ligne, les réviser, les compléter, les supprimer, plus cela sous-entend une « base de données » ou un système de gestion de contenu organisé d’une façon similaire à une base de données relationnelles. Les profils d’usagers, les blogues, les intranets où le personnel ajoute du contenu et le modifie, s’appuient plus ou moins sur des bases de données. (Techniquement, ce n’est peut-être pas le bon terme, mais l’esprit et les possibilités sont les mêmes).

Mais, voilà, il y a, pourrait-on dire, deux modalités pour présenter le contenu d’une base de données:

-1) une base de données « statique » qui attend les requêtes de l’usager dans un moteur de recherche pour afficher une partie du contenu.

– 2) une base de données dynamique et active ou plutôt « activée » par les responsables qui affichent plusieurs contenus de la base de données dans des gabarits, des modules de publication et des formats pré-établis.

Par exemple, sur les sites des journaux et des médias d’informations, on trouve sur toutes les pages des informations de la base de données déjà « affichées » pour l’usager: chroniques, manchettes, blogues, sections, etc. Chaque page contient en fait tout un ensemble de « requêtes », simples ou complexes », pré-définies, qui affichent l’ensemble des résultats dans une structure infographique donnée dès que l’usager fait afficher la page dans son navigateur. En fait, la page d’accueil de CyberPresse ou de Radio-Canada est comme une multi-requêtes qui affiche les résultats sous le titre de chaque rubrique et section.

Par opposition, on pourrait imaginer une sorte de portail absurde où plutôt que d’affiche immédiatement les dernières nouvelles sportives, culturelles, politiques, économique, il y aura sous chaque rubrique une ptit moteur de recher où l’usager trouverait autant de petit moteur de recherche où il devrait entre une recherche pour que sa page se remplissent d’informations!!! Ce média ne survivrait pas longtemps.

Cela est absurde, et pourtant les sites des bibliothèques institutionnelles et surtout de plusieurs grandes collections de fichiers numériques sont construits souvent dans cette esprit-là ou presque. C’est-à-dire que l’information affichée est sous la responsabilité de l’usager, c’est lui qui doit travailler à faire apparaître des informations et des contenus, sinon il ne voit rien. L’usager est devant une base de données statique qui attend d’être activée.

Sur les sites commerciaux, les gestionnaires ont déjà cherché de l’information avant même qu’un usager arrive dans leur site. Ce qui s’affiche dans la fenêtre du navigateur, ce sont les données de la base pré-activée par les responsables.

Le site de Google Archives pour la recherche dans les journaux numérisés, c’est un peu, beaucoup ça. L’étonnante Timeline qui s’affiche en haut de chaque résultat s’appuie nécessairement sur une méta-requête, sur une pré-indexation intelligente de toutes les dates dans les millions de page du corpus. Google a dû chercher et indexer les 365 dates de toutes les années (2 mars 1652, 3 avril 1876, etc, pour chaque date, pour chaque année!!!) que couvre leur corpus pour pouvoir créer automatiquement une Timeline aussi performante.

À la requête simple de l’usager, comme chercher l’expression « New France », s’ajoute une requête extrêmement complexe de la recherche des occurrences de ce terme, croisées avec la multitude des dates que l’on trouve à une certaine « proximité » sémantique de « New France ». En fait, il est difficile de savoir comment Google a procédé, mais une chose est sûr: la requête simple de l’usager y est multipliée par le travail de formalisation et d’indexation réalisés avant qu’il la fasse.

Une fois liée à la méga-requête de la Timeline de Google, l’usager n’a plus à faire d’autres requêtes pour préciser la période historique qu’il veut couvrir, puisque Google y a déjà pensé. Mieux que ça, on peut imaginer une équipe d’historien construire des thésaurus thématique sur des grands événements ou des plus petits pour que la Timeline fasse apparaître non pas les seuls occurrences d’une expression à travers les années et les siècles, mais tout un réseau de mots-expresssions distribués sur des durées longues et courtes.

La machine Google archive les journaux

Par où passe la machine Google, le territoire de la recherche n’est plus le même. http://news.google.com/archivesearch

Leur projet de numérisation s’accompagne toujours d’une avancée technologique dans le développement d’applications conviviales et participatives. La recherche dans Google Images a donné le logiciel de publication Internet Picasa, comme toujours simple, efficace, performant, évolutif: à chaque mois, il doit y avoir une nouvelle fonctionnalité. Google Scholar et Google Livres ont donné l’application qui permet de créer en quelques minutes une bibliothèque personnelle, annotée, indexée, mise en ligne et partagée.

Mais Google Archives est vraiment étonnant. L’affichage des résultats avec la « Timeline » qui présente un tableau chronologique des résultats fait rêver: trouver toutes les occurences d’une date précise, 4 mai 1832, et les distribuer dans une chronologie fondée sur la date de parution des ouvrages où elle est mentionnée! Par exemple, ce n’est pas tout à fait possible en ce moment, mais on pourrait de la sorte suivre la mention de « 14 juillet 1789 » dans tous les ouvrages postérieurs avec une précision incroyable. Par exemple, voici un résultat pour « Bastille » ou New France (les journaux indexés sont presque tous anglais, malheureusement). Il faut faire glisser la souris sur la chronologie pour s’apercevoir de la puissance de leur indexation, ainsi que sur les mots-hyperliens qui apparaissent dans la courte description de chaque résultat.

C’est une application qui montre la recherche/développement que Google poursuit continuellement. Le moteur de recherche, dans ce cas=ci, enrichit la requête simple-simpliste de l’usager: à partir d’une seule expression, d’un seul mot, on obtient le début de l’histoire de ce mot dans l’imprimé occidental! Les mots-clés montre aussi une sorte de pré-indexation, probablement d’une sorte de thésaurus de mots importants, déjà reliés à un certain nombre de pages web. Sachant que tout cela n’a pas été fait à la main par des armées de lecteurs, il faut penser alors que la production d’une telle chronologie « indexée » suppose des requêtes complexes en arrière-plan pour enrichir une type de requête qui donne habituellement que le nombre d’occurrences dans X documents, et rien de plus. Dans tous les cas, c’est une application très stimulante.

C’est une manière de présenter les résultats qui suscitent la découverte, qui surprend, qui éveille la curiosité. Imaginer une telle Chronologie pour l’étude d’un grand corpus et d’un thésaurus de sujets rationnel pourrait faire appraître des connaissances nouvelles, impossibles précédemment.

Trouver un petit corpus de mots/expressions pour en explorer les possibilités.

Exploration bibliographique dans le projet Érudit

Comment chercher? Quoi chercher? Que savoir?
Sur le modèle des base de données météorologiques, astronomiques ou génomiques…

D’abord, il faudrait avoir un support informatique pour développer des modules d’interrogations complexes.
Il faudrait pouvoir construire des méta-requêtes composées de plusieurs sous-requêtes pour regrouper, trier, relier des ensembles de résultats divers, pour créer des index spécialisés, des sous-bibliothèques, des graphiques, des chronologies, des parcours bibliométriques, etc.

Premier principe de la critique: les moteurs de recherche sont insuffisants et ne peuvent faire avancer réellement la connaissance, car ils n’offrent la possibilité que de faire les mêmes recherches qu’avant, mais plus rapidement et plus exhaustivement.

Au centre de cela est la question: que voulons nous savoir?

Si c’est la liste des articles qui ont parlé de tel ou tel mot-clé ou auteur, on n’a pas besoin de plus. Déjà, si ce qu’on veut connaître est la liste des articles dans lesquels on parle de toutes les oeuvres d’un romancier, disons une vingtaine, c’est déjà plus compliqué si on veut regrouper les résultats, et ne pas se retrouver devant 20 listes non fusionnées. Ensuite, faudra une autre requête pour connaître les oeuvres dont parle un seul article. On ne le fait pas, parce qu’on n’a pas les bons outils de recherche.

Autre principe: ces types de requêtes exigent la collaboration d’un informaticien, capable de concevoir et d’écrire ces requêtes complexes.

Qu’est-ce qu’une modélisation, comme en météo? Une sorte de méta-requête qui effectue des dizaines, sinon des milliers d’opérations et d’analyses dans une base de données et qui crée des résultats sous forme de graphes ou de cartes, des cartes animées qui représentent le résultat affiché d’une méta-question composée de multiples petites questions et de résultats, regroupés, puis mis en relation les uns avec les autres.

Pour continuer ce sujet de refléxion: poser une question très complexe et la décomposer en multiples requêtes pour montrer un chemin possible à suivre, puis montrer le mode de représentations qu’on pourrait lui donner. Par exemple, l’idée d’établir comment le Nouveau Monde a conquis l’imprimé européen.

Montrer aussi: que ces méta-requêtes peuvent servir à créer de véritables catalogues spécialisés ou même des bibliothèques. Par exemple, dans Érudit il pourrait y avoir la « salle » Révolution tranquille (RT), subdivisée, organisée comme une vraie bibliothèque virtuelle. Ce pourrait être un projet à proposer: regrouper toutes les ressources de l’imprimé autour de la RT.

Aussi, ces réflexions mènent à reconsidérer le « traitement » que l’on fait à un document quand il est acquis et qu’on indique parfois justement « en traitement ». Cela signifie les étapes suivantes: indexation, description, reliure, sécurité, code barre, intégration dans le système informatique puis sur les rayons et dans le logiciel de prêt. Essayer de penser à un traitement automatisé du contenu pour l’intégrer dans les différentes bibliothèques/catalogues spécialisés. Par exemple, on analyse le contenu en texte intégral, identifie les mots-clés associés à la RT, on le « tague » automatiquement, l’ajoute aux index des auteurs, des sujets, aux réseaux bibliométriques. Une façon donc de programmer le traitement sémantique des contenus. Le soumettre à des requêtes pré-établies, le traiter pour lui donner des mots-clés supplémentaires. Ce serait une sorte d’outil d’indexation supplémentaire…

Voir aussi les « FOAF » (Friend of a Friend) qui permettent de représenter les liens entre les personnes.
Trouver aussi des manières de représenter les liens entre les textes critiques, entre les oeuvres elles-mêmes, entre les textes critiques eux-mêmes. On pourrait imaginer des TsuT, un « Texte sur un Texte ».

Créer différentes modalités de représentation des résultats, par exemple sous la forme d’arbres schématiques:
– de la critique, positive, négative…
– de la création littéraire: des branches qui unissent des contenus thématiques, des branches qui unissent des matières textuelles (dans le cas de Ferron très nombreux); ces modules peuvent être transposés dans le domaine de la critique: il y a des liens thématiques ou méthodologiques (psy, sémio, historique…), ou argumentatifs (l’évolution de la réception du thème du pays ou du « Ferron intime »); la matière textuelle de l’oeuvre, cela peut être des citations, des éléments textuels-sémantiques de la critique, que l’on retrace pour tracer des liens, les argumentations de la critique….

– peut-on trouver des manières automatisées de créer soit des résumés et/ou les structures argumentatives en identifiant les opérateurs logiques du texte argumentatif…

– distinguer les formules introductives des citations ou des commentaires (généralement placées après, mais souvent avant aussi: la citation illustre alors un fragment d’analyse)
– liens entres les auteurs de la critique / liens entre les textes de la critique
– identifier aussi les marques de la citation indirecte: « comme disait X… », « Y a écrit que blablabla »…
– tout le défi aussi d’identifier les notes en bas de pages, les bibliographies, etc.: trouver quelques exemples de logiciels qui tentent d’extraire les références bibliographiques des textes imprimés…
– tracer des réseaux sémantiques et argumentatifs entre les textes critiques

Donc proposer des sujets de recherche et aussi des manières de présenter les résultats. En ce moment, le résultat est aussi éphémère que la durée de la session. Les résultats de la recherche ne s’accumulent pas. Imaginons une application qui conservent les recherches effectuées pendant un mois: mots-clés, sujets, titres, auteurs, etc. Au bout d’un mois, une application en fait la synthèse et crée une bibliographie de ce que les usagers ont cherché et trouvé. On pourrait ainsi au moins savoir ce que les usagers cherchent pour inclure les résultats dans
1) une histoire de la recherche
2) une analyse des performances du moteur de recherche
3) une programme de suggestions de recherche
4) pour créer des bibliographies spécialisées en analysant le contenu des recherches.

Enfin, il est impossible que les recherches effectuées ne contiennent aucune information sur les intérêts des chercheurs, les limites du système de requête, sur les stratégies de recherche, etc.
Comment mesurer la performance du chercheur pour trouver ce qu’il cherche: emploie-t-il une mauvaise stratégie ou est-ce l’interface et les possibilités du moteur de recherche qui sont déficientes.

Pour ce sujet, partir d’une vraie question et tracer toute la démarche à suivre pour trouver des « réponses »