Champs fondamentaux de la recherche

Quelques lignes directrices de recherche et de réflexion tirées de l’expérience de conception, de développement et de gestion du site Jacques Ferron, écrivain depuis près de 10 ans:

1) Mode de publication des résultats de la recherche savante:
– repenser les manières de diffuser les inventaires, répertoires, index, dictionnaires, études, dépouillements, notes de recherche, etc., dans la perspective de développer une politique éditoriale propre à les rendre plus accessibles pour le public et pour les chercheurs eux-mêmes, en incluant toujours une dimension pédagogique pour rendre possible l’intégration de ces résultats dans différents niveaux d’enseignement.
Des exemples:
– on peut imaginer créer un Inventaire des lieux de mémoire junior: une application pédagogique niveau primaire-secondaire pour faire découvrir les lieux commémoratifs locaux, ou proposer des activités pour créer des lieux de mémoire à partir de ce que les enfants considèrent important dans leur environnement immédiat
– ou, à l’autre extrémité du spectre, développer un PPP avec un ou des éditeurs importants de guide touristique (Ulysse, Michelin, Fodor, Le Routard, Lonely Planet) pour intégrer à leur édition des références et des informations sur des lieux de mémoire pertinents, ou mieux encore, faire de la RD avec l’un d’entre eux pour créer des circuits touristique patrimoniaux virtuels branché sur un réseau d’activités et de ressources touristiques locale et réelles.

Ces propositions-projets sont toujours conçus à partir du fait que les informations produites par la recherche auxquelles le public pourraient s’intéresser, comme cet Inventaire patrimonial, sont mal mises en marché, mal publiées, mal éditées. Les chercheurs n’étant pas des spécialistes de la vente ni de la promotion, des professionnels devraient s’en occuper comme c’est le cas dans l’édition sur papier depuis très longtemps. Sur ce plan, l’imprimé continue à voler la vedette et à centraliser presque toute les ressources « esthétiques ». Un exemple récent est le superbe catalogue de l’exposition Yves Thériault à BAnQ. La mise en place de l’exposition est aussi très réussie, mais il n’y a rien de prévu pour laisser des traces de l’expo en ligne. Il suffit de comparer la qualité graphique de ce catalogue avec l’allure des parcours thématiques qui servent à présenter les collections numériques: une dizaine d’illustrations accompagnées par des commentaires neutres, corrects, sans trop de saveur.
Ce n’est pas qu’une question de sous ou de budget. La publication dans internet ne reçoit pas l’attention qu’elle mérite, encore plus pour des projets, comme l’Inventaire, qui ne peuvent pas vraiment être publiés autrement qu’en ligne, même si un beau livre est toujours possible: pourquoi pas de beaux sites comme on dit de beaux livres?
Donc, ce champ de recherche mène vers des publics variés, vers l’exploration de nouveaux modes de diffusion du contenu numérique, vers différentes applications aussi: savantes, commerciales, pédagogiques, culturelles… Il y a un déséquilibre marqué entre les ressources humaines financières investis dans la recherche et la petite somme ensuite consacrée à prendre tous les moyens pour la faire connaître et la diffuser.
Le grand intérêt du format numérique (surtout quand il est dans une base de données, donc non formaté ou à peine) est justement de permettre un nombre presqu’infini de publications pour un même contenu: la collection du Musée McCord rend possible de publier des centaines d’albums de photographies. Cette dimension est très souvent négligée. D’ailleurs, les projets de ce genre se sont réalisés le plus souvent en dehors du monde de la recherche, subventionnés dans le programme du Musée virtuel du Canada ou d’autres de Patrimoine Canada (auxquels des chercheurs ont aussi participé parfois).
Il y a beaucoup de coupures dans ces programmes… N’empêche, les meilleurs de ces projets montrent que ce sont souvent les organismes du milieu associatif et communautaire qui peuvent le mieux mettre en valeur le « patrimoine » pour tous les publics, associés à des éditeurs de contenu Internet. Donc, la publication des résultats de recherche (au-delà des informations « brutes » de la recherche pour lesquelles les applications actuelles peuvent suffir et ce n’est même pas sûr: pour les chercheurs eux-mêmes ces bases de données en ligne sont plus ou moins bien publiées) devraient mener à des partenariats entre le milieu de la recherche et le milieu associatif, plus près du public, plus communicatif…

2) Modèle de moteurs de recherche
Tout le monde en utilise tout le temps, partout, en commençant par Google. Il y a autant de manière de concevoir les formulaires de recherche, simple ou avancé, qu’il y a de moteurs de recherche. Google vise toujours la simplicité; d’autres sont hyper compliqués et sophistiqués: en théorie on devrait pouvoir y faire des recherches complexes, mais c’est assez inexact. Même en employant quelques opréateurs booléens, les possibilités sont restreintes.
Sur ce point, il y a deux approches presque complètement différentes:
a) – celle des entreprises commmerciales (Ebay, Amazon, Ikea, Rona, etc.) qui entourent le moteur de recherche proprement dit d’une multitude d’informations pour présenter-offrir leurs produits aux visiteurs: ils n’attendent pas qu’ils cherchent! Ils l’inondent d’infos! Et les résultats de la recherche sont eux aussi subdivisés, « ventilés », entourés d’autres informations-produits, d’offres parfois personnalisées à partir du profil de l’usager, des suggestions. Une constance: l’usager trouve toujours quelque chose sur sa page de résultats: elle n’est jamais vide. En fait, dans ces sites, ce sont les moteurs de recherche qui travaillent le plus fort, pas l’usager! On ne lui demande pas de cocher quelle catégorie de livres il cherche: il entre un mot, et c’est le moteur de recherche qui va lui donner toutes les catégories dans lesquelles se trouve ce qu’il cherche. Ces compagnies se disent: un acheteur est ici, on va pas le laisser repartir sans lui montrer nos produits, et même si ce n’est pas qu’il cherche, ça marche! Tout le monde se retrouve souvent à cliquer sur des choses-produits auxquels on ne pensait pas: comme dans une vraie librairie, où on voit des dizaines de titres qu’on n’est pas venu acheter. On ne repart jamais les yeux vides.

b) – celle des entreprises publiques, comme les moteurs de recherche des bibliothèques publiques, universitaires, centre de recherche. Là, c’est généralement le contraire: il n’y a que le formulaire de recherche sur une page vide. On veut vous montrer que ce que vous cherchez, et rien d’autre. Sur plusieurs, comme celui de BAnQ, on peut chercher 10 mots différents et rien trouver du tout, rien, rien. Même chose dans des banques d’images parfois fantastiques: si vous n’avez pas le bon mot-clé pour trouver une seule photo, on ne vous montrera que: « 0 résultat pour votre recherche / Veuillez faire une autre recherche ». Alors qu’il y a des milliers d’images à montrer et qui auraient enclanché une processus d’exploration et de découverte. Un exemple totalement opposé à cette approche est celui du Bilan du siècle de l’Université de Sherbrooke: là, il y a toujours toutes sortes d’informations connexes qui nous sont présentées, quels que soient les résultats même nuls. C’est probablement un des sites publics qui met le mieux en valeur tous ses contenus. C’est une exception, très instructive pour ce que pourraitdevenir tous les sites d’organismes publics.

Au-delà de ces généralisations excessives (mieux connaître les expériences innovatrices en ce domaine, comme le CCDMM?), il y a deux philosophies pour concevoir les moteurs de recherche et l’affichage des résultats:
– une approche active, riche, qui va au devant de l’usager et ne le laisse jamais rien trouver
– une approche passive: on attend le sujet de recherche de l’usager, et on lui donne rien d’autres, s’il ne trouve rien qui l’intéresse, c’est de sa faute: il n’avait qu’à mieux savoir ce qu’il voulait.

La première sert partout dans le domaine commercial: si l’usager ne trouve pas, c’est à nous de lui offrir autre chose. Dans le domaine public et surtout dans le domaine de l’enseignement universitaire, cette approche « commerciale » devrait être l’expression de leur mission éducative: instruire, éduquer, diffuser le savoir, la connaissance. Pas sûr que le milieu de la recherche, de l’édition savante, les universités et leur éditeurs aient une politique générale de « l’éducation en ligne ». En ce moment, les programmes de numérisation semblent être la seule manière qu’ils emploient, sans trop se demander quelle type de publication et quel usage on pourrait inventer pour ces millions de documents nouvellement numériques.

3) Grand corpus et recherche
Une autre dimension de la recherche change à chaque jour: c’est l’abondance et la variété des documents et des sources en ligne. C’est l’âge des BigDatas comme en parlait Wired cet été.
Que faire justement devant toutes ces données?
C’est la question. Pour parler du domaine des ressources textuelles numériques, il y a en ce moment des dizaines de millions, sinon déjà des centaines de millions pages en ligne dans des centaines de catalogues numériques. Que peut-on connaître, savoir, découvrir de tout ça? En ce moment, on continue à chercher comme avant: un titre ou quelques-uns. Dans cette masse de texte intégral, on cherche un mot, une expression à la fois! Que pense-t-on trouver de nouveau comme ça! Si des groupes de recherche ont comme objectif d’explorer les possibilités de travailler avec ces millions de mots et de textes, ils sont fort discrets.

Pour que ce passage de la totalité de l’imprimé au format numérique qu’on est en train de réaliser fasse naître de nouvelles connaissances, de nouveaux savoirs, il faudra des projets aussi ambitieux, aussi grands par ce qu’ils veulent connaître que sont immenses les corpus culturels maintenant accessibles.
Et pourquoi une seule classification, Deway ou Congress? Ces systèmes de classification servent à définir les contenus mais aussi à une autre chose essentielle: indiquer la place physique du document sur les rayonnages de la bibliothèque, à côté des autres qui ont un sujet semblable. Aucun document ne peut avoir deux cotes: cela voudrait dire qu’il peut être sur deux rayonnages en même temps. Quand on croit qu’un document a deux ou trois cotes, c’est parce qu’il y a 2-3 exemplaires du même document dans autant de collections à l’intérieur de la bibliothèque.
Un projet serait donc de penser de nouveaux systèmes de classification des contenus indépendamment de leur place physique: il n’y a plus de place « physique » pour un document numérique: c’est le numéro de système qui joue ce rôle, et le document n’est jamais vraiment « déplacé » dans une base de données: il est affiché, diffusé, etc.
On peut donc imaginer de nombreux systèmes de classification de la totalité de l’imprimé, concurrents, complémentaires, contradictoires, ou d’une seule partie de ce corpus archi-immense.

De nouvelles classifications seraient déjà un développement sur ce que nous pouvons connaître de ce corpus. Se rappeler que la numérisation n’ajoute aucune information nouvelle. On n’en sait pas plus pas moins devant la version pdf d’un ouvrage que devant ce même ouvrage format papier qui ne serait même pas ouvert.