Que peut-on savoir de l’oeuvre de l’écrivain aujourd’hui?

En prenant Ferron comme échantillon-étalon, quelles sont les questions que l’on peut poser à une oeuvre et à son auteur aujourd’hui? Que peut-on savoir, penser, écrire, publier aujourd’hui, avec l’avancée des NTIC, sur une oeuvre littéraire ou, tout simplement (!), sur la littérature?

D’abord, essentiellement, les connaissances et les informations ne sont pas différentes de celles qui permettaient de les étudier précédemment: exhaustivité du corpus, manuscrits, textes critiques, documentations connexes, etc. On retrouve tout cela autour de certaines grandes oeuvres canoniques: la Bible, Shakespeare, Rabelais, Cervantes, Carroll. Ce travail est l’accumulation de siècles de recherche parfois. Le passage au numérique accélère d’une façon inimaginable la cueillette des informations et permet de les regrouper rapidement dans des applications ou des bases de données que l’on peut interroger immédiatement et sans arrêt. On peut donc étendre ces recherches exhaustives à tout un ensemble d’autres oeuvres.

Une partie de ces informations, surtout celles sous forme imprimée, était accessible mais seulement théoriquement. Dépouiller tous les journaux du XIXe siècle pour y trouver des références à une oeuvre ou à des auteurs était possible, mais dans la réalité, cela ne l’était pas vraiment: trop long, trop fastidieux, c’était une tâche infinie compte tenu des ressources humaines disponibles.

Les changements sont alors:
– la précision et l’exhausitivité des inventaires textuels imprimés… Les grands corpus numérisés vont permettre d’étendre la réception critique à de grands corpus jamais ou rarement indexés précédemment. Souvent des références secondaires, bien sûr. Mais dans un projet d’une étude de réception critique pointue ou de la diffusion d’une idée ou d’un style sur une longue période dans un immense corpus, cela peut devenir un champ de recherche et de découverte très riche.

– la pluralité des sources documentaires qui recouvrent la totalité de l’activité littéraire de l’écrivain (de ses lectures à la dernière réception critique dans un blogue, en passant par ses manuscrits, les rééditions, adaptations, etc.)

– une abondance d’informations qui dépassent la capacité de lecture et d’analyse d’un seul lecteur et même d’une équipe (mais cela est assez fréquent dans le cas d’un auteur important, comme Proust), ce qui fait qu’il n’y a plus de véritable synthèse. Les études deviennent de plus en pointues, spécialisées, pas tant à cause d’une évolution intellectuelle qui aurait permis de faire apparaître un nouvel objet d’étude, mais tout simplement parce qu’une étude à l’horizon large, ambitieuse, synthétique, est maintenant impossible.

Par exemple, l’analyse de Bakhtine sur l’évolution du roman occidental, des pastorales grecs à Dostoïevski, peut paraître aujourd’hui extrêmement partielle. On pouvait le penser et le savoir aussi quand cela a été publié, mais la critique était malaisée: il était impossible de faire autrement, et on ne pouvait qu’admirer sa culture et son érudition. Ce qui ne signifie pas que ces hypothèses soient fausses, mais la prise en compte de tout le corpus maintenant numérisé, donc accessible à l’analyse, modifierait certainement ses conclusions.

En ce sens, des travaux de recherche pourraient consister à refaire des études anciennes, à partir des mêmes hypothèses, et de les étendre aux grands corpus maintenant accessibles. Faudrait, bien sûr, réussir à automatiser la méthodologie et le répérage des indices textuels à l’aide de logiciels en intelligence artificielle. Que resterait-il de ces études anciennes une fois qu’on les aurait soumises à cette épreuve? Cela se fait souvent en science, en médecine, dans toutes les sciences expérimentales où les protocoles d’observation sont repris sur des échantillons plus vastes. Les conclusions confirment ou infirment souvent les premières. L’autre chose, bien sûr, est de modifier le protocole de recherche en les adaptant aux ressources des NTC pour les ré-appliquer au corpus premier.

D’autre part, c’est un point capital: la valeur du travail de Bakhtine, et de bien d’autres comme lui, est justement sa méthode, sa culture, ses connaissances encyclopédiques et « polygottes ». Les NTIC étendent à des dimensions infinies le corpus, et montrent la valeur irremplaçable de l’esprit et de l’intelligence du critique.
Paradoxalement, cette explosion du corpus interrogeable montre une déficience de la pensée. On pourrait dire que plus s’accroît l’accès aux sources documentaires, plus diminue la capacité intellectuelle de les étudier pour en faire jaillir le sens, autrement que par des données quantitatives. L’intelligence ne diminue pas en « quantité » absolue: ses limites, son incapacité (relative) à penser est inversement proportionnelle au corpus accessible.

Nous sommes donc en déficit d’intelligence.

Faudrait voir comment dans le domaine scientifique, la théorie a été obligée d’évoluer à cause de nouveaux outils de connaissances ou d’observation. Par exemple, le microscope électronique, en faisant reculer les limites du « visible », a forcé la physique, la chimie et la biologie à revoir leurs théories. En climatologie, où il y a maintenant des milliards de données presque quotidiennes, cela doit être la même chose: penser autrement la météo parce que les données sont différentes, et surtout extrêmement plus nombreuses.

La quantité et la variété du corpus demande l’assistance d’assistants artificiels et intelligents. Ils vont apparaître et doivent se développer sous la pression de ceux qui veulent connaître. Justement, que voulons-nous savoir d’une oeuvre littéraire et d’un auteur aujourd’hui que nous ne pouvions pas connaître auparavant? Ou encore mieux, que voulons nous connaître que nous n’avions même pas l’idée de connaître parce que l’éventuelle réponse, la « réponse virtuelle », était en dehors du connaissable, ou de ce que nous pouvions connaître avec les outils dont nous disposions? Il y a donc aussi un déficit de questions, ou une difficulté à poser d’autres questions, de nouvelles questions, pour forcer, encourager le développement des applications des NTIC.

Qu’est-ce qui est alors vraiment nouveau?

1) le format numérique permet de réunir toute la documentation qui, dispersée dans des centaines et des milliers de documents-papier, ne pouvait pas être vraiment regroupée, liée, reliée et associée pour créer un seul immense document, comme un ouvrage gigantesque de dizaines de chapitres, de tableaux, d’index, de définitions, etc. Ce réseau documentaire est inédit. L’oeuvre de Rabelais n’est pas reliée à sa critique, sauf parfois en notes en bas de page. Pour ce texte où chaque mot a fait l’objet de plusieurs gloses souvent importantes, aucun ouvrage imprimé ne rend compte de la totalité de la documentation ni des liens qui existent entre les différentes gloses.

2) la question centrale est sans doute à chercher de ce côté, de la manière d’organiser les réseaux documentaires dans des perspectives diachronique et synchronique. D’abord, en réalisant ces deux réseaux pour chaque élément de l’étude:
– biographie
– oeuvres – manuscrits
– correspondances
– critiques
– documentation diverses (bibliothèques, lectures, influences, contexte intellectuel…)
– chronologies multiples.

Pour la critique, cela prendrait la forme d’une bibliométrie exhaustive où on pourrait suivre chaque élément et point de vue de la critique tout au long de l’histoire de l’oeuvre. Par exemple, pour Ferron, on pourrait suivre la réception du « pays incertain » depuis 1962 à travers la critique, ou l’idée de Jean Marcel à savoir que « toute l’oeuvre de Ferron peut être placée sous le signe du conte ». Idée souvent reprise depuis plus de trente ans.
De la même manière, on pourrait faire une sorte d’étude de bibliométrie pour l’oeuvre de Ferron elle-même pour identifier la multitude des reprises textuelles ou thématiques que l’on trouve tout au long de ses écrits: d’un manuscrit, à une historiette, à un récit, à une lettre, à un autre manuscrit.

Une fois qu’on aura trouvé une manière d’exploiter la documentation numérique, il faudra inventer aussi comment représenter, publier les résultats trouvés. Une partie prendra toujours la forme de textes et d’études, peut-être la partie essentielle, mais il faudra aussi inventer des manières de publier-afficher-diffuser les résultats d’un type nouveau que permettent les NTIC. Il y a un spécialiste italien qui crée des graphiques assez originaux à partir de grands corpus sur la littérature du XIXe siècle. Par exemple, il a trouvé une façon de représenter l’évolution des techniques narratives de l’intrigue policière sous la forme d’une sorte d’arbre généalogique. Il a fait la même chose avec l’apparition du discours indirect et du discours indirect libre.

Pour Ferron, une étude linguistique intéressante serait d’étudier comment le jeune brébeuvois qui écrit des petits vers libertins « niaiseux » a-t-il pu s’émanciper de ce style appris pour, à la toute fin de sa carrière, près de cinquante ans plus tard, écrire avec le souffle de Gaspé Mattempa. Vadeboncoeur a écrit que la langue de Ferron marchait sur trois siècles: le Grand Siècle, le XIXe et le XXe. Peut-on le démontrer, l’illustrer ou l’infirmer? Sur le plan du lexique, de la grammaire, de la syntaxe? À quel corpus le comparer? Comme écart stylistique, mais dans quelle mesure le fait-il, lui qui a toujours souligné comment l’écrivain écrit avec la langue de tous?

History numeric Lab à l’université Concordia

Plusieurs projets en histoire orale à Concordia: Montréal, travail, droits humains…

Oral/écrit: y a-t-il vraiment des différences fondamentales pour concevoir une application pour l’un ou l’autre de ces deux modes de communications verbales?
– oral: un seul agent, celui qui parle, à un ou plusieurs mais généralement assez limité d’auditeurs-répondants;
– écrit: d’abord, l’écrit n’est pas l’imprimé auquel on le confond souvent: l’imprimé reste une branche de l’écrit; la correspondance est justement un exemple intéressant d’une communication écrit avec deux agents, ou quelques-uns.

Faut dire que l’écrit dans Internet modifie profondément ce qu’on pouvait définir précédemment comme le réseau d’échange de l’écrit-diffusé-imprimé. « Avant », pas d’écrit publié sans tout un réseau de production de l’écrit-imprimé: éditeur, périodiques, médias, professionnels de la publication. Dans Internet, aucun autre agent souvent que celui qui écrit, comme dans une lettre, ou dans la parole qui reste spontanée, immédiate. On pourrait distinguer les communications orales « montées », coupées, recomposées pour la tv ou la radio…

Bakthine avait réussi à proposer un modèle de l’échange verbal sans qu’il y ait pour lui vraiment une différence entre l’oral et l’écrit, deux modes d’échanges verbaux, selon lui. Peut-on formaliser sa théorie, en automatiser la reconnaissance: l’alternance des sujets parlants, la bivocalité, le polylinguisme et le plurilinguisme.
À partir d’un inventaire systématique du vocabulaire, des champs sémantiques de chaque terme, pourrait-on établir un parcours des contenus le long de la chaîne de communication. Suivre les marques du dialogisme, mais avec l’aide d’outils intelligents d’analyse linguistique?
On pourrait l’expérimenter sur un petit corpus « à la main », tenter de saisir la démarche de lecture « naturelle », puis tenter de la transcrire dans un langage conceptuel abstrait.
Est-ce même possible de distinguer automatiquement la dénotation de la connotation? Les différents sens ou nuances sémantiques d’un mot, d’une expression? Sans parler de l’ironie, des doubles sens, etc.

L’énormité du corpus numérique, ou plutôt le potentiel de recherche qu’il semble offrir, reste mystérieux. Comment l’aborder avec un projet aussi énorme et ambitieux que ce que représente le nombre de documents et de pages qu’il offre.

« Bakthine chez Google » (ou Wikipedia), un titre pour communication savante ou d’autres variantes: Les mots et les choses revu par Google,

Le centre des lettres

Au-delà d’une application pour les correspondances de l’Amérique française, quel pourrait-être le modèle d’une base de données pour n’importe quel corpus de lettres:
– de qui à qui?
– quel lieu, quelle date
– quoi? à quel sujet?

Chaque élément relié à d’autres informations.

Comment représenter les réseaux épistolaires?
– territoire/lieu/cartographie/géographie
– biographie/généalogie/dictionnaire
– les contenus, comme des réseaux de sens…
– prendre l’exemple de Grube et Ferron…

Échanger des lettres, c’est échanger des contenus:
– à partir de cartes des échanges de contenus, illustrer « l’intertextualité » comme un échange de contenu, à partir de la métaphore du téléphone arabe: j’écris A à X, qui écrit A+B à Y, qui écrit A+B+C à W… suivre ces échanges comme des modifications apportées à un texte de base. Identifier les fragments textuels de contenus envoyés et reçues (« il m’a écrit que… »), trouver les marques du discours rapporté, par exemple. Pourrait-on ainsi automatiser la reconnaissance du discours direct, indirect, indirect libre?
– ou reconnaître les marques linguistiques de l’oralité ou de la conversation (les marques de la fonction phatique du langage): les « tu sais », « je voulais te le dire… », « on m’a dit… », etc.
– ensuite, comparaison par langue, par genre (sexuel), par statut parental…
– concevoir des sortes d’arbres conversationnels, comme les arbres de Chomsky pour décrire les structures linguistiques, ou tout simplement des arbres généalogiques/génétiques

Le logiciel « TheBrain » permet d’établir ce genre de graphe.

Encore une fois, l’idée qui émerge est de mettre à la disposition du passé les moyens présent. Ré-écrire-diffuser les documents du passé dans les modes de diffusion contemporains des TIC: comme mettre les « Vies illustres » dans Facebook, ou même les Histoires de Thucydide