History numeric Lab à l’université Concordia

Plusieurs projets en histoire orale à Concordia: Montréal, travail, droits humains…

Oral/écrit: y a-t-il vraiment des différences fondamentales pour concevoir une application pour l’un ou l’autre de ces deux modes de communications verbales?
– oral: un seul agent, celui qui parle, à un ou plusieurs mais généralement assez limité d’auditeurs-répondants;
– écrit: d’abord, l’écrit n’est pas l’imprimé auquel on le confond souvent: l’imprimé reste une branche de l’écrit; la correspondance est justement un exemple intéressant d’une communication écrit avec deux agents, ou quelques-uns.

Faut dire que l’écrit dans Internet modifie profondément ce qu’on pouvait définir précédemment comme le réseau d’échange de l’écrit-diffusé-imprimé. « Avant », pas d’écrit publié sans tout un réseau de production de l’écrit-imprimé: éditeur, périodiques, médias, professionnels de la publication. Dans Internet, aucun autre agent souvent que celui qui écrit, comme dans une lettre, ou dans la parole qui reste spontanée, immédiate. On pourrait distinguer les communications orales « montées », coupées, recomposées pour la tv ou la radio…

Bakthine avait réussi à proposer un modèle de l’échange verbal sans qu’il y ait pour lui vraiment une différence entre l’oral et l’écrit, deux modes d’échanges verbaux, selon lui. Peut-on formaliser sa théorie, en automatiser la reconnaissance: l’alternance des sujets parlants, la bivocalité, le polylinguisme et le plurilinguisme.
À partir d’un inventaire systématique du vocabulaire, des champs sémantiques de chaque terme, pourrait-on établir un parcours des contenus le long de la chaîne de communication. Suivre les marques du dialogisme, mais avec l’aide d’outils intelligents d’analyse linguistique?
On pourrait l’expérimenter sur un petit corpus « à la main », tenter de saisir la démarche de lecture « naturelle », puis tenter de la transcrire dans un langage conceptuel abstrait.
Est-ce même possible de distinguer automatiquement la dénotation de la connotation? Les différents sens ou nuances sémantiques d’un mot, d’une expression? Sans parler de l’ironie, des doubles sens, etc.

L’énormité du corpus numérique, ou plutôt le potentiel de recherche qu’il semble offrir, reste mystérieux. Comment l’aborder avec un projet aussi énorme et ambitieux que ce que représente le nombre de documents et de pages qu’il offre.

« Bakthine chez Google » (ou Wikipedia), un titre pour communication savante ou d’autres variantes: Les mots et les choses revu par Google,