Chronologie des commerces du boulevard Saint-Laurent

Chronologie des Nuits de la Main:

var timeline_config = {font: ‘Merriweather-NewsCycle’,maptype: ‘toner’,source: ‘https://docs.google.com/spreadsheet/pub?key=0AnsH41xIGs6xdEh6VjNuUTFJblFCUFZndWU1bkRuMXc&output=html’}http://veritetimeline.appspot.com/latest/timeline-embed.js https://docs.google.com/spreadsheet/pub?key=0AnsH41xIGs6xdEh6VjNuUTFJblFCUFZndWU1bkRuMXc&output=html https://docs.google.com/spreadsheet/pub?key=0AnsH41xIGs6xdE4zWE16Wk1nNkJEbDhxSEQ0SDZydEE&output=html

De l’imprimé aux données ouvertes

Avec ma formation en lettres, je suis venu lentement à l’univers des données par l’établissement d’un index des noms propres dans les œuvres de l’écrivain Jacques Ferron : 12 000 noms, 1 200 textes. J’ai donc entré les 42 000 occurrences, une à la fois, sur mon premier ordi à écran monochrome (sans souris!) et le logiciel DBASE III+. C’était jusque-là un index ordinaire.
Quand j’ai classé les noms dans 20 catégories et que je les ai liées aux données bibliographiques (date, éditeur, collection), j’ai réalisé que je venais de construire une base de données. Au fil des ans avec des amis, j’ai ajouté des données sur : la correspondance, la critique, les manuscrits, la bibliothèque de Ferron, puis des liens internet, etc. J’ai dû numériser des livres, transférer une bibliographie dans une base de données (je vous passe les détails!), créer des relations entre les différents sous-ensembles de données. Voilà 2-3 ans, j’ai appris que je faisais depuis 15 ans de l’extraction d’entitées nommées! Ça donne le module de « Recherche globale » de l’HyperFerron que vous pouvez consulter ici (l’interface de recherche est bien vieilli).
Le passage des informations imprimées à la base de données numérique m’a permis de consulter autrement l’œuvre de Ferron, de me poser de nouvelles questions, de découvrir de nombreux aspects dont je ne pouvais même pas soupçonner l’existence. Pour moi, les données ouvertes, c’est d’abord ça : la séparation des données de leur support fixe sur papier. Tout devient malléable, ouvert aux échanges, aux tris multiples, à des modes de diffusion et de visualisations variées. Je suis donc venu aux données ouvertes par la pratique.
Peu à peu, j’ai essayé d’utiliser des outils et des plateformes en ligne pour mieux exploiter mes données.
1) 2 000 noms de lieux mentionnés par Ferron : a) enregistrer le fichier de données en csv, b) géocoder (ajouter longitude et latitude); 3) importer dans Google Doc; 4) utiliser le plug-in conçu pour les géolocaliser sur une carte! Avec 1 600 noms, le résultat est un peu long à s’afficher, mais ça marche :
2) places de spectacles du boulevard Saint-Laurent : a) numérisation du répertoire A.-G. Bourasse et J.-M. Larrue b) ocr, Word, base de données, ajout de catégorie c) fichier csv, géocodage, importation dans GoogleFusion Tables
d) plug-in pour créer des fichiers kzm pour l’afficher dans Google Earth.
La transformation des informations imprimées en données numériques transforment complètement la vision et la compréhension que l’on pouvait avoir de ce répertoire. On apprécie encore mieux le travail minutieux des deux historiens.
Pour continuer ce projet? Ajouter aux lieux de spectacles des informations sur les artistes, des photos, des extraits sonores, visuels, des extraits de la presse, de la radio, de la littérature, les commentaires des historiens, et laisser les gens ajouter leur propres souvenirs et documents qu’ils ont sur la Main de Montréal.

Ma bibliothèque portative

Dans le cadre du Colloque scientifique international sur les TIC en éducation, je présenterai une communication sur une éventuelle « bibliothèque personnelle portative » qui pourrait accompagner l’élève, de la maternelle à l’université (!). En voici le résumé:

La bibliothèque d’un établissement scolaire est aujourd’hui une seule des innombrables sources d’information, de documentation, de recherche et de lecture que professeurs, élèves et parents consultent pour enseigner et apprendre. Les manuels et les documents pédagogiques sont eux aussi entourés d’un univers de savoirs et de connaissances presque infini. De nouveaux supports et applications changent profondément le mode d’accès à ces ressources, leur utilisation en classe, que ce soit par le professeur ou les élèves.
À partir d’exemples tirés du domaine de l’histoire en particulier, « Ma bibliothèque portative » propose une réflexion sur la sélection, l’organisation et l’utilisation des ressources documentaires numériques dans un cadre pédagogique. C’est aussi la proposition d’une plateforme évolutive pour permettre aux élèves de se constituer une bibliothèque de connaissances adaptée à leur niveau d’études. Ce projet s’inscrit dans une recherche sur les outils de curation de contenu, de lecture, d’annotation, de recherche et d’édition collaboratives.

Je vais publier sur ce blogue mes réflexions à ce sujet. Si vous avez des idées, des commentaires, des suggestions, ajoutez-les, je les lirai avec plaisir.

Temps, archives et Internet: une histoire hors du temps

Quand viendra le temps d’indexer un jour les milliards de documents « nés numériques », les archivistes, historiens et bibliothécaires auront un problème nouveau: trouver la date de parution-publication de chacun des documents, des textes, des tweets, des commentaires, des textos.

Au minimum, on peut trouver la date de création du site où paraît le document la première fois. Trouver la date de parution du document lui-même est déjà plus compliqué, même en supposant que le « document » n’ait été modifié qu’une seule fois. Et d’ailleurs, question fondamentale: qu’est-ce qu’un document dans Internet? Si même le concept de « document » est toujours valable.

Autre chose, quel document n’aura jamais changé de « lieu » de publication, de site? Il peut très bien avoir paru sur le site X en 1998, avoir été débranché pendant quelques années et avoir été republié plusieurs années plus tard.

Internet, c’est aussi le règne de la duplication des documents, tous peuvent être reproduits un très grand nombre de fois sur autant de sites, même à l’intérieur du même site. Pensons aux images ou illustrations, sur combien de sites une photo peut-elle être publiée? Des milliers, des millions…

C’est comme s’il y avait une confusion, un mélange, entre une édition particulière d’un document et les exemplaires de ce tirage. Dans internet, c’est comme s’il y avait autant d’édition d’un titre qu’il y a d’exemplaires! En fait, on pourrait donner aux sites internet le statut de bibliothèques virtuelles, soit un lieu où sont regroupés un nombre X de « documents », où ils sont conservés temporairement ou pour une longue durée. Ici, l’éditeur du document, ou plutôt l’entité responsable de la création du document, ne correspond pas au site lui-même.

Par exemple, que sont, sur le plan de la bibliographie, Youtube, Flickr, Facebook, Google+, WordPress, Twitter? Tous ces sites où les usagers publient et diffusent des documents: des éditeurs? Oui, car ils créent des interfaces particuliers pour la publication-affichage; non, car ils ne font pas de choix ni de sélection. Ils ne possèdent pas les droits d’auteur sur les oeuvres et les informations qu’ils diffusent, mais font signer un contrat où chaque abonné leur cède des droits quasi universels et éternels (non-exclusifs!, c’est tout ce qu’ils laissent à leurs abonnés.).

Comment étudier la diffusion d’une idée, d’un document, d’une image dans Internet? Il n’y a comme pas de points fixes… Comment établir une chronologie? Comment suivre la diffusion d’un document et même d’un site? Plusieurs sites ou pages changent de nom, de serveur, de fournisseurs de services Internet? On ne connaît même pas les anciennes adresses: comment pourra-t-on faire une histoire d’Internet sans ce genre d’informations?

Il faudrait créer une sorte de cadastre général du territoire numérique, divisé comme un espace géographique, avec des villes, des rues, des villages abandonnés, fermés, disparus… Il doit y avoir déjà de grandes ruines numériques: des sites complètement abandonnés depuis des années et qui pourraient le demeurer encore des années et des années.

Sur les sites de pages personnelles, comme celle de Videotron ou Sympatico, par exemple, ou les anciens Wanadoo ou Geocities. Il doit y en avoir des gigantesques aux États-Unis. Sont-ils encore en ligne? Seulement débranchés mais conservés sur des zones de serveurs oubliés, ou vraiment complètement supprimés d’Internet?

Google aurait une politique de conservation des historiques de 1 an et demi. Mais sa « mémoire cache », Google la garde combien de temps? Est-ce que chaque capture d’écran des pages « écrase » la précédente, ou s’ajoute-t-elle à une archive de chaque site? C’est un peu ce que fait la WayBack Machine…

Cette situation ressemble beaucoup à la tradition orale: origine obscure, non datée, créé par on ne sait qui, texte-document transformé tranquillement, par de petites variations qui, au bout de plusieurs transformations, devient souvent peu reconnaissable. Phénomène proche aussi de la dispersion d’une rumeur, tout se transmet par « viralité » ou par communication-publicité virale.

Dans le cadre des méthodologies employées en histoire en ce moment, Internet n’est pas indexable ni pensable ni archivable (ou presque). Quand on archive-copie une page ou un site, c’est la date de l’archivage qui est ajoutée à l’archivage et non pas sa date de « mise en ligne ». Et dès que quelqu’un affiche de l’information sur un écran, une autre date de « mise en ligne » s’ajoute ou efface la première.

C’est toute la notion de chronologie qui fout le camp! Ce n’est pas une mince « disparition » pour l’histoire.

Comment établir une chronologie d’Internet?

On peut établir un chronologie de l’imprimé, mais d’Internet?
La mise à jour continuelle des informations et des documents rend la chronologie presque impossible à établir. On ne peut tout même pas conserver les archives de chaque micro-changement que l’on peut faire sur un document numérique. Que devrons-nous faire pour archiver la page d’accueil d’un site? Archiver une saisie d’écran à chaque fois qu’il y a la moindre modification?

Wikipedia conserve apparemment toutes les modifications effectuées sur toutes les pages. Faudra bien élaguer tout ça un jour! Dans 5 ans, qu’est-ce que cela sera? Un immense fouillis. D’abord, comment distinguer entre une modification tout à fait mineure d’un ajout ou d’un développement essentiel? Les changements de contenus (et même là, il y a plusieurs niveaux de modifications possibles), des changements substantiels. Malgré tout l’effort des milliers de participants, les connaissances de Wikipedia vont aussi devenir obsolètes. Par exemple, la listes des liens vers d’autres articles, comment sera-t-elle mise à jour au fil et à mesure de l’évolution de Wikipedia? Faudrait avoir une encyclopédie déjà conçue qui indiquerait que le nouvel article X doit être ajouté à la liste des liens de l’article Y.

Aussi, puisque les articles sont rédigés par des individus plus ou moins associés, la mise à jour sera forcément inégale. Telle information ajoutée dans un article, par exemple, la mort de X, ne sera pas nécessairement ajoutée à un autre, ce qui fait que le nouveau mort X sera toujours vivant ailleurs dans Wikipedia. Il y aura donc différentes temporalité à l’intérieur même de Wikipedia. Une nouvelle édition de la Britannica ou d’Universalis proposait une mise à jour complète de l’ensemble de l’encyclopédie. Un bel effort même si, à la publication, elle était déjà forcément un peu décalée, surtout pour les informations factuelles.

Wikipedia deviendra de plus en plus une encyclopédie a-synchrone, où les savoirs et les disciplines s’écarteront d’un ensemble cohérent pour offrir de plus en plus de informations contradictoires, peut-être. Il y a le problème de l’exactitude de l’article en lui-même, mais il y a le problème plus fondamental de la cohérence de la totalité des informations.

Ça rejoint la question des « frontières du texte » devenues floues, incertaines qu’abordent souvent les spécialistes de textologies numériques.
Tout est brouillon, tout peut avoir le statut de brouillon, rien n’est clos, fermé, pour toujours.

Données ouvertes SUR Montréal

Il y a des centaines de milliers, des millions de données et d’informations SUR Montréal en plus de celles que possèdent la Ville.
Voici quelques autres source de données publiques ou utilisables:

Geoliqi a créé une application pour localiser tous les lieux dans les articles de Wikipédia

C’est fait à partir de l’API d’Infochimps pour géolocaliser toutes les données géographiques contenus dans les articles de Wikipedia

– concevoir une application qui lie ces données aux catalogue des bibliothèques de la Ville (ou d’autres base de données pour lier les articles de Wikipedia à la documentation pour les géo-positionner sur une carte interactive. En cliquant sur Place Ville-Marie, Outremont, rue Saint-Laurent… on pourrait obtenir la documentation sur ce lieu. Même application avec une timeline montréalaise: lier la documentation aux et aux événements…

– Le Dictionnaire biographique du Canada contient des infos sur des milliers de Montréal

– Internet Archives permet de télécharger facilement la totalité des données bibliographiques des documents qui contiennent « Montréal » (en fichier csv)

– Google Books: l’API devrait rendre possible l’exploitation des documents liés à Montréal

– Commission de toponymie du Québec (Topos): chercher tous les toponymes montréalais et créer des applications ou une carte interactive en affichant la notice sur l’histoire du lieu; ajouter des fonctionnalités Web 2.) pour que les citoyens puissent ajouter leur propre souvenirs ou documents sur les lieux montréalais.

– Inventaire des lieux de mémoie de la Nouvelle-France: extraire tous les lieux commémoratifs de l’île de Montréal, les géo-positionner

Liste à poursuivre

Recherche dans les données des bibliothèques de Montréal

Le 19 novembre 2011 [ à l’occasion du Hackhaton de données ouvertes] , la Ville de Montréal a rendu accessible des données des catalogues de ses 43 bibliothèques. Le fichier contient des informations sur plus de 4,4 millions. En plus des données bibliographiques, certaines données sur les prêts et la circulation des documents devraient être aussi accessibles.

Voici quelques orientations et idées pour exploiter et visualiser ces données.

Tableaux-synthèses de référence à créer pour:

– global pour l’ensemble des bibliothèques : statistiques variés, dynamiques
– bibliothèque: type de doc, catégorie de sujet, etc.
– auteur et éditeur: nombre de titres, prêts
– titres: données globales, par bibliothèque…

Pour l’analyse des pratiques de lecture et culturelles des Montréalais:

1) Prêts des documents (qu’est-ce que les gens ont lu, regardé, écouté)
– total par TYPE de documents (livres, films, musique) et par SUJETS (à partir des mots-clés); outil pour approfondir la recherche par genre de documents par TYPE (romans, documentaires, thriller, etc.), par sous-catégorie de SUJET; par âge ou sexe (si disponible); par succursale

– par DATE (d’édition); par DATE du SUJET ou du TITRE (si disponible: chercher les caractères numériques (ANNÉE) dans le champ SUJET ou TITRE, ex. « 1900 »

– en valeur absolue; ET en pourcentage, pondéré en fonction du % de type de documents, sujets dans le catalogue globale (ex.: prêt de 40% des films, 25% des livres, 60 des films)

– nombre de prêts par documents uniques, avec une échelle X documents prêtés + de 100 fois, 75 -99 fois, 0 fois; par succursale (pour établir un profil des SUCCURSALES)

– autres possibilités: par LANGUE du documents; origine (Québec – France, autres)

– s’il y a des données sur les ACQUISITIONS: visualiser les acquisions par ANNÉE, TYPE, SUJET, succursale (pour suivre l’évolution de la politique d’acquisition)

2) Nouvelles voies de la recherche sur la documentation  et la visualisation des résultats

Les outils de recherche des bibliothèques sont souvent banals: de longue liste de résultats. Cherchez à inventer de nouveaux modes de visualisations pour la recherche par CONENU et SUJET

– total des documents par TYPE, SUJETS, ANNÉE (absolu/pourcentage pondéré); par succursale

– inventer un mode de navigation dans les SUJETS, sans moteur de recherche, uniquement visuellement, par catégorie et sous-catégorie (voir la visualisation de 3 millions d’articles de Wikipedia avec Sylverlight)

– SUR Montréal

– chercher « Montréal » dans tous les champs (environ 32 000 résultats): analyser les SUJETS, et les visualiser dans différents modes: arbre sémantique, hiérarchique, chronologique

– extraires les entités nommées montréalaises (lieux, quartier, personnages historiques, événements, etc.) et les géo-positionnner sur une carte interactive; les positionner dans des chronologies générale et thématiques

Avec l’extraction et la classification des entitées nommées (dans un thésaurus, une ontologie sémantique), les possibilités deviennent extrêmement nombreuses


Ces sujets m’intéressent depuis longtemps. Je vous invite à me contacter pour en discuter.

Luc Gauvreau
lgovro@gmail.com




Une Grande Bibliothèque ouverte pour et SUR Montréal

Dans le mouvement des données ouvertes, celui des villes et des gouvernement ouverts, les informations historiques ou culturelles, contenues dans les archives de l’imprimé et les bibliothèques font souvent l’objet de peu de discussion. Les applications pratiques pour répondre aux citoyens en « real time » semblent être les plus développées, susciter le plus grand intérêt. Pourtant, les administrations municipales ne sont pas que des infrastructures matérielles, mais aussi des lieux de culture. Les bibliothèques, musées, festivals, théâtres, cinémas, parcs et jardins font aussi partie des services essentiels qu’une ville doit offrir à ses citoyens. Il faut donc aussi ouvrir les données et les informations des institutions culturelles pour que Montréal devienne une vraie ville ouverte.

Dans ce domaine, ce sont les programmes de numérisation dont on parle le plus, ou des projets en arts numériques. En ce moment, il y a des centaines de milliers pages et d’images, sans doute quelques millions, déjà en ligne, reliées à Montréal et son histoire. Cette documentation est-elle pour autant vraiment accessible, diffusée, lue?

Les ressources de données et d’informations contenues dans ces millions pages sont généralements peu consultées, sous utilisées par rapport aux multiples usages que l’ont peut en faire aujourd’hui. Les sites institutionnels dans lesquels on les consulte sont rarement autre chose qu’un entrepôt de fichiers pdf ou jpg que l’on trouve à partir d’un catalogue en ligne élémentaire, avec peu ou pas de fonctionnalités du Web 2.0. Comme si après la numérisation, il ne restait plus rien à faire. Au contraire, le vrai travail de recherche et d’innovation ne fait que commencer. On doit plutôt considérer cela comme un nouveau territoire de données à exploiter. Cela exige d’en refaire l’inventaire, l’indexation, la classification avec les outils d’extraction, d’analyse et de visualisation que nous possédons aujourd’hui.

Heureusement, il y a parfois de belle initiative. Samedi, le 19 novembre, au Hackhaton, la Ville de Montréal va ouvrir le catalogue de ses 43 bibliothèques, ainsi que des données sur la circulation des documents. C’est une excellente nouvelle! Pour étudier les pratiques culturelle des Montréalais, pour créer toutes sortes de visualisations des collections, pour intégrer les activités des abonnés dans leurs réseaux sociaux, pour explorer la documentation sur Montréal de mille façons, c’est vraiment une très stimulante initiative. C’est une porte ouverte sur d’autres manières de concevoir l’accessibilité aux bibliothèques.

En ce moment, les documents et les informations SUR Montréal sont dispersés dans plusieurs institutions: archives et services de la Ville, bibliothèques nationales (Québec, Canada), bases de données gouvernementales, centres d’archives, sociétés d’histoires, musées (McCord), etc. Avec l’ouverture des données et l’interopérabilité croissant des systèmes de gestion des bibliothèques, les millions de pages « montréalaises » déjà numérisées par Google Books, BAnQ, Internet Archives, Notre mémoire en ligne, il est maintenant possible de regrouper toute cette documentation dans une seule base de données. Tous les documents, données et informations du domaine public pourraient être accessibles à travers un API pour créer la Grande Bibliothèque Ouverte Numérique de Montréal. On peut aussi imaginer de nouvelles bibliothèques pour réunir « virtuellement » toute l’information disponible par arrondissement, quartier, lieu, événement.

– participation de BAnQ au mouvement de l’Open bibliographic data: libre accès aux données et au fichier autorité
– partage de la documentation (données et fichiers numérisés) sur Montréal avec la Ville, d’autres institutions, les citoyens
– s’associer à la communauté de développeurs pour accroitre la diffusion de la culture québécoise et de l’information sur Montréal
– initier un large débat sur l’utilisation des oeuvres et des documents du domaine public, par le milieu scolaire, les éditeurs, les développeurs, les citoyens
– accueillir un prochain Hackhaton dans le grand hall de la Bibliothèque pour inventer de nouvelles façons de lire, d’écouter, d’organiser l’information historique et culturelle SUR Montréal.

Les élections ont lieu du 22 au 27 novembre 2011, en ligne, sur le site de BAnQ. Pour plus d’informations et voter, visiter le site internet:

Je vous remercie de votre appui,

Luc Gauvreau

Élection au CA de BANQ

J’ai posé ma candidature pour représenter les usagers de l’île de Montréal au conseil d’administration de Bibliothèque et Archives nationales du Québec. Quinze autres personnes ont posé leur candidature…

J’aimerais compter sur votre appui.

Amateur de livres et de bibliothèques depuis l’école primaire, j’aimerais mettre mon expérience aux services des abonnés montréalais de BAnQ pour en faire une institution encore plus accessible, mieux branchée sur les ressources du numérique. Depuis plus de 20 ans, j’ai utilisé tous les services des bibliothèques, des microfilms aux bases de données, et j’ai consulté toutes les collections, des cartes postales aux archives privées. Je m’intéresse maintenant aux mutations de l’écrit et de l’imprimé vers le numérique.

Pour lire la suite de ma présentation, je vous invite à la consulter sur le site de BAnQ.

Pour avoir le droit de vote, il faut: habiter sur l’île de Montréal, avoir
18 ans et plus, être abonné à BAnQ.

Le scrutin électronique aura lieu du 22 novembre à 10 h au 27 novembre à 17 h.

Merci de faire circuler cette information parmi vos amis, vos réseaux sociaux, vos contacts.

Je vous remercie de votre soutien,

Luc Gauvreau