Les « Bibliothèques virtuelles humanistes » au Centre de la Renaissance de Tours
À l’heure où l’on parle d’immenses bibliothèques numériques, l’offre des Bibliothèques virtuelles humanistes de Tours apparaît bien modeste : pourtant, les ouvrages numérisés mis en ligne en avril 2007 représentent un bon exemple de recherche appliquée.
Abraham Bosse
Abraham Bosse Des ordres de colonnes en architecture et plusieurs autres dépendances d’icelle. Paris, 1664

Les deux cent douze documents mis en ligne font partie d’un programme mené par le Centre d’études supérieures de la Renaissance de l’université François- Rabelais de Tours (CESR) en collaboration avec l’Institut de recherche et d’histoire des textes (IRHT-CNRS). Depuis l’intégration récente du CESR au réseau des pôles associés de la BnF, le catalogue des Bibliothèques virtuelles humanistes (BVH) est accessible à partir de Gallica (décembre 2006),
grâce à un protocole OAI(1) commun. Cette collaboration a permis d’acquérir une expérience précieuse dans le domaine de l’interopérabilité des données.
Né en 2002, ce programme entend constituer une bibliothèque de documents de la Renaissance de la Région Centre, numérisés en mode image (jusqu’à 2 000 ouvrages) et un corpus de documents en mode texte (entre 200 et 500) rédigés ou édités pendant la période 1470-1620.
Ils concernent des imprimés et des manuscrits d’archives départementales et municipales de bibliothèques ou de fonds privés. La focalisation sur la Renaissance peut paraître étroite, mais elle est fondée sur la compétence d’un centre reconnu depuis 1956, qui a su associer philologie, étude des sources et interprétation de la première modernité. La section de l’humanisme de l’IRHT, de son côté, étudie les processus de transmission des savoirs de l’Antiquité à la Renaissance.
Le projet émane donc de chercheurs qui n’ont pas tous exactement la même demande : historiens, historiens de l’art, des littératures et des langues européennes, historiens des sciences, du droit, philosophes et philologues. Certains acceptent un texte modernisé, voire traduit, d’autres veulent un encodage très fin : tous espèrent pouvoir interroger de larges bases de données, de préférence librement et en ligne et avec récupération conviviale des résultats. Mais, quelques années d’expérience ont permis d’identifier d’autres types d’usagers : un public d’amateurs éclairés, beaucoup de scolaires et d’étudiants du monde entier, des éditeurs et d’innombrables créateurs de sites désirant profiter d’une documentation de qualité.
Les contenus portent aussi bien sur les sources classiques de l’humanisme que sur les traditions médiévales de l’Europe septentrionale et centrale, sur la Renaissance italienne, sur les textes utilitaires (documents d’archives, notamment) ou sur les chefs-d’œuvre.
Dans ce projet, les savoir-faire se concentrent sur la sélection, l’organisation des bases, le développement d’outils appropriés, grâce à l’indispensable collaboration entre les spécialistes des textes anciens (chercheurs et conservateurs), et les informaticiens.

Le processus de sélection
Les premières numérisations-tests effectuées pour le CESR sur ses propres ouvrages en 2000 avaient permis de mettre en ligne quelques trésors (Vésale, Colonna, Raban Maur).
En 2003, les premiers ouvrages numérisés dans le cadre des BVH étaient publiés (Tiers Livre de Rabelais, Tragiques d’Agrippa d’Aubigné), tandis que se mettait en place la sélection dans les bibliothèques régionales,
où environ 50 000 ouvrages relèvent de cette période. Il importait de réaliser, parallèlement aux travaux techniques, l’inventaire des ressources disponibles, pour établir une liste rationnelle des priorités. L’absence de catalogues informatisés dans certaines bibliothèques a conduit à effectuer une description minimale des ouvrages et à constituer un répertoire de 8 000 notices dans lequel les partenaires vont puiser lors des différentes phases de numérisation. Sans le soutien du conseil régional du Centre, du CNRS et du ministère de la Recherche, du ministère de la Culture et de l’université François-Rabelais de Tours, cette opération n’aurait pu avoir lieu.
De nouvelles collaborations ont aussi été établies avec la médiathèque et la bibliothèque universitaire de Poitiers, la bibliothèque municipale de Lyon, BIUM, et, bientôt, la bibliothèque municipale de Troyes.
Les conservateurs responsables de Gallica ont apporté leur expérience à l’élaboration du programme. Le CESR est ainsi un pôle « Renaissance »,
non seulement pour éviter les doublons, mais aussi pour participer à l’évolution des techniques de numérisation du document patrimonial. Il aura fallu presque deux ans, en l’absence de précédents pour élaborer une convention précisant les conditions juridiques de la collaboration avec l’université et le CNRS, notamment en ce qui concerne la propriété des images et la nature de leur diffusion, pour préserver le principe de publication ouverte et gratuite et la protection des droits. La collaboration pourra s’étendre à d’autres partenaires à l’étranger.

Optimisation des données
Le CESR et l’RHT se consacrent à l’accroissement des bases et à la modélisation des contenus. L’objectif est d’offrir à la fois mode texte et mode image de façon organisée, à partir de métadonnées associées au catalogue. Le mode image dominera, mais sera traité par une indexation fine portant sur les éléments principaux, les sommaires et un thésaurus fondé sur une annotation guidée.
Le programme inclut l’application d’un OCR (reconnaissance optique de caractères) spécifique permettant l’accès aux données textuelles, brutes et non révisées à la manière d’Europeana, ou en affichage du mode texte intégral.
Ce fonds patrimonial diversifié, qui se situe entre la mise en ligne très élaborée des manuscrits antiques et médiévaux, et la diffusion en masse des fonds modernes, offre, avec ses possibilités d’automatisation et de traitement,
un exemple de numérisation ciblée et concertée, complémentaire des objectifs européens de la BnF.

Marie-Luce Demonet (CESR), Marie-Élisabeth Boutroue (IRHT-CNRS), Stéphan Geonget (CESR), Jean-Yves Ramel (université François-Rabelais), Toshinori Uetani et Sébastien Busson (CNRS, CESR)





(1) Sous ce terme se cache la possibilité, en interrogeant le catalogue d’une bibliothèque numérique, de trouver les documents numérisés qui la composent et, par ricochet, grâce à un « moissonnage » des notices bibliographiques, les documents numérisés par le partenaire.
 
Evolutions actuelles

L’évolution rapide du contexte scientifique a conduit à rechercher l’optimisation de l’indexation, de la transcription assistée et de l’interrogation en ligne, par les logiciels AGORA (structuration de la page) et RETRO (reconnaissance de caractères).
Le premier, développé par le LI-RFAI (laboratoire d’informatique de Tours), qui se situe dans la continuité des recherches effectuées par le LIRIS (INSA-Lyon) pour le programme DEBORA (H. Emptoz et F. Lebourgeois), permet de séparer automatiquement, avec des scénarios modifiables par l’utilisateur, le texte et les éléments iconographiques,
afin de les soumettre à des traitements isolés.
Les travaux portant sur la similarité, l’extraction et l’indexation automatique des éléments graphiques se poursuivent avec les équipes d’informatique participant au programme ANR « Navidomass », dont le CESR est partenaire (porteur de projet : J.-M. Ogier, Université de La Rochelle).
Le second logiciel, RETRO (REconnaissance et TRanscription par Ordinateur),
a une capacité de reconnaissance brute actuelle qui varie entre 94 % et 98 %,
en attendant les perfectionnements espérés du côté du traitement des chaînes de caractères (association d’un corpus de graphies du français de la Renaissance à cet OCR).
Ces transcriptions « patrimoniales » ou « neutres » (ni diplomatiques,
ni modernisées) sont effectuées sur les documents originaux, libres de droits et enrichies d’information en XML/TEI (noms propres, mots-clés, etc.).
La base actuelle de textes, Epistemon (18 textes, 15 en cours de révision) est destinée à entrer, à très court terme, dans l’ensemble des Bibliothèques virtuelles humanistes.

Numérisation partagée
Autour de la Révolution française



L’université de Stanford (USA) et la BnF travaillent actuellement à un programme de numérisation partagée autour de la Révolution française. Dans ce dispositif, Stanford procéderait à la numérisation en mode image et en mode texte des Archives parlementaires et du Moniteur universel ; la BnF compléterait cette offre en numérisant une sélection de 15 000 documents iconographiques choisis parmi ses collections d’estampes, de cartes ou de médailles.
Ce programme serait ensuite enrichi par la numérisation d’une sélection de documents imprimés et de deux des fonds les plus emblématiques du département des Estampes et de la photographie : la collection des 14 000 estampes historiques léguées à la BnF par Michel Hennin et celle des 28 000 pièces rassemblées par Eugène et Carl de Vinck, couvrant près d’un siècle d’histoire de France, du règne de Louis XVI aux dernières convulsions de la Commune.
À cet ensemble s’ajoutera par la suite la numérisation des archives de la Bastille, actuellement en cours de restauration. Ce projet ambitieux devrait donner lieu à la mise en ligne des premiers documents au cours de l’année 2008 et contribuer à transformer radicalement les études révolutionnaires par l’ampleur quantitative de la documentation mise à disposition des internautes. Il fondera aussi un partenariat scientifique qui pourra se traduire également par des opérations de valorisation, colloques ou expositions communes vivement souhaitées par les deux institutions.