Abraham Bosse Des ordres de
colonnes en
architecture et
plusieurs autres
dépendances
d’icelle.
Paris, 1664 |
Les deux cent douze documents mis
en ligne font partie d’un programme
mené par le Centre d’études supérieures
de la Renaissance de l’université François-
Rabelais de Tours (CESR) en collaboration
avec l’Institut de recherche et
d’histoire des textes (IRHT-CNRS).
Depuis l’intégration récente du CESR
au réseau des pôles associés de la BnF, le
catalogue des Bibliothèques virtuelles
humanistes (BVH) est accessible à partir
de Gallica (décembre 2006),
grâce à
un protocole OAI(1) commun. Cette collaboration
a permis d’acquérir une expérience
précieuse dans le domaine de l’interopérabilité
des données.
Né en 2002, ce programme entend
constituer une bibliothèque de documents
de la Renaissance de la Région
Centre, numérisés en mode image (jusqu’à
2 000 ouvrages) et un corpus de
documents en mode texte (entre 200 et
500) rédigés ou édités pendant la période
1470-1620.
Ils concernent des imprimés
et des manuscrits d’archives départementales
et municipales de bibliothèques
ou de fonds privés. La focalisation
sur la Renaissance peut paraître
étroite, mais elle est fondée sur la compétence
d’un centre reconnu depuis
1956, qui a su associer philologie, étude
des sources et interprétation de la première
modernité. La section de l’humanisme
de l’IRHT, de son côté, étudie les
processus de transmission des savoirs de
l’Antiquité à la Renaissance.
Le projet
émane donc de chercheurs qui n’ont pas
tous exactement la même demande : historiens,
historiens de l’art, des littératures
et des langues européennes, historiens
des sciences, du droit, philosophes et philologues.
Certains acceptent un texte
modernisé, voire traduit, d’autres veulent
un encodage très fin : tous espèrent
pouvoir interroger de larges bases de
données, de préférence librement et en
ligne et avec récupération conviviale des
résultats. Mais, quelques années d’expérience
ont permis d’identifier d’autres
types d’usagers : un public d’amateurs
éclairés, beaucoup de scolaires et d’étudiants
du monde entier, des éditeurs et
d’innombrables créateurs de sites désirant
profiter d’une documentation de
qualité.
Les contenus portent aussi bien
sur les sources classiques de l’humanisme
que sur les traditions médiévales de l’Europe
septentrionale et centrale, sur la
Renaissance italienne, sur les textes utilitaires
(documents d’archives, notamment)
ou sur les chefs-d’œuvre.
Dans ce
projet, les savoir-faire se concentrent sur
la sélection, l’organisation des bases, le
développement d’outils appropriés, grâce
à l’indispensable collaboration entre les
spécialistes des textes anciens (chercheurs
et conservateurs), et les informaticiens.
Le processus de sélection
Les premières numérisations-tests effectuées
pour le CESR sur ses propres
ouvrages en 2000 avaient permis de
mettre en ligne quelques trésors (Vésale,
Colonna, Raban Maur).
En 2003, les
premiers ouvrages numérisés dans le
cadre des BVH étaient publiés (Tiers
Livre de Rabelais, Tragiques d’Agrippa
d’Aubigné), tandis que se mettait en
place la sélection dans les bibliothèques
régionales,
où environ 50 000 ouvrages
relèvent de cette période. Il importait de
réaliser, parallèlement aux travaux techniques,
l’inventaire des ressources disponibles,
pour établir une liste rationnelle
des priorités. L’absence de catalogues
informatisés dans certaines bibliothèques
a conduit à effectuer une description
minimale des ouvrages et à
constituer un répertoire de 8 000 notices
dans lequel les partenaires vont puiser
lors des différentes phases de numérisation.
Sans le soutien du conseil régional du Centre, du CNRS et du ministère de
la Recherche, du ministère de la Culture
et de l’université François-Rabelais de
Tours, cette opération n’aurait pu avoir
lieu.
De nouvelles collaborations ont
aussi été établies avec la médiathèque et
la bibliothèque universitaire de Poitiers,
la bibliothèque municipale de Lyon,
BIUM, et, bientôt, la bibliothèque municipale
de Troyes.
Les conservateurs responsables
de Gallica ont apporté leur
expérience à l’élaboration du programme.
Le CESR est ainsi un pôle « Renaissance
»,
non seulement pour éviter les
doublons, mais aussi pour participer à
l’évolution des techniques de numérisation
du document patrimonial.
Il aura fallu presque deux ans, en l’absence
de précédents pour élaborer une
convention précisant les conditions juridiques
de la collaboration avec l’université
et le CNRS, notamment en ce qui
concerne la propriété des images et la
nature de leur diffusion, pour préserver le
principe de publication ouverte et gratuite
et la protection des droits. La collaboration
pourra s’étendre à d’autres
partenaires à l’étranger.
Optimisation des données
Le CESR et l’RHT se consacrent à l’accroissement
des bases et à la modélisation
des contenus. L’objectif est d’offrir
à la fois mode texte et mode image de
façon organisée, à partir de métadonnées associées au catalogue. Le mode image
dominera, mais sera traité par une
indexation fine portant sur les éléments
principaux, les sommaires et un thésaurus
fondé sur une annotation guidée.
Le
programme inclut l’application d’un
OCR (reconnaissance optique de caractères)
spécifique permettant l’accès aux
données textuelles, brutes et non révisées
à la manière d’Europeana, ou en affichage
du mode texte intégral.
Ce fonds patrimonial diversifié, qui se
situe entre la mise en ligne très élaborée
des manuscrits antiques et médiévaux,
et la diffusion en masse des fonds
modernes, offre, avec ses possibilités
d’automatisation et de traitement,
un
exemple de numérisation ciblée et
concertée, complémentaire des objectifs
européens de la BnF.
Marie-Luce Demonet (CESR), Marie-Élisabeth Boutroue (IRHT-CNRS), Stéphan Geonget (CESR), Jean-Yves Ramel (université François-Rabelais), Toshinori Uetani et Sébastien Busson (CNRS, CESR) |
(1) Sous ce terme se cache la possibilité, en
interrogeant le catalogue d’une bibliothèque
numérique, de trouver les documents numérisés
qui la composent et, par ricochet, grâce à
un « moissonnage » des notices bibliographiques,
les documents numérisés par le partenaire. |
|
Evolutions actuelles
L’évolution rapide du contexte scientifique a conduit
à rechercher l’optimisation de l’indexation, de
la transcription assistée et de l’interrogation en ligne,
par les logiciels AGORA (structuration de la page)
et RETRO (reconnaissance de caractères).
Le premier,
développé par le LI-RFAI (laboratoire d’informatique
de Tours), qui se situe dans la continuité des
recherches effectuées par le LIRIS (INSA-Lyon) pour
le programme DEBORA (H. Emptoz et F. Lebourgeois),
permet de séparer automatiquement, avec des
scénarios modifiables par l’utilisateur, le texte et
les éléments iconographiques,
afin de les soumettre
à des traitements isolés.
Les travaux portant sur
la similarité, l’extraction et l’indexation automatique
des éléments graphiques se poursuivent avec les
équipes d’informatique participant au programme ANR « Navidomass », dont le CESR est partenaire (porteur
de projet : J.-M. Ogier, Université de La Rochelle).
Le second logiciel, RETRO (REconnaissance et
TRanscription par Ordinateur),
a une capacité de
reconnaissance brute actuelle qui varie entre 94 % et
98 %,
en attendant les perfectionnements espérés
du côté du traitement des chaînes de caractères
(association d’un corpus de graphies du français de
la Renaissance à cet OCR).
Ces transcriptions
« patrimoniales » ou « neutres » (ni diplomatiques,
ni modernisées) sont effectuées sur les documents
originaux, libres de droits et enrichies d’information
en XML/TEI (noms propres, mots-clés, etc.).
La base actuelle de textes, Epistemon (18 textes,
15 en cours de révision) est destinée à entrer,
à très court terme, dans l’ensemble des Bibliothèques
virtuelles humanistes. |
Numérisation partagée
Autour de la Révolution française
L’université de Stanford (USA) et la BnF
travaillent actuellement à un programme
de numérisation partagée autour
de la Révolution française. Dans
ce dispositif, Stanford procéderait à
la numérisation en mode image et en mode
texte des Archives parlementaires et
du Moniteur universel ; la BnF compléterait
cette offre en numérisant une sélection
de 15 000 documents iconographiques choisis
parmi ses collections d’estampes, de cartes
ou de médailles.
Ce programme serait
ensuite enrichi par la numérisation
d’une sélection de documents imprimés
et de deux des fonds les plus emblématiques
du département des Estampes et de
la photographie : la collection des
14 000 estampes historiques léguées à la BnF
par Michel Hennin et celle des 28 000 pièces
rassemblées par Eugène et Carl de Vinck,
couvrant près d’un siècle d’histoire de
France, du règne de Louis XVI aux dernières
convulsions de la Commune.
À cet ensemble s’ajoutera par la suite
la numérisation des archives de la Bastille,
actuellement en cours de restauration.
Ce projet ambitieux devrait donner lieu
à la mise en ligne des premiers documents
au cours de l’année 2008 et contribuer
à transformer radicalement les études
révolutionnaires par l’ampleur quantitative
de la documentation mise à disposition
des internautes. Il fondera aussi
un partenariat scientifique qui pourra
se traduire également par des opérations
de valorisation, colloques ou expositions
communes vivement souhaitées par
les deux institutions. |
|