| |

Isabelle Dussert-Carbone, chef du département de la Conservation
(à droite) et Marie-Élise Fréon, responsable
des services de numérisation, se mobilisent avec leurs équipes autour du projet de Bibliothèque
numérique européenne. © Pascal Lafay/BnF
 |
Logiquement, et dans un premier temps, la BnF a choisi de fonder à partir de sa propre bibliothèque
virtuelle,
Gallica,
les contenus scientifiques et intellectuels qu'elle destine à la future Bibliothèque numérique
européenne.
Accessible depuis 1997, ce site à vocation encyclopédique propose plusieurs itinéraires du savoir,
de l'Antiquité jusqu'au XXe siècle, des dictionnaires, des encyclopédies et des outils
bibliographiques, ainsi que des dossiers multimédia. Au fil des ans, l'offre documentaire n'a cessé de
s'enrichir, répondant à l'attente d'un public fidèle d'internautes et de diverses institutions.
Et en 2004, Gallica a été dotée d'une charte destinée
à rendre plus visible la cohérence de sa politique documentaire et à mieux encadrer son développement futur.
Aujourd'hui, le rythme d'enrichissement annuel de Gallica est de 6 000 documents, sans
compter les fascicules de presse. Or la masse des documents qui doivent être mis en ligne pour intégrer le prototype Europeana de la future Bibliothèque numérique européenne, entraînera une croissance d'un tout autre ordre : "L'objectif est porté à 100 000 documents par an, indique Marie-Élise Fréon, chef du service de numérisation au département de la Conservation, soit environ 400 000 documents d'ici à quatre ans."
C'est que désormais, la nouveauté de la démarche consiste à incorporer dans
Gallica de larges corpus, sélectionnés pour leur intérêt scientifique dans les magasins patrimoniaux, par cotes entières ! Aussi les acquéreurs du département de la Coopération (qui, depuis 1997, assurent l'enrichissement des contenus de Gallica) travaillent-ils actuellement avec les conservateurs des collections à élargir leurs listes d'ouvrages, en incluant des contenus plus représentatifs du cœur de la culture française et des valeurs européennes.
Du mode Image... au mode Texte
Un tel changement d'échelle oblige à reconstruire rapidement un Gallica
radicalement transformé, doté d'une nouvelle interface et d'une autre architecture. Cette
évolution pèse sensiblement sur la chaîne de production de la numérisation en raison des
volumes sans précédent à convertir. S'agissant d'une numérisation de masse de type
industriel,
la réalisation en a été déléguée à des prestataires spécialisés, par le biais de plusieurs marchés dont Marie-Élise Fréon pilote attentivement l'avancement sur son tableau de bord.
Trois filières de production ont été définies :
- la filière pionnière de Gallica, à partir de documents achetés et catalogués (dont les pages sont massicotées pour une numérisation plus rapide).
- La deuxième filière, instaurée en 2006, porte sur des corpus d'ouvrages qui sont arrivés par dépôt légal, au fil des siècles, dans les collections de la Bibliothèque.
Leur caractère patrimonial, leur ancienneté, leurs reliures exigent des précautions particulières, lors des manipulations et opérations techniques de la numérisation (les livres les plus fragiles seront écartés).
- Une troisième filière, enfin, intègre des microfiches et des microfilms, prélevés dans la collection de sécurité du Centre de conservation de la BnF, à Bussy Saint-Georges : en excellent état car, par définition, exclus de la communication au public,
ces microformes se prêtent sans difficulté à la numérisation.
Quelque 100 000 documents devront ainsi être traités d'ici à la fin 2007. En parallèle, le traitement rétrospectif de 60 000 documents a également été entrepris : ils avaient été antérieurement numérisés pour Gallica dans les années 1990, uniquement en "mode Image", pour des questions de coût.
Or si le mode Image fournit une photographie fidèle du document, il n'autorise pas de recherches plein texte, d'annotations, de renvois, ou de citations… toutes facilités que le "mode Texte" offre au chercheur. Traitement automatisé par Reconnaissance Optique de Caractères (OCR), le mode Texte est lié à l'indexation pertinente d'œuvres et de corpus. Ainsi, en tapant n'importe quel mot, le lecteur peut-il retrouver une liste d'ouvrages en rapport avec ce mot, et toutes ses occurrences au sein d'un même ouvrage.
Une recherche par nom d'auteur lui permet de retrouver toutes les œuvres de l'auteur, les ouvrages critiques s'y rapportant, mais aussi tout ouvrage citant l'auteur, sur une échelle de fréquence décroissante...
Autant de possibilités intéressantes, propres à dynamiser son travail de recherche.
En complément, un autre marché de conversion par OCR traite rétrospectivement les tables des matières de Gallica, afin que le lecteur puisse à l'avenir naviguer souplement jusqu'aux pages de son choix, grâce à une interrogation par terme.
Exemplarisation et métadonnées
Le pôle de gestion du service de la numérisation, dirigé par Marie-Élise Fréon, contrôle en amont et en aval les marchés confiés aux prestataires extérieurs, ainsi que tous les travaux de numérisation qui sont menés en interne à la BnF*.
Si le prestataire assure la numérisation de masse au bénéfice d'Europeana, de minutieux contrôles préalables ou rétrospectifs de la chaîne de production relèvent de la responsabilité de la BnF : ainsi, ses catalogueurs doivent-ils récupérer dans une base interne les fiches d'ouvrages, préalablement validées par leurs collègues acquéreurs.
"Pour tout ce qui est numérisable, explique Marie-Élise Fréon, nous créons un exemplaire numérique, rattaché à la fiche descriptive de l'ouvrage : c'est l'exemplarisation. Le but est de signaler le document numérique dans le catalogue BN-Opale Plus, en lien avec la notice correspondante. Mais pas seulement : à partir de cette fiche,
nos gestionnaires de production éditent un bordereau électronique comprenant les métadonnées du document,
qui permettent sa numérisation et sa mise en ligne : descriptions bibliographiques, informations juridiques sur les droits d'auteur…". Ces informations sont envoyées en ligne au prestataire, qui les complétera par des précisions sur la structure interne du document, les données techniques de numérisation, etc.
Puis vient "l'étape physique où l'on remue les cartons", commente en souriant Marie-Élise Fréon : protégés sous pochettes de plastique munies de codes-barres, les documents sont enfermés dans d'imposantes caisses et transférés chez le prestataire. Parmi eux, ceux qui ne répondront pas aux normes fixées pourront être rejetés par lui. L'acquéreur de la BnF devra alors les réexaminer et trouver des solutions (fourniture de pages manquantes, achat d'un autre ouvrage, etc.). Au retour des lots à la BnF,
une application informatique interne assure le contrôle-qualité automatique des informations techniques et bibliographiques, afin de recenser d'éventuelles anomalies. Suit un contrôle visuel humain sur la qualité des images,
leur conformité, leur cohérence. Si certains fichiers ne satisfont pas aux stricts critères de qualité de la BnF, ils sont renvoyés au prestataire pour renumérisation partielle ou totale.
Du cousu main à l'industrialisation
L'opération achevée, les documents originels sont pointés avant de regagner les magasins. Les feuilles massicotées passent au pilon. La base de production est mise à jour. Les documents peuvent migrer sur Gallica. On les transfère à cette fin sur des serveurs du département des systèmes d'information de la BnF "dont il faut saluer le travail, souligne Marie-Élise Fréon, car ce sont ses informaticiens qui ont développé toutes nos applications de gestion et de suivi des documents… eux aussi qui assurent la diffusion des images dans Gallica et des éléments de signalement dans le catalogue de la Bibliothèque, BN-Opale Plus".
Les masters résultant de la production sont stockés dans le système de conservation de données numériques de la BnF, SPAR (système de préservation et d'archivage réparti), sorte de gigantesque magasin virtuel, aussi appelé
"la cinquième tour" du site François- Mitterrand. "À la fin de l'année 2007, prévoit Isabelle Dussert-Carbone, directeur du département de la Conservation, 100 000 documents auront été traités. Nous devrons arriver à 400 000 dans quatre ans. La base Europeana deviendra progressivement consultable par une interrogation particulière du site Internet".
Et d'observer : "Pour nos équipes, c'est un réel changement de culture professionnelle… Elles qui avaient commencé par des numérisations de sauvegarde (estampes et photographies, cartes et plans, manuscrits…) à une époque où les objectifs de Gallica étaient, comparativement à Europeana, relativement modestes. Nous sommes passés du "cousu main" et des corpus ciselés de Gallica à l'industrialisation, avec une exigence de qualité identique ! Le métier change. Au lieu de tout faire elle-même, la Bibliothèque s'oriente vers davantage d'externalisation.
Mais cette numérisation de masse est une chance pour la BnF, et un enjeu de démocratisation du savoir puisque d'importants corpus en ligne seront accessibles à tous, grâce à une indexation plus performante." À court terme, des passerelles avec les bibliothèques nationales européennes qui aspirent à rallier le projet parachèveront le portail d'une culture européenne partagée, au meilleur de ses valeurs. Après une première phase de montée en charge, la Bibliothèque numérique européenne devrait atteindre sa pleine expansion.
* Numérisations de sauvegarde des fonds spécialisés, de la presse quotidienne française, programmes de numérisation partagée avec des bibliothèques ou des institutions de recherche françaises et étrangères
(Library of Congress, pour le projet France-Amérique), etc.
|
|