-
Notifications
You must be signed in to change notification settings - Fork 0
METS
Le format METS (pour Metadata Encoding and Transmission Standard) a été créé en 2001 par la Digital Library Federation afin de réunir dans un même fichier XML toutes les métadonnées nécessaires à la description d'un document numérisé. Depuis lors, son périmètre s'est étendu aux objets nativement numériques.
Pensé à l'origine dans une logique d'interopérabilité, son usage comme format d'échange entre bibliothèques numériques s'avère marginal. En revanche, il est massivement utilisé par les bibliothèques et les archives comme format conteneur de métadonnées pour décrire les paquets d'informations conservés dans un système de préservation numérique. La liste des profils d'application METS officiels fait état d'une cinquantaine d'implémentations, chiffre très en dessous de la réalité car de nombreuses institutions utilisatrices n'ont pas fait la démarche d'enregistrer leur profil. Parmi les principales implémentations METS comme fichier conteneur de métadonnées pour la préservation à long terme, on peut citer
- Archivematica, logiciel open source de préservation numérique,
- SPAR, le magasin numérique de la BnF,
- le projet européen e-Ark qui vise à définir des spécifications communes pour les paquets d'informations et à développer sur ce socle des outils de préservation numérique.
Enfin, il a été adopté par Europeana dans le cadre du projet Europeana Newspapers et par la BnF à sa suite pour encoder la disposition des contenus détectée grâce à des méthodes de reconnaissance optique de la mise en page (OLR).
Les fichiers METS sont des fichiers XML.
Dans son usage d'encodage de l'OLR, les spécifications d'Europeana et de la BnF ont fait le choix d'articuler METS et XML-ALTO : le fichier METS décrit dans sa carte de structure (élément <structMap>
) des contenus intellectuels et fait référence à des éléments XML de l'ALTO qui décrivent des zones d'une page et donnent leur localisation dans les fichiers images.
Depuis sa création en 2001, le format METS n'a pas subi de révision majeure. Les évolutions successives (au 13 mai 2020, la version en cours est la 1.12.1) ont été mineures et rétrocompatibles (tous les fichiers METS produits depuis la naissance du format sont donc valides au regard de la version actuelle).
Les sections de métadonnées du format METS (métadonnées descriptives <dmdSec>
, de provenance <digiprovMD>
, de droits <rightsMD>
, techniques <techMD>
et de source <sourceMD>
) sont extensibles : on peut y placer des métadonnées dans n'importe quel format XML, voire dans un format non XML comme du MARC ISO 2709. En particulier, il a été pensé en complémentarité directe avec d'autres standards développés par la communauté des bibliothèques numériques :
- pour les métadonnées de description du contenu intellectuel : Dublin Core, EAD, MODS ;
- pour les métadonnées de préservation (techniques et de provenance) : PREMIS ;
- pour les métadonnées techniques de caractérisation :
- MIX (images),
- audioMD et videoMD (contenus audiovisuels),
- textMD (contenus textuels).
Concernant le lien avec les fichiers de contenu (images, texte, contenus audiovisuels, etc.) décrits par le fichier METS, deux options existent, bien que la première option soit très majoritaire :
- pointer, dans le fichier METS, vers les fichiers par le biais d'un URI,
- encapsuler du contenu en XML ou en base64 directement dans les éléments
<file>
.
Via des éléments <mptr>
(METS pointer), des fichiers METS peuvent également pointer sur d'autres fichiers METS. Cette fonctionnalité permet de décrire des collections référençant les documents numériques qui les composent.
Le format METS pouvant référencer de nombreux contenus externes (CPO-AUT), il est nécessaire de veiller à la pérennité des liens et à la préservation de ces contenus. La solution la plus couramment adoptée est d'empaqueter dans un fichier conteneur le fichier METS et ses contenus référencés.
Le format METS est maintenu par un groupe international d'experts, le METS Editorial Board. Son site web et tous les contenus liés à METS sont hébergés par la Bibliothèque du Congrès.
La documentation de référence du format METS est constituée par le METS Primer (manuel), fondé sur la version 1.6. Une introduction en français aux principales caractéristiques du format est également disponible.
Les deux usages principaux de METS à la BnF sont décrits par les référentiels de numérisation : le référentiel d'enrichissement des métadonnées METS pour les fichiers de métadonnées de numérisation (« manifestes ») et le référentiel d'enrichissement du texte pour l'encodage de l'OLR.
Registre | Identifiant |
---|---|
Wikidata | Q1640667 |
Just Solve the File Format Problem | METS |
L'unique format de sérialisation disponible pour METS est XML, bien qu'une expression en RDF soit à l'étude depuis 2011.
Comme pour tout autre format de métadonnées, chaque organisation productrice est fortement encouragée à définir et à documenter son utilisation à travers un profil d'application. Cette bonne pratique est si pertinente pour METS en raison de sa flexibilité que le comité éditorial METS a proposé un formalisme de description en XML des profils d'application du format. La version 2 de ce formalisme propose d'embarquer dans la description du profil des contrôles exécutables par machine.
Bien que théoriquement transparent pour un utilisateur humain (CPO-TRA), le format METS est considérablement compliqué par l'usage d'identifiants internes au fichier pour faire le lien entre les composantes de la structure du document numérique décrites dans la section <structMap>
, leurs métadonnées dans les sections <dmdSec>
, <rightsMD>
, <techMD>
, <digiprovMD>
et <sourceMD>
et leurs représentations numériques dans la section <fileSec>
. Cette particularité rend la lecture et le contrôle manuel des fichiers METS laborieux.
Le format METS peut embarquer des métadonnées auto-descriptives (date de création, de dernière modification, agents ayant contribué à l'élaboration du fichier) dans son élément initial <metsHdr>
(en-tête).
METS étant un format XML, il est indispensable de disposer d'un éditeur XML complet pour le manipuler, le valider et l'éditer.
Certains utilisateurs ont développé des outils spécifiquement pour METS, mais en raison de la flexibilité du format, ces derniers restent généralement très liés au profil d'application pour lequel ils ont été conçus. On peut cependant citer pour la visualisation l'outil METS Flask développé par la société Artefactual dans son produit Archivematica. Un fork de cet outil a été fait pour l'adapter au profil BnF : METS Viewer.
L'outil Structify, développé par l'université d'Innsbruck et utilisé par Europeana dans le cadre du projet Europeana Newspapers, permet de réaliser la correction des contenus identifiés par OLR, d'y ajouter des métadonnées et d'exporter le résultat au format METS. La plateforme de transcription et d'annotation Transkribus permet également d'importer et d'exporter des documents METS.
La caractérisation de METS, comme celle des autres formats XML, est réalisée par le module XML de l'outil Jhove
. L'option withTextMD
permet de produire une sortie au format textMD.
La validation est réalisée à l'aide du schéma XSD officiel et de tous autres schémas de métadonnées contenues dans le fichier METS. Un profil d'application METS complète généralement ces exigences ; les contraintes qu'il édicte peuvent être encodées dans le langage schematron et embarquées dans un profil METS « actionnable » (c'est la méthode adoptée par la BnF, voir les profils METS BnF pour la numérisation).
Depuis la mise en production de son magasin numérique SPAR en 2010, la BnF utilise METS comme format pivot de métadonnées pour enregistrer toutes les métadonnées techniques, de structure et de provenance utiles à la préservation à long terme au sein d'un paquet d'informations.
Depuis 2015, l'utilisation de METS s'est étendue :
- pour les nouveaux marchés de numérisation, en remplacement de l'ancien format maison « refnum », comme format conteneur de métadonnées de numérisation ;
- pour l'encodage de l'OLR appliqué à ses périodiques numérisés.