Skip to content
Sébastien Cretin edited this page Dec 22, 2023 · 59 revisions

EPUB Statut

Description

EPUB est un format ouvert de distribution et d'échange pour les publications et documents numériques. Il permet d'empaqueter sous forme d'un fichier unique compressé des contenus textuels, audio et images.

Pour répondre à l'arrivée des nouveaux petits écrans mobiles (2004 : premier e-reader ; 2007 : premiers Kindle et iPhone ; 2010 : premier iPad) EPUB, dès sa normalisation en 2007, emprunte au web ses langages et sa logique fondamentale : ses contenus sont enrichis sémantiquement grâce à une structuration (X)HTML, et mis en forme grâce à CSS pour une adaptabilité maximale au dispositif d'affichage.

Une version EPUB 2.0.1 est approuvée en 2010. Suivent EPUB 3.0 en octobre 2011, EPUB 3.0.1 en juin 2014, EPUB 3.1 en janvier 2017, et EPUB 3.2 en 2019.

En 2020, et malgré l'ancienneté notable d'EPUB 3, c'est toujours EPUB 2.0.1 qui reste majoritaire dans la production française.

Sociabilité

Dès 2010, EPUB est progressivement, puis très vite unanimement, adopté par les éditeurs français et les autres acteurs de la chaîne du livre numérique (diffuseurs et distributeurs).

Une exception est à signaler : la société Amazon, premier revendeur de livres numériques sur le marché français, exploite des formats propriétaires (dont la production repose très majoritairement sur une conversion d'EPUB).

Relations à d’autres formats

ZIP : l'extension « .epub » cache un fichier ZIP conforme. Une publication EPUB peut donc être décompressée et ses contenus ainsi rendus disponibles (en l'absence de DRM, voir infra).

XML et HTML : à sa racine, une publication EPUB présente un fichier « container.xml » dans un répertoire « META-INF ». Essentiellement, ce court fichier XML localise, dans l'arborescence interne, un autre fichier XML, lui aussi indispensable et dont l'extension est « .opf » (pour Open Packaging Format). Ligne de l'élément <rootfile> de « container.xml » : <rootfile full-path="OEBPS/content.opf" media-type="application/oebps-package+xml"/>.

Les « documents de contenu » d'EPUB 3 sont des fichiers XHTML. À ce titre, ils doivent se conformer aux syntaxes HTML et XML, et peuvent intégrer des langages XML spécifiques : MathML pour la gestion des équations mathématiques, par exemple, ou SVG (images vectorielles).

CSS : relier les fichiers XHTML à une ou des feuilles de style CSS n'est pas une obligation, mais une recommandation fonctionnelle.

Versions

Avec le passage de la version 2 à la version 3, en octobre 2011, les capacités techniques du format augmentent fortement. L'éventail des exigences éditoriales auxquelles il peut répondre s'élargit.

  • Le support d'HTML 5 rend possible le codage d'une accessibilité native complète, et l'intégration de contenus audio et vidéo.
  • La synchronisation audio/texte (Media Overlays) est un outil supplémentaire pour l'accessibilité native.
  • Le support de CSS 3 améliore la gestion des flux textuels et permet la prise en charge des écritures idéogrammatiques, verticales ou de droite à gauche (arabe et hébreu par exemple) : le format s'internationalise.
  • Le support de JavaScript permet le codage d'une interactivité contenus/lecteur.

La gestion des magazines, des publications scolaires, professionnelles et scientifiques reste certes encore délicate, mais EPUB 3 propose des solutions : notamment une exception au principe d'adaptabilité des contenus en permettant, lorsqu'une nécessité éditoriale l'impose, de figer les pages de la publication : on parle alors de fixed-layout.


Quel futur pour EPUB 3.2 ? Le W3C semble satisfait de la maturité du format dans sa version actuelle, et en fait la promotion, notamment dans l'objectif d'augmenter sa représentation dans la production éditoriale (au détriment d'EPUB 2.0.1, donc).

Un format parallèle, WEB PUBLICATION, est cependant à l'étude, qui ferait le lien entre publication packagée offline et disponibilité sur le web. Le format est actuellement présenté comme « une collection de ressources, organisées ensemble par le biais d'un manifeste avec un ordre de lecture par défaut, [...] identifiable de façon unique et pouvant être présentée à l'aide des technologies Open Web Platform ».

Contenu

EPUB 3 peut intégrer les formats suivants (W3C core media types) :

Il est à noter qu'EPUB 3 laisse la porte ouverte à l'intégration d'autres formats, à la condition du signalement explicite dans le fichier « .opf » des formats de remplacement en cas de non prise en charge par le système de lecture (mécanisme du manifest fallback).

Organisme de maintenance et documentation de référence

Jusqu'en février 2017, c'est l'IDPF (International Digital Publishing Forum) qui maintient et promeut le format. Relais est passé depuis au W3C, avec qui l'IDPF a fusionné à cette date. Le document EPUB 3.2 W3C Community Group Final Report) est une bonne porte d'entrée vers la très riche documentation du W3C.

Certaines versions d'EPUB ont également été portées par l'IDPF à l'ISO ; ainsi les spécifications d'EPUB 3.0 ont été publiées sous l'identifiant ISO/IEC TS 30135, et celles d'EPUB 3.0.1 sous l'identifiant ISO/IEC 23736. Une norme ISO sur l'accessibilité des EPUB est également à l'étude : ISO/IEC DIS 23761. Des spécifications techniques doivent compléter le paysage normatif autour d'EPUB : l'ISO/IEC TS 22424 définit une restriction du format EPUB pour sa préservation à long terme et son empaquetage avec des métadonnées METS et PREMIS, et l'ISO/IEC CD TS 23078 spécifie une technologie standard de DRM.

On pourra aussi consulter :

Identifiants

Registre Identifiant
Bibliothèque du Congrès fdd000310 (famille EPUB), fdd000278 (EPUB 2), fdd000308 (EPUB 3.0), fdd000311 (EPUB 3.0.1), fdd000309 (EPUB 3.2), fdd000519 (restriction d'EPUB pour la préservation)
Wikidata Q475488
PRONOM fmt/483
Just Solve the File Format Problem EPUB

Caractéristiques techniques

Une publication EPUB peut être tatouée numériquement afin d'être rendue traçable, ou verrouillée par un DRM. Deux principaux systèmes de protection sont utilisés sur les EPUB : le verrou ACS4, développé par Adobe et qui consiste en un chiffrement complet du livre opéré à la volée au moment du téléchargement depuis un site web (CPO-PRO) ; et le verrou LCP (Licensed Content Protection), développé par EDRLab, plus flexible.

Si le verrou ACS4 d'Adobe a fait l'objet d'une adoption massive par les éditeurs français dès 2010, le consensus s'est inversé ces dernières années, et ACS4 cristallise aujourd'hui les reproches de nombreux acteurs de la chaîne du livre numérique, libraires et bibliothèques notamment : parcours de premier achat complexe, problèmes techniques liés au chiffrement, centralisation des données personnelles des usagers, coût transactionnel et coût unitaire élevés, incompatibilité avec l'accessibilité des contenus...

Plus souple, moins cher, compatible avec l'accessibilité des contenus, LCP est, aux yeux du monde éditorial aujourd'hui, une bonne alternative.

Métadonnées internes

C'est le fichier OPF (voir supra : « Relations à d’autres formats ») qui centralise les métadonnées (Dublin Core et Schema.org) dans sa première section <metadata>. La deuxième - <manifest> - détaille les ressources de la publication. La troisième - <spine> - fixe l'ordre de lecture des chapitres XHTML.

Outils connus par la BnF

Il serait vain ici de vouloir lister les gestionnaires de bibliothèques ou les lecteurs d'EPUB.

Méritent, à notre sens, d'être signalés :

  • InDesign, comme logiciel PAO exportant le format ;
  • Sigil, comme éditeur open source, permettant la correction ou la création ex nihilo du format ;
  • Thorium, comme lecteur pour Windows 10, MacOS et Linux, développé par EDRLab.

Par ailleurs, il existe un outil officiel de validation - EPUBCheck - aujourd'hui dans sa version 4.2.5. Exécutable en ligne de commande ou utilisable comme une bibliothèque Java, il vérifie la conformité d'un fichier aux spécifications du format, dont il prend en charge les versions 2 et 3. L'outil réalise également une caractérisation qui produit nativement un rapport au format XMP.

On peut lui adjoindre un autre outil de vérification, spécifiquement du codage de l'accessibilité : Ace, développé par le DAISY Consortium.

Usage ou présence dans les collections de la BnF

Plusieurs milliers de documents patrimoniaux sont disponibles aux formats EPUB 2 et 3 dans la bibliothèque numérique de la BnF, Gallica.

Le Référentiel ePub 3 présente les attentes de la BnF en matière de production de livres électroniques au format EPUB. Il détaille notamment les modalités de conversion des contenus patrimoniaux de la bibliothèque vers ce format.

Dans le cadre de la loi relative au droit d'auteur et droits voisins dans la société de l'information dite Loi DADVSI, la BnF a pour mission de collecter, conserver et donner accès à tous les livres numériques au format EPUB diffusés au public par voie électronique en France. Ainsi, les livres numériques au format EPUB qui sont téléchargeables librement en ligne font l’objet d’une collecte automatique par moissonnage grâce à un robot-crawler, dans le cadre du dépôt légal du web. Les EPUB collectés de cette manière sont consultables grâce à l'application Archives de l'internet uniquement dans les salles de recherche de la BnF et les bibliothèques de dépôt légal imprimeur en région.

Cependant, la majorité des ouvrages au format EPUB mis à disposition du public dans le circuit commercial n'étant pas librement téléchargeables, le dépôt légal de ces livres numériques nécessite la mise en place d’un circuit spécifique, qui implique un dépôt de leurs publications à la BnF par les déposants. Ainsi, les livres numériques au format EPUB sans mesure technique de protection (Digital Rights management) collectés par dépôt des éditeurs sont accessibles grâce à l'application Gallica Intra Muros uniquement dans les salles de recherche de la BnF.

Le dispositif PLATON (PLAteforme de Transfert d'Ouvrages Numériques) accueille les fichiers source des éditeurs (11% au format EPUB, soit 6 000 fichiers en 2020) et les adaptations réalisées par les organismes transcripteurs (0,5% au format EPUB, soit 38 fichiers) dans le cadre de l'exception handicap au droit d'auteur. Les fichiers source des éditeurs sont accessibles par les organismes transcripteurs agréés via PLATON. Les adaptations sont destinées aux personnes empêchées de lire.

Clone this wiki locally