Ce projet a été créé dans le cadre du module Git dispensé par M.Thibault Clérice pour le master 2 TNAH (Technologies Numériques Appliquées à l'Histoire) de l'École nationale des chartes, pour l'année 2021-2022.
L'objectif de ce devoir était de collaborer à plusieurs pour monter un projet de sources numériques tout en choisissant et utilisant des outils numériques nouveaux, en contrôlant la qualité des données.
Il s'agissait de définir un corpus, et de le soumettre à un processus d'HTR (Handwritten Text Recognition) à l'aide de l'outil eScriptorium. Ce dernier est un logiciel libre permettant de segmenter un document, de le transcrire automatiquement à l'aide d'un modèle (voir ce lien pour un tutoriel). Les données ainsi obtenues ont ensuite été corrigées, afin d'obtenir une transcription la plus pertinente possible. Ce dépôt présente et organise la restitution de ce travail.
Nous avons choisi de travailler sur la correspondance active de Hector Berlioz adressée à sa sœur Anne-Marguerite "Nanci" Berlioz. Cette correspondance est disponible en ligne (Source gallica.bnf.fr / Bibliothèque nationale de France). L'ensemble des lettres adressées à Nanci Berlioz représentait un volume trop important pour notre projet, aussi nous les avons sélectionnées, par souci de cohérence, selon un ordre chronologique (voir le tableau de gestion) pour la liste exacte des lettres transcrites).
Au sein d'eScriptorium, nous avons choisi de soumettre notre corpus au modèle d'entraînement Modèle Manuscrit 19e Lectaurep
, fruit du projet Lectaurep (LECTure Automatique de REPertoires).
Les vérités de terrain produites par ce projet pourraient servir par la suite à entraîner des modèles d'HTR.
Pour l'alignement, la transcription, la gestion de projet, les corrections :
Ce dépôt est organisé de la manière suivante :
- Un dossier de comptes rendus de réunions : ce dossier contient de la documentation sur les réunions ayant permis de mettre en place le projet. D'autres choix ont, eux, été discutés dans les issues.
- Un dossier "donnees" contenant un dossier par lettre transcrite, qui comprend :
- Les transcriptions de la lettre au format XML (standard ALTO).
- Les images de la lettre.
- Un sous-dossier pour les transcriptions finales de la lettre au format texte.
- Un sous-dossier pour les transcriptions brutes, telles que générées par HTR sur eScriptorium, non corrigées.
- Un README de présentation du projet (le présent fichier).
- Un fichier qui présente les choix d'exports et les conventions de nommage que nous avons adoptés.
- Un tableau de gestion qui récapitule les lettres transcrites, leurs liens vers Gallica. Il permet également une gestion et une visualisation des étapes du projet.
- Un fichier qui récapitule les normes de transcription que nous avons adoptées.
Ce projet est terminé. Cependant, il pourrait être poursuivi par la suite afin de prendre en compte de nouvelles lettres de Berlioz.