Ground truth for various Parisian notary's registries of deeds (French 19th and 20th centuries)
Le projet LECTAUREP (LECTure Automatique de REPertoires), qui a débuté en 2018, est une initiative conjointe du Minutier central des notaires de Paris des Archives Nationales, de l’équipe ALMAnaCH (Automatic Language Modeling and Analysis & Computational Humanities) à Inria et de l’EPHE (Ecole Pratique des Hautes Etudes), en partenariat avec le Ministère de la Culture.
Le projet vise à repenser l’utilisation actuellement faite des registres des actes notariés, l’une des sources historiques les plus consultées aux Archives nationales, par les chercheurs et les utilisateurs des fonds d’archives notariales. Pour ce faire, le projet a instaurer un workflow de traitement de ces manuscrits à l’aide de la reconnaissance automatique des documents manuscrits (HTR) et d'extraction d’information (NER) en adoptant notamment l'application eScriptorium pour produire la vérité de terrain, entraîner des modèles de reconnaissance et corriger les transcriptions résultants.
Les corpus lectaurep-repertoires
rassemblent les données d'entraînement spécifiques aux répertoires de notaires.
Nom | Importance matérielle | Dates extremes | Particularité | Notaire | Identifiant db |
---|---|---|---|---|---|
lectaurep-rigault-6 | 45 pages | 05/1907 - 05/1908 | 1 seule main | Rigault | #50 (1-45) |
lectaurep-random-set-1 | 38 pages | 07/1903 - 03/1939 | +/-10 mains | _ | #145 (1-20, 37-40, 48-58, 94-96) |
lectaurep-random-set-2 | 5 pages | 07/1908 - 07/1935 | +/- 3 mains | _ | #156 (1-5) |
lectaurep-riant-4 | 30 pages | 07/1830 - 07/1830 | 1 seule main | Riant | #77 (1-30) |
lectaurep-dufour-1 | 100 pages | 05/1850 - 04/1851 | 1 seule main | Dufour | #87 (1-100) |
-
le texte suscrit a été signalé par un
^
liminaire. Le phénomène "dudt" (dudit) est donc transcrit par "dud^t". -
l'emploi des minuscules et majuscules a été respecté.
-
quelques mots non-lus sont notés
XXX
- les mots agglutinés et ligaturés sont généralement transcrits tels quels.
- les segments correspondant à du texte pré-imprimés sont signalé par le type "printed"
➡️ Lectaurep-mariages-et-divorces
Inria | Archives nationales |
---|---|