Un modèle HTR éthiopien-français pour transcrire les carnets d’Antoine d’Abbadie de la BnF

Fonds Abbadie - BnF-265, btv1b10029334j, page 102
Fonds Abbadie - Carnet 265, page 102

Antoine d’Abbadie est un explorateur, géographe et linguiste français du XIXe siècle, membre de l’Académie des Sciences. Entre 1837 et 1848, il parcourt la Corne de l’Afrique, alors peu connue des scientifiques occidentaux, et rapporte dans ses carnets de terrain une foule de notes concernant les différentes langues et dialectes, la géographie, les peuples de la région. Ces carnets manuscrits sont aujourd’hui conservés à la Bibliothèque Nationale de France. Ils sont entièrement numérisés et disponibles sur Gallica.

Afin de permettre l’étude de ces carnets et leur édition, Anaïs Wion, chargée de recherche au CNRS et membre de l' IMAF (Institut des Mondes Africains), a fait appel à Calfa pour réaliser la reconnaissance massive du texte manuscrit de 3000 pages issues de ces carnets.

La mise en page extrêmement complexe, avec plusieurs écritures mélangées – alpha-syllabaire éthiopien, écriture latine avec de nombreux signes diacritiques, arabe, hébreu, grec - représentait une difficulté pour la reconnaissance de ces textes en écriture manuscrite. Ces caractéristiques nécessitaient le développement d’un OCR/HTR spécialisé.

Calfa a mis au point pour ce projet un triple modèle de reconnaissance : en latin, en écriture éthiopienne et mixte. En fonction des pages, l'un des trois est utilisé.

Fonds Abbadie - BnF-265, btv1b10029334j, page 102
Cliquer sur l'image pour voir une demo

A l’issue des quelques mois de développement et de traitement des documents, les carnets manuscrits ont désormais leur texte extrait sous forme numérique. Un travail de correction du texte est actuellement en cours sur la plateforme Transcrire, ouvrant la voie à une édition prochaine.

Calfa Team