Un projet HTR sur le fonds Dulaurier avec la BnF

Fonds Dulaurier - Calfa BnF DataLab
Calfa et le BnF Datalab - HTR du fonds Dulaurier

Le projet

Le projet "Valorisation numérique du fonds Dulaurier" propose de valoriser les manuscrits du fonds Dulaurier en appliquant des méthodes de reconnaissance de texte manuscrit (HTR) et d'analyse linguistique (lemmatisation, étiquetage morphosyntaxique, analyse grammaticale).

L'objectif est de rendre ces documents et leurs contenus textuels accessibles aux spécialistes et au grand public. Plusieurs livrables sont ainsi envisagés : l'intégration des résultats au sein de GALLICA pour permettre la recherche en plein texte, mais aussi au sein du dictionnaire d'arménien Calfa (pour enrichir les exemples associés à une mot), ainsi qu'au sein des concordances lemmatisées de GREgORI et corpus linguistiques de DALiH (PCR ANR, 2022).

Page du projet - BnF

Le corpus en bref

Le projet propose le traitement de 14 manuscrits. Ces manuscrits, microfilmés, représentent un large échantillon de l'historiographie arménienne, allant de l'Histoire des guerres et des conquêtes des Arabes en Arménie par Łevond (VIIIe s.; Arm. 208) à l'Histoire de l'Albanie du Caucase par Movsēs Kalankatuac'i (VIIIe-Xe s; Arm. 218), en passant par l'Histoire de l'invasion du Caucase par les Mongols par Kirakos Ganjakec'i (XIIIe s.; Arm. 226) ou, à une date plus récente, la Chronique d'Abraham III Kretac‘i (XVIIIe s.; Arm. 236). Ils contiennent aussi plusieurs recueils de correspondances inédits, comme le Recueil de correspondances de catholicos et de prélats arméniens avec des prêtres de Tabriz (Arm. 167).

Arménien_324__btv1b10088516w_19

Arménien 324, p. 19, Correspondance du P. Yovhannes Zohrapean

... ...

Arménien 167, p. 273 et Arménien 231, p. 95

Ce fonds représente un témoignage littéraire, historique, philologique et linguistique précieux pour la connaissance de la langue arménienne, du monde anatolien et du Caucase à l'époque médiévale. Ces manuscrits sont tardifs et demeurent peu étudiés. Ils sont le témoin d'une écriture cursive moderne difficile à déchiffrer. Ce travail rejoint nos travaux en cours sur les archives des Pères Mekhitaristes de Venise, ainsi que le projet pilote mené en 2019 avec la Bibliothèque Universitaire des Langues et Civilisations (BULAC), centré sur les archives manuscrites de Dulaurier.

Le projet s'étendra sur toute l'année 2023. Vous pourrez régulièrement retrouver l'équipe de Calfa au sein du DataLab de la BnF autour d'ateliers et d'évènements scientifiques sur les manuscrits arméniens.

Mise à jour janvier 2024 : Les livrables sont disponibles sur Github pour la vérité terrain HTR, sur Zenodo pour un dataset de tampons et sceaux, et sur les interfaces de GREgORI pour les corpus interrogeables. La relecture des contenus est prévue courant 2024.

Calfa Team