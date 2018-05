Temps de lecture: 3 min — Repéré sur The Atlantic

Avec des rayonnages quadricentenaires et longs de quatre-vingt-cinq kilomètres, les archives secrètes du Vatican recèlent plus de mille ans d'histoire, avec des textes allant du VIIIe au XXe siècle, de la Bulle contre les erreurs de Martin Luther et ses disciples aux plus obscures correspondances papales.

Enterrés sous la cour du musée du Vatican, ils constituent une mine d'or pour les chercheurs, qui demeure pourtant largement inexploitée. Quelques pièces ont été progressivement ouvertes par Paul VI, Jean-Paul II et Benoît XVI, mais le repos de certaines étagères n'est encore troublé que par les rares bruissements de mitres émis par des proches du pape: dérobées aux yeux des badauds curieux tout autant qu'à ceux des chercheurs accrédités.

Vers une numérisation intelligente?

Si un travail de numérisation de ces archives a été amorcé depuis quelques années, il ne concerne qu'un nombre dérisoire par rapport aux ouvrages présents dans les sous-sols du Vatican. La plupart du temps, les pages, seulement scannées, n'ont pas été retranscrites en texte informatique, laissant les recherches relativement laborieuses, quand elles ne demandent pas encore d'avoir à se rendre sur place.

Cela pourrait bien changer dans les années à venir. Le projet In Codice Ratio, mis en branle par une équipe de chercheurs et développeurs romains, cherche à croiser les ressources de l'intelligence artificielle avec un logiciel de reconnaissance optique de caractères (ROC), ce qui permettrait de rendre accessibles ces documents comme, en théorie, ceux de tant d'autres fonds d'archives par-delà la Bibliothèque apostolique vaticane.

«La ROC a été utilisée pour scanner des livres et d'autres documents imprimés pendant des années, mais elle n'est pas bien adaptée pour les ressources des archives secrètes du Vatican. La ROC traditionnelle sépare les mots en des séries d'images-lettres en cherchant les espaces entre les lettres. Elle compare ensuite chaque lettre-image à la banque de lettres présente dans sa mémoire. Après avoir déterminé quelle lettre correspond le mieux à l'image, le logiciel traduit la lettre en code informatique (ASCII) et rend ainsi le texte consultable», explique The Atlantic.

Reconnaître les caractères

Le défi, avec le fonds des archives vaticanes, est qu'il est principalement constitué de manuscrits, dont l'écriture peut associer calligraphie et lettres cursives, beaucoup plus difficile à identifier de façon systématique, ne serait-ce qu'au regard de l'absence d'espace entre les lettres. Si la ROC ne peut pas dire à quel endroit commence et se termine une lettre, il lui est alors impossible de les identifier. Or elle a besoin de les identifier pour pouvoir les segmenter: ce phénomène est connu sous le nom de paradoxe de Sayre, qui désigne cette impasse informatique face à la reconnaissance de l'écriture manuscrite.

Les acteurs du projet In Codice Ratio ont donc cherché une alternative fondée sur le principe d'une «segmentation en puzzle»: plutôt que de reconnaître des caractères, un réseau de neurones convolutionnels va tâcher d'en identifier les unités minimales, à partir de séries de traits horizontaux ou verticaux. Les unités les plus fines, là où il y a moins d'encre ou, en traduction numérique, de pixels, sont ensuite utilisées pour déterminer les liaisons entre différentes lettres.

Il s'agissait ensuite d'entraîner l'intelligence artificielle à reconnaître à partir de différents modèles les caractères de l'alphabet latin médiéval: un travail mené avec l'aide de cent-vingt lycéens, auxquels les chercheurs ont fait appel.

Cette reconnaissance de caractères manuscrits n'étant pas suffisante dans certains cas ambigus, les chercheurs ont dû établir des bases de données regroupant les combinaisons de lettres les plus communes et, par revers, celles qui ne présentent aucune occurrence dans la langue latine (la confusion est surtout présente par rapport aux enchaînements de jambages: ainsi «nn» est plus probable que «iiii»).

Jusqu'à présent, les résultats sont mitigés et appellent encore un perfectionnement du logiciel: cela devrait venir avec le temps et l'entraînement. À terme, cet usage de l'intelligence artificielle pourrait permettre de retranscrire de gros volumes de texte dont le traitement manuel serait un travail de titan –de fait, encore en vaste chantier à ce jour.

Cette technique demeure cependant le privilège des écritures les plus canoniques: selon la qualité des manuscrits, la régularité de l'écriture d'un même texte et l'ampleur d'un échantillon, il est toujours possible que l'expertise humaine ait le dernier mot.