Projet ModRef : Modélisation, Référentiels, Culture Numérique

Humanités Numériques - Web Sémantique - Triplestores CIDOC-CRM

Le projet ModRef (Modélisation, Référentiels et Culture Numérique) fédère un ensemble de projets du Labex (Laboratoire d'Excellence, Les Passés dans le Présent : histoire, patrimoine, mémoires. Voir http://passes-present.eu/) impliquant divers organismes, parmi lesquels :

ModRef a pour objectif d'apporter une expertise numérique aux différents projets du Labex qu'il fédère en son sein ainsi que de proposer une Preuve Conceptuelle (Proof of Concept ou POC) autour des questions du "linked open data" et de la modélisation via des référentiels, afin d'encourager les débats sur ces problématiques de migration de données vers le web sémantique via la création et l'exploitation de "triplestores" (collections ou entrepôts de fichiers RDF). La norme CIDOC-CRM (cf. http://www.cidoc-crm.org/) a été choisie car elle est actuellement la norme de référence pour la description sémantique de données muséographiques ou d'héritage culturel. Une implémentation OWL du CIDOC-CRM par l'Université de Erlangen-Nuremberg est disponible à l'adresse suivante : http://www.erlangen-crm.org/.

Trois projets ont été sélectionnés pour la phase de Preuve Conceptuelle de ModRef :

Table. Comparaison des données des projets de la Preuve Conceptuelle de ModRef
CDLI ObjMythArcheo-LIMC BiblioNum-BDIC
Langues Anglais Français-Anglais Français
Taille (Textes) 300 Mo 100 Mo 100 Mo
Nombre de données 313 332 objets - 105 000 exposés 17 424 objets - 8250 exposés 77 collections - 62 392 fichiers
Structure logique Base de données de type tableur Base de données relationnelles XML-EAD
Nombre d'éléments de structure logique 1 table de 61 attributs 59 tables 146 éléments XML-EAD

La migration de données vers des triplestores est un processus qui passe par différentes étapes :

Ainsi, il s'agit principalement (1) de passer de données non structurées ou semi structurées (notes, livres, html) vers des données structurées (tableur, base de données relationnelles, fichiers XML) et ensuite, (2) de transformer ces données structurées en données sémantiques (fichiers RDF) afin d'améliorer le partage, l'échange et la découverte de nouvelles connaissances.

D'autre part, plusieurs projets dans le monde s'intéressent à la migration de données vers des triplestores (CIDOC-CRM ou non), parmi lesquels :