Atelier : Données liées et données à lier : quels outils pour quels alignements ? (10/07)

BNF

Bibliotheque paris / BNF 32 Views comments

Dans le cadre du projet Corpus, inscrit au plan quadriennal de la recherche de la Bibliothèque nationale de France 2016-2019, des ateliers thématiques sont organisés régulièrement afin d’inciter les échanges entre le milieu académique et le monde des bibliothèques dans le domaine des humanités numériques. Le prochain atelier aura lieu le 10 juillet 2018 et portera sur différentes méthodes et outils d’alignement de données.

The Linked Open Data Cloud

Argument

Une des promesses de la publication de données en ligne ouvertes est la possibilité de tisser des liens entre jeux de données de nature différente pour en enrichir les réutilisations. La mise en œuvre de ces alignements fait appel à des approches très diverses. Un cas d’usage en bibliothèque est la création d’entités exploitables sur le web à partir de données bibliographiques structurées (Logilab). La comparaison de chaînes de caractères ne peut suffire à aligner des concepts, pour lesquels entrent en jeu l’analyse de la structure des référentiels où ils sont décrits ou l’exploitation de liens à une référence partagée. Une méthode telle que l’extraction de clés liage permet de proposer des mesures de similarité à partir de la comparaison de deux jeux de données sans en connaître la sémantique (ELKER). Des outils peuvent aussi aider à la décision pour faciliter le travail manuel, voire le crowdsourcing de la part de communautés identifiées (Projet Foucault Fiches de Lecture, Wikidata Mix’n’Match). Ces liens servent enfin à enrichir des données peu structurées, comme le propose la résolution d’entités nommées pour le plein texte (REDEN).

Programme

  • Emmanuelle Bermès (BnF) et Aude Le Moullec-Rieu (BnF) introduiront la matinée
  • Adrien Di Mascio (Logilab) et Sébastien Peyrard (BnF) présenteront l’utilisation d’algorithmes de regroupement dans le logiciel Robot-Données
  • Etienne Cavalié (BnF) présentera Bibliostratus, l’outil d’alignement développé par le groupe Systèmes et Données du programme national Transition bibliographique
  • Jérôme David et Manuel Atencia (équipe MOEX, Inria & LIG) : présenteront le projet ANR ELKER sur l’extraction et le raisonnement avec clés de liage
  • Carmen Brando (EHESS) présentera l’algorithme REDEN
  • Antoine Isaac (Europeana) présentera les outils CULTUURLINK et Wikidata Mix’n’Match
  • Vincent Ventresque et Laurent Dartigues (TRIANGLE/ ENS Lyon) présenteront le projet ANR Foucault Fiches de Lecture

Modalités pratiques

10 juillet 2018, 9h30 – 13h
Bibliothèque nationale de France, site François-Mitterrand (Quai François Mauriac, 75013 Paris), salle 70.

Entrée libre sur réservation auprès d’Eleonora Moiraghi.

Comments