Offre d’emploi : Chercheuse postdoctorale ou chercheur postdoctoral en intelligence artificielle et traitement du langage naturel (programme de recherche SCAI/BnF)

Le « Sorbonne Middle for Synthetic Intelligence » (SCAI) de Sorbonne Université et la BnF offrent un contrat postdoctoral de 12 mois (renouvelable) en intelligence artificielle et traitement du langage naturel.

Qui sommes-nous ?

Sorbonne Université est une université pluridisciplinaire de recherche créée au 1er janvier 2018 par regroupement des universités Paris-Sorbonne et UPMC. Déployant ses formations auprès de 54 000 étudiants dont 4700 doctorants et 10 200 étudiants étrangers, Elle emploie 6 300 enseignants, enseignants-chercheurs et chercheurs et four 900 personnels de bibliothèque, administratifs, methods, sociaux et de santé. Son finances est de 670 M€. Sorbonne Université dispose d’un potentiel de premier plan, principalement situé au cœur de Paris, et étend sa présence dans plus de vingt websites en Île-de-France et en régions. Sorbonne Université présente une organisation originale en trois Facultés de Lettres, de Sciences & Ingénierie et de Médecine qui disposent d’une importante autonomie de mise en œuvre de la stratégie de l’université dans leur périmètre sur la base d’un contrat d’objectifs et de moyens. La gouvernance universitaire se consacre prioritairement à la promotion de la stratégie de l’université, au pilotage, au développement des partenariats et à la diversification des ressources.

Présentation de la structure

Dans un contexte nationwide et worldwide marqué par la compétition autour de l’intelligence artificielle, Sorbonne Université a créé le « Sorbonne Middle for Artificial Intelligence » (SCAI), qui réunit dans un lieu distinctive, situé au cœur du quartier latin, un éventail stratégique des disciplines de l’intelligence artificielle moderne. L’ambition de SCAI est de contribuer significativement à l’excellence de la recherche interdisciplinaire en intelligence artificielle en favorisant les échanges entre enseignants-chercheurs, chercheurs, enseignants, étudiants et industriels.

Le projet de recherche décrit ci-dessous s’inscrit dans le cadre du partenariat stratégique entre Sorbonne Université et la BnF, qui rassemble dans ce cadre précis l’expertise de l’équipe MLIA de l’ISIR à la BnF afin de développer un travail de recherche commun au sujet des systèmes de recommandation.

La Bibliothèque nationale de France (BnF) est l’une des plus grandes bibliothèques patrimoniales du monde, Elle a pour mission de collecter, cataloguer, conserver, enrichir et communiquer le patrimoine documentaire national. Engagée depuis de nombreuses années dans d’ambitieux programmes de numérisation de ses collections, auxquels s’ajoute désormais l’entrée large de collections nativement numériques, la BnF ne cesse d’enrichir son patrimoine numérique dont la masse, la diversité et le rythme d’accroissement nécessitent de nouveaux outils de traitement et de consultation. Pour permettre au plus grand nombre de découvrir et s’approprier ce patrimoine, la BnF s’implique depuis plusieurs années dans les applied sciences de l’intelligence artificielle (IA).

Mission et activités principales

Description du projet

Gallica, la bibliothèque numérique de la BnF, rassemble près de 10 tens of millions de paperwork numérisés librement accessibles en ligne (18,5 hundreds of thousands de visites par an). Cependant, la plupart des utilisateurs ne savent pas que Gallica contient non seulement des documents imprimés, mais également des photographies, des enregistrements sonores, des vidéos ou encore des objets 3D. Dans les enquêtes de satisfaction, seule une minorité considère que les réponses du moteur de recherche sont pertinentes et une majorité souhaiterait être mieux guidée dans ses recherches. Un système de recommandation doit pouvoir aider les utilisateurs à se repérer dans la masse des collections et améliorer la visibilité des plus méconnues. Dans ce projet, la BnF s’interact à adopter une démarche résolument éthique. L’exploitation des logs des utilisateurs doit respecter leur vie privée et garantir à la fois la pertinence et la transparence des algorithmes, en évitant les risques de bulles de filtre. Le design de l’interface est également au cœur de la démarche : un système digne de confiance repose sur une bonne expérience utilisateur et sur la diversité et la pertinence des recommandations proposées. Trois axes de réflexion se dégagent :

sur la base des données disponibles, comprenant à la fois les logs des utilisateurs et les descriptions des collections, comment développer des algorithmes de prédiction ?
remark intégrer la diversité dans l’algorithme de recommandation tout en laissant le choix à l’utilisateur de modérer son seuil de sérendipité ?
remark instaurer la confiance des utilisateurs en matière de conception et d’audit des algorithmes ?

Missions principales

Ce projet consiste à travailler sur l’accès à l’info dans la bibliothèque Gallica, du level de vue des methods d’apprentissage machine et profond. Les axes de recherche concernent (1) l’analyse et l’indexation des paperwork textuels ainsi que (2) l’analyse des traces utilisateur et (3) les systèmes de recommandation. Nous nous intéresserons en particulier aux methods multimodales qui permettent de contextualiser un document ou une requête à partir des interactions d’utilisateurs.

La candidate ou le candidat retenu.e aura pour mission de :

● Mettre en œuvre des modèles pour apprendre la sémantique des données textuelles dans le however de les indexer.
● Développer des algorithmes basés sur des méthodologies d’apprentissage de représentation pour mêler efficacement texte et traces utilisateur.
● Rendre compte et présenter le travail de développement de manière claire et efficace, à la fois pour discuter avec les specialists de la BnF et rédiger des publications en machine studying.

La collection des livres imprimés sera prioritairement visée par le programme décrit ci-avant, mais une extension à d’autres collections dotées de descripteurs textuels (en particulier des collections iconographiques) pourra être envisagée.

Formation

Un diplôme de doctorat en informatique ou équivalent est nécessaire, ainsi qu’un solide file scientifique, notamment en NLP et/ou Systèmes de recommandation et/ou Recherche d’info. Une expérience des projets de recherche internationaux et des purposes en SHS serait un atout.

Informations générales

Lieux : Campus Pierre et Marie Curie de Sorbonne Université et Datalab de la BnF
Contrat : à durée déterminée de 12 mois avec possibilité d’un prolongement
Date d’embauche prévue : le plus tôt attainable
Quotité de travail : temps complet
Expérience souhaitée : 1 à 3 années
Salaire selon expérience

Principaux interlocuteurs

Laure Soulier, MCF en informatique à Sorbonne Université, équipe MLIA, ISIR.
Emmanuelle Bermès, Adjointe scientifique et method au Directeur des providers et des réseaux de la BnF.
Jean-Philippe Moreux, Professional scientifique de Gallica à la BnF.

Encadrement : NON
Conduite de projet : OUI

Connaissances et compétences

Une solide formation en traitement du langage naturel ou en analyse de texte est essentielle, et de bonnes compétences en programmation sont requises. Une expérience des systèmes de recommandation est supposée. Une compréhension des enjeux éthiques de tels systèmes est également attendue. Langue& : connaissance du français non obligatoire mais fortement souhaitée.

Candidater

Les candidatures (CV + motivations + références éventuelles) sont à adresser par e-mail à xavier.fresquet@sorbonne-universite.fr avec copie à philippe.chevallier@bnf.fr.

Corps : Contrat postdoctoral de 12 mois (renouvelable)
Rattachement : UMR 7222 ISIR
Mot-clés : apprentissage automatique, explicabilité, bases de données, informatique, mathématiques appliquées, statistiques, traitement du langage naturel, recommandation