
Angela Bonifati lauréate d'une bourse ERC Advanced grant
Projet GO-Y : Unification entre les bases de données en graphes et les modèles causaux.
La causalité est une abstraction fondamentale qui permet de comprendre de nombreux phénomènes du monde réel. Elle occupe une place centrale dans l’intelligence humaine et devient un élément clé en intelligence artificielle, notamment pour expliquer les processus de décision. Les relations de cause à effet et les probabilités conditionnelles sont au cœur des modèles causaux structurels, qui offrent un moyen concis de représenter le processus de génération des données entre variables.
Un graphe causal orienté acyclique (DAG) associe un ensemble de variables à une distribution de probabilité conjointe. Ce type de graphe possède une interprétation probabiliste, où chaque variable est indépendante de ses non-descendants conditionnellement à ses parents directs. Il a aussi une signification causale : les arêtes orientées représentent des influences causales entre les variables. Le raisonnement causal, basé sur ces graphes, permet de dériver des probabilités interventionnelles à partir des probabilités conditionnelles observées, sans nécessiter d’expérimentations supplémentaires. Les probabilités interventionnelles permettent de modéliser ce qui se passerait si l’on intervenait activement dans un système, au lieu de simplement observer les choses telles qu'elles sont.
Parallèlement, les graphes sont au cœur des systèmes de gestion de données à grande échelle. Ils y apportent une expressivité riche et une grande puissance de traitement. À présent, les domaines de la causalité et de la gestion de données en graphes se développent séparément. La causalité se concentre sur l’analyse et l’inférence à partir de graphes validés empiriquement, souvent via des scripts conçus spécifiquement à cet effet. En revanche, la gestion des graphes s’intéresse à l’interrogation et à l’intégration de données à l’aide de langages déclaratifs.
Cette séparation limite les synergies possibles entre les deux approches. Ce projet ERC Advanced grant vise à combler ce fossé en explorant une nouvelle voie : la gestion de données guidée par la causalité. Il ambitionne de faire des relations causales des éléments de premier ordre dans les bases de données en graphes, en encodant les probabilités conditionnelles et interventionnelles à travers des opérations déclaratives. Ces opérations constituent ainsi la base d’une analyse causale rigoureuse, ouvrant de nouvelles perspectives dans la gestion intelligente des données avec des retombées fortes en industrie et dans plusieurs domaines scientifiques.