Thèse de Samuele Langhi


Sujet :
Suivi efficace des incohérences sur les flux de données.

Date de début : 01/10/2021
Date de fin (estimée) : 01/10/2024

Encadrant : Angela Bonifati
Co-encadrant : Riccardo Tommasini

Résumé :

Les requêtes continues ont émergé comme un paradigme prévalent dans la gestion des données en streaming, pourtant l'étude de la qualité des données dans de tels scénarios reste peu explorée. Dans ce contexte, garantir la cohérence des données est primordial pour des résultats de requête précis et fiables. Les approches traditionnelles pour répondre aux requêtes informées par la qualité dans des environnements statiques ne se traduisent pas parfaitement aux scénarios de streaming. Nous proposons une nouvelle approche, appelée réponse à la requête consciente de la cohérence, qui annotent les données avec des degrés d'incohérence plutôt que de corriger directement les erreurs. En exploitant des annotations basées sur la provenance et des demi-anneaux, cette approche permet un suivi détaillé de l'incohérence sans altérer le flux lui-même. Cependant, des défis tels que la gestion des flux non bornés et le maintien de l'efficacité persistent. Notre travail aborde ces défis à travers un processus en deux étapes. Tout d'abord, nous introduisons des contraintes adaptées aux données en streaming, facilitant l'analyse de la cohérence sur des flux non bornés en exploitant leurs caractéristiques. Nous proposons également une approche basée sur les graphes pour un suivi efficace de l'incohérence. Ensuite, nous concevons des opérateurs de streaming capables de préserver les garanties formelles pendant le processus d'annotation grâce à l'intégration de la gestion de la provenance. Notre approche offre une solution prometteuse pour garantir la qualité des données dans les environnements de streaming.