Monday, May 26, 2025

Dataplateforme - datacatalog

 



1. Les fonctions importantes d’un data catalog

Pour une data plateforme, un catalogue de données doit typiquement offrir :

  • Découverte de données : Rechercher datasets, tables, vues, schéma, etc.
  • Gestion des métadonnées : Stocker, enrichir et rechercher des informations sur les structures et les données.
  • Gouvernance et contrôle d’accès : Gérer les droits d’accès, le lignage des données, le versionning et l’audit.
  • Support du versionning : Historique des modifications, rollback, time travel.
  • Intégration avec les outils de l’écosystème : connexion avec compute engines, BI, ingestion, etc.
  • Gestion des schémas évolutifs : Prise en charge de l’évolution des schémas (ajout, suppression ou modification des colonnes sans casser la pipeline).
  • Support multi-tenant / multi-branche : Isoler différents environnements (prod, dev, etc.) via des “branches” de catalogues (fonctionnalité phare de Nessie).

    

2. Points clés de différentiation

Solution Versionning Multi-branche Métadonnées enrichies Gouvernance Intégration Iceberg Recherche cross-source Sécurité Entreprise
Nessie Oui Oui Moyen Bonne Native Non Moyen
Dremio Arctic Oui Oui (data-as-code) Elevées Avancée Native Non Elevée (dans Sonar)
Starburst Non natif* Non Oui Très bonne Oui (via connecteurs) Oui Très forte
Hive Glue Basique Non Oui Basique Oui Non Basique

(*) : Starburst peut utiliser le versionning des catalogues sous-jacents (Glue, Nessie, etc) mais ne le gère pas nativement dans tous les cas.

No comments:

Post a Comment

Ma journée du 01 Décembre 2025

En ce premier jour de décembre, l'heure est venue, De conter une histoire, par les dés soutenue. Quinze dés ont roulé, offrant leur dest...