Si ma tête en avait on l'appellerait mon ongle: Dataplateforme

Monday, May 26, 2025

1. Les fonctions importantes d’un data catalog

Pour une data plateforme, un catalogue de données doit typiquement offrir :

Découverte de données : Rechercher datasets, tables, vues, schéma, etc.
Gestion des métadonnées : Stocker, enrichir et rechercher des informations sur les structures et les données.
Gouvernance et contrôle d’accès : Gérer les droits d’accès, le lignage des données, le versionning et l’audit.
Support du versionning : Historique des modifications, rollback, time travel.
Intégration avec les outils de l’écosystème : connexion avec compute engines, BI, ingestion, etc.
Gestion des schémas évolutifs : Prise en charge de l’évolution des schémas (ajout, suppression ou modification des colonnes sans casser la pipeline).
Support multi-tenant / multi-branche : Isoler différents environnements (prod, dev, etc.) via des “branches” de catalogues (fonctionnalité phare de Nessie).

Solution	Versionning	Multi-branche	Métadonnées enrichies	Gouvernance	Intégration Iceberg	Recherche cross-source	Sécurité Entreprise
Nessie	Oui	Oui	Moyen	Bonne	Native	Non	Moyen
Dremio Arctic	Oui	Oui (data-as-code)	Elevées	Avancée	Native	Non	Elevée (dans Sonar)
Starburst	Non natif*	Non	Oui	Très bonne	Oui (via connecteurs)	Oui	Très forte
Hive Glue	Basique	Non	Oui	Basique	Oui	Non	Basique

(*) : Starburst peut utiliser le versionning des catalogues sous-jacents (Glue, Nessie, etc) mais ne le gère pas nativement dans tous les cas.