1. Les fonctions importantes d’un data catalog
Pour une data plateforme, un catalogue de données doit typiquement offrir :
- Découverte de données : Rechercher datasets, tables, vues, schéma, etc.
- Gestion des métadonnées : Stocker, enrichir et rechercher des informations sur les structures et les données.
- Gouvernance et contrôle d’accès : Gérer les droits d’accès, le lignage des données, le versionning et l’audit.
- Support du versionning : Historique des modifications, rollback, time travel.
- Intégration avec les outils de l’écosystème : connexion avec compute engines, BI, ingestion, etc.
- Gestion des schémas évolutifs : Prise en charge de l’évolution des schémas (ajout, suppression ou modification des colonnes sans casser la pipeline).
- Support multi-tenant / multi-branche : Isoler différents environnements (prod, dev, etc.) via des “branches” de catalogues (fonctionnalité phare de Nessie).
2. Points clés de différentiation
| Solution | Versionning | Multi-branche | Métadonnées enrichies | Gouvernance | Intégration Iceberg | Recherche cross-source | Sécurité Entreprise |
|---|---|---|---|---|---|---|---|
| Nessie | Oui | Oui | Moyen | Bonne | Native | Non | Moyen |
| Dremio Arctic | Oui | Oui (data-as-code) | Elevées | Avancée | Native | Non | Elevée (dans Sonar) |
| Starburst | Non natif* | Non | Oui | Très bonne | Oui (via connecteurs) | Oui | Très forte |
| Hive Glue | Basique | Non | Oui | Basique | Oui | Non | Basique |
(*) : Starburst peut utiliser le versionning des catalogues sous-jacents (Glue, Nessie, etc) mais ne le gère pas nativement dans tous les cas.
No comments:
Post a Comment