
Data Governance et Data Catalog
Data Governance
Les directions informatiques vont ainsi compléter leur outillage opérationnel (CRM pour les clients ou PIM pour les produits par exemple) en investissant dans des outils de MDM (Master Data Management) qui vont se concentrer sur les aspects référentiels de données et de Data Catalog qui sont spécialisés dans la documentation des données de l’entreprise.
Mais mettre en place des outils ne suffit pas. Aspect souvent négligé des projets, la Data governance est pourtant indispensable pour garantir la qualité des données dans le temps et approfondir leur connaissance par l’organisation. C’est aussi le moyen de garantir l’adoption par les membres de l’entreprise des outils mis en place.

Qu'est-ce que la Data Governance ?
Mais en quoi consiste exactement la Data governance ?
La Data governance va permettre d’établir un cadre qui va définir :
– les rôles : data owner, data steward …
– Les responsabilités de chaque rôle par domaine de données de l’entreprise (marketing, commerce, finance…)
– Les processus de gouvernance, en précisant quel rôle fait quoi à quel moment ou comment on travaille avec l’IT
– Les bonnes pratiques, politiques et standards à utiliser pour garantir des données de qualité, conformes et sécurisées qui apportent de la valeur à l’organisation : quelle documentation, quel outil utiliser (outil groupe ou à se procurer) …

Rôle du Data Catalog dans la Data Governance
Ne pas oublier cependant que l’utilisation d’un Data Catalog va simplement faciliter le travail de l’équipe de Data Governance. En effet, la mise en place d’un Data Catalog ne garantit pas la réussite de la Data Governance qui reste essentiellement un sujet organisationnel et donc humain.
Data Catalog

Qu'est-ce qu'un Data Catalog ?
Le Data Catalog va être un des principaux outils des équipes de Data Governance. En effet, l’équipe de Data governance va s’appuyer sur le Data Catalog pour assurer sa mission. Mais l’utilisation du Data Catalog ne s’arrête pas aux équipes de Data governance. Toute l’entreprise va être amenée à l’utiliser également : IT, équipe Data mais aussi utilisateurs finaux.
A noter que certains outils du marché sont plus orientés utilisateurs finaux et d’autres davantage IT et équipe Data.
Exemples de cas d’usage d’utilisation d’un Data Catalog

Objectifs et fonctionnalités
Un Data Catalog, selon les solutions du marché, peut proposer les fonctionnalités suivantes :
- Collecter et centraliser tout type d’objets de données (schéma de base de données, tables, champs, tableau de bord, indicateur, flux de données …) à un seul endroit
- Redescendre des descriptions du Data Catalog vers les sources qui l’ont alimenté
- Permettre de retrouverfacilement les types de données (recherche)
- Contenir la description technique des métadonnées (dictionnaire de données technique)
- Apporter des définitions métier des données (glossaire métier). Il ne doit y avoir qu’une définition commune du chiffre d’affaires par exemple.
- Permettre de faire le lien entre la présentation métier d’une donnée et sa traduction technique dans le système d’information
- Vérifier la qualité / fiabilité des données et l’apprécier via des notations ou score de confiance
- Documenter tous les objets de données avec des métadonnées : quel domaine cette donnée concerne-t-elle par exemple
- Contenir des aspects collaboratifs via l’enrichissement par les utilisateurs des descriptions (restreint parfois selon ses droits), l’ajout de tags (donnée « certifiée » par exemple)
- Connaitre d’où vient la donnée et par qui ou quel système elle est utilisée (lineage) et ceci de façon graphique
- Organiser la gouvernance des données avec la définition de rôle (propriétaire…) et leur attribution aux types de données
- Partager cette vision unique et centralisée entre tous les membres de l’entreprise suivant leur périmètre (gestion de droit d’accès).
- Assurer la sécurité et contribuer à la conformité via l’identification automatique de données sensibles par exemple pour répondre aux exigences RGPD
- Intégrer de l’IA pour certaines fonctionnalités comme la présence d’un assistant conversationnel permettant l’interrogation des informations du Data Catalog en langage naturel ou la génération de requêtes SQL depuis une demande en langage naturel. L’IA peut également être utilisée pour l’identification automatique de données sensibles.

Que doit-on intégrer et comment le faire ?
Données à documenter
Il n’est pas forcément nécessaire de tout documenter dans le Data Catalog.
Être exhaustif serait contre-productif et chronophage. C’est une stratégie à définir au moment de la mise en place de la gouvernance des données. Il va falloir se demander quels sont les critères permettant de prioriser les types de données qui doivent figurer dans le Data Catalog. La criticité des données, leur sensibilité, leur forte utilisation pourraient par exemple être des critères pertinents.
L’alimentation du Data Catalog
Cette collecte concerne à la fois l’alimentation du dictionnaire de données (métadonnées techniques), du lineage (cheminement de la donnée) et dans certains cas du glossaire métier.
Cette collecte va pouvoir être plus ou moins automatisée en fonction des systèmes qui doivent l’alimenter et de ce que proposent les solutions de Data catalog :
A noter que la possibilité de collecter de façon automatique le glossaire métier est plus rare. Il reviendra donc souvent au métier de compléter les définitions métier de façon manuelle dans le Data Catalog ou via l’import d’un fichier Excel (selon les outils).

Fiabilité du contenu
Nous l’avons vu, une partie du contenu peut être collecté directement depuis les éléments existants (base de données, tables, rapports, flux…). Cette collecte automatique garantit une certaine fiabilité des métadonnées récupérées dans le Data Catalog. Cela concerne principalement le dictionnaire des données et les traitements.
Pour les éléments qui n’auraient pas pu être collectés automatiquement, l’alimentation du Data Catalog sera manuelle via import de fichier Excel ou saisie et donc davantage source d’erreur.
Il est donc de la responsabilité des membres de l’équipe de gouvernance de vérifier la véracité des informations du Data Catalog sur le périmètre qui leur est attribué et de les mettre en qualité.
L’équipe de gouvernance va être aidée dans sa tâche par l’ensemble des utilisateurs du Data Catalog et via la mise à disposition de fonctionnalités souvent proposées par les solutions de Data Catalog :
Cette notation va permettre aux membres de l’équipe de gouvernance de repérer plus facilement les cas de non-qualité et ainsi de compléter / corriger une information mal notée. L’information du nombre d’utilisateurs de telle donnée va également leur permettre de concentrer leurs efforts vers les données les plus utilisées.
