Illustration représentant l’importance de la gouvernance des données dans un système d’information complexe.

Data Governance et Data Catalog

Data Governance

Devant la complexification des systèmes d’information et l’augmentation du nombre de données à gérer, les entreprises prennent conscience que passer à une entreprise « Data driven » est une nécessité. La donnée est, en effet, un actif précieux sur lequel on va pouvoir baser ses décisions, mais à condition qu’elle soit de bonne qualité.

Les directions informatiques vont ainsi compléter leur outillage opérationnel (CRM pour les clients ou PIM pour les produits par exemple) en investissant dans des outils de MDM (Master Data Management) qui vont se concentrer sur les aspects référentiels de données et de Data Catalog qui sont spécialisés dans la documentation des données de l’entreprise.

Mais mettre en place des outils ne suffit pas. Aspect souvent négligé des projets, la Data governance est pourtant indispensable pour garantir la qualité des données dans le temps et approfondir leur connaissance par l’organisation. C’est aussi le moyen de garantir l’adoption par les membres de l’entreprise des outils mis en place.
Illustration symbolisant le concept de Data Governance comme cadre de gestion des données.

Qu'est-ce que la Data Governance ?

Une définition pourrait être « cadre méthodologique » qui permet de s’assurer que la bonne donnée est utilisée par la bonne personne, de la bonne manière afin qu’elle lui permette de réussir sa mission dans le respect de la stratégie de l’entreprise ».

Mais en quoi consiste exactement la Data governance ?

La Data governance va permettre d’établir un cadre qui va définir :

– les rôles : data owner, data steward …
– Les responsabilités de chaque rôle par domaine de données de l’entreprise (marketing, commerce, finance…)
– Les processus de gouvernance, en précisant quel rôle fait quoi à quel moment ou comment on travaille avec l’IT
– Les bonnes pratiques, politiques et standards à utiliser pour garantir des données de qualité, conformes et sécurisées qui apportent de la valeur à l’organisation : quelle documentation, quel outil utiliser (outil groupe ou à se procurer) …

Illustration du rôle central du Data Catalog dans la gouvernance des données, avec une mise en garde sur les aspects organisationnels nécessaires à son succès.

Rôle du Data Catalog dans la Data Governance

Pour la partie outillage de la gouvernance, le Data Catalog est essentiel. C’est l’outil phare de la Data governance. L’appellation de « catalog » est d’ailleurs restrictive car son rôle est bien plus large.
Ne pas oublier cependant que l’utilisation d’un Data Catalog va simplement faciliter le travail de l’équipe de Data Governance. En effet, la mise en place d’un Data Catalog ne garantit pas la réussite de la Data Governance qui reste essentiellement un sujet organisationnel et donc humain.

Data Catalog

Illustration d’un Data Catalog centralisant les métadonnées issues de différentes sources (tables, tableaux de bord, flux…).

Qu'est-ce qu'un Data Catalog ?

D’une manière générale, un Data Catalog contient les informations sur les données, qu’on appelle métadonnées, quel que soit leur contenant (tables, tableau de bord, flux de données…). Il va permettre de documenter les données de l’entreprise.

Le Data Catalog va être un des principaux outils des équipes de Data Governance. En effet, l’équipe de Data governance va s’appuyer sur le Data Catalog pour assurer sa mission. Mais l’utilisation du Data Catalog ne s’arrête pas aux équipes de Data governance. Toute l’entreprise va être amenée à l’utiliser également : IT, équipe Data mais aussi utilisateurs finaux.
A noter que certains outils du marché sont plus orientés utilisateurs finaux et d’autres davantage IT et équipe Data.

Exemples de cas d’usage d’utilisation d’un Data Catalog

  • Métier : obtenir la méthode de calcul de données, par exemple d’un chiffre d’affaires ou des KPI d’un tableau de bord
  • Data : interroger le Data Catalog afin de répondre aux exigences de Privacy (localisation des données personnelles et justification des mesures de protection)
  • IT : voir l’impact d’une modification dans une application dans tout le système d’information. L’utilisateur SI pourra voir de manière graphique quels sont les dashboards qui utilisent un champ par exemple.
  • Image illustrant les principales fonctionnalités d’un Data Catalog : collecte, documentation, qualité, sécurité, collaboration, traçabilité, recherche et assistance IA.

    Objectifs et fonctionnalités

    Un Data Catalog, selon les solutions du marché, peut proposer les fonctionnalités suivantes :

    • Collecter et centraliser tout type d’objets de données (schéma de base de données, tables, champs, tableau de bord, indicateur, flux de données …) à un seul endroit
    • Redescendre des descriptions du Data Catalog vers les sources qui l’ont alimenté
    • Permettre de retrouverfacilement les types de données (recherche)
    • Contenir la description technique des métadonnées (dictionnaire de données technique)
    • Apporter des définitions métier des données (glossaire métier). Il ne doit y avoir qu’une définition commune du chiffre d’affaires par exemple.
    • Permettre de faire le lien entre la présentation métier d’une donnée et sa traduction technique dans le système d’information
    • Vérifier la qualité / fiabilité des données et l’apprécier via des notations ou score de confiance
    • Documenter tous les objets de données avec des métadonnées : quel domaine cette donnée concerne-t-elle par exemple
    • Contenir des aspects collaboratifs via l’enrichissement par les utilisateurs des descriptions (restreint parfois selon ses droits), l’ajout de tags (donnée « certifiée » par exemple)
    • Connaitre d’où vient la donnée et par qui ou quel système elle est utilisée (lineage) et ceci de façon graphique
    • Organiser la gouvernance des données avec la définition de rôle (propriétaire…) et leur attribution aux types de données
    • Partager cette vision unique et centralisée entre tous les membres de l’entreprise suivant leur périmètre (gestion de droit d’accès).
    • Assurer la sécurité et contribuer à la conformité via l’identification automatique de données sensibles par exemple pour répondre aux exigences RGPD
    • Intégrer de l’IA pour certaines fonctionnalités comme la présence d’un assistant conversationnel permettant l’interrogation des informations du Data Catalog en langage naturel ou la génération de requêtes SQL depuis une demande en langage naturel. L’IA peut également être utilisée pour l’identification automatique de données sensibles.
    Image illustrant la priorisation des données à documenter dans un Data Catalog en fonction de critères comme la criticité, l’usage ou la sensibilité.

    Que doit-on intégrer et comment le faire ?​

    Données à documenter

    Il n’est pas forcément nécessaire de tout documenter dans le Data Catalog.
    Être exhaustif serait contre-productif et chronophage. C’est une stratégie à définir au moment de la mise en place de la gouvernance des données. Il va falloir se demander quels sont les critères permettant de prioriser les types de données qui doivent figurer dans le Data Catalog. La criticité des données, leur sensibilité, leur forte utilisation pourraient par exemple être des critères pertinents.

    L’alimentation du Data Catalog

    La collecte est l’alimentation du Data Catalog avec les métadonnées des différents types d’objet contenant la donnée (schéma de base de données, tables, champs, tableau de bord, indicateur, flux de données …).
    Cette collecte concerne à la fois l’alimentation du dictionnaire de données (métadonnées techniques), du lineage (cheminement de la donnée) et dans certains cas du glossaire métier.

    Cette collecte va pouvoir être plus ou moins automatisée en fonction des systèmes qui doivent l’alimenter et de ce que proposent les solutions de Data catalog :
  • Si un connecteur avec le système source est proposé dans le Data Catalog, la collecte pourra être automatisée et récurrente
  • Sinon, la collecte pourra se faire via le développement d’une API spécifique si le Data Catalog le permet ou à défaut via des fichiers à charger manuellement
  • Enfin la saisie directe dans le Data Catalog est bien sûre également possible mais à utiliser en dernier recours car potentiellement chronophage et source d’erreur.

    A noter que la possibilité de collecter de façon automatique le glossaire métier est plus rare. Il reviendra donc souvent au métier de compléter les définitions métier de façon manuelle dans le Data Catalog ou via l’import d’un fichier Excel (selon les outils).
  • Image montrant comment assurer la fiabilité des informations dans un Data Catalog à travers des collectes automatiques, des validations humaines et un système de notation.

    Fiabilité du contenu​

    Comment s’assurer que les informations du Data Catalog sont fiables ?

    Nous l’avons vu, une partie du contenu peut être collecté directement depuis les éléments existants (base de données, tables, rapports, flux…). Cette collecte automatique garantit une certaine fiabilité des métadonnées récupérées dans le Data Catalog. Cela concerne principalement le dictionnaire des données et les traitements.
    Pour les éléments qui n’auraient pas pu être collectés automatiquement, l’alimentation du Data Catalog sera manuelle via import de fichier Excel ou saisie et donc davantage source d’erreur.
    Il est donc de la responsabilité des membres de l’équipe de gouvernance de vérifier la véracité des informations du Data Catalog sur le périmètre qui leur est attribué et de les mettre en qualité.

    L’équipe de gouvernance va être aidée dans sa tâche par l’ensemble des utilisateurs du Data Catalog et via la mise à disposition de fonctionnalités souvent proposées par les solutions de Data Catalog :
  • Système de notation qui permet à chaque utilisateur de noter un élément pour indiquer sa fiabilité. Cette notation permet ensuite au Data Catalog de calculer une notation globale de fiabilité basée sur ces notes individuelles.
  • Cette notation est complétée également par le nombre d’utilisateurs de l’information ou par la date de dernière mise à jour

    Cette notation va permettre aux membres de l’équipe de gouvernance de repérer plus facilement les cas de non-qualité et ainsi de compléter / corriger une information mal notée. L’information du nombre d’utilisateurs de telle donnée va également leur permettre de concentrer leurs efforts vers les données les plus utilisées.
  • Le futur du Data Catalog ​

    Quelles sont les tendances vers lesquelles se tournent actuellement les Data Catalog et qui vont se développer à l’avenir ?
  • Développement de l’utilisation de l’IA et du Machine learning pour l’enrichissement automatique de métadonnées
  • Faciliter l’accès aux utilisateurs finaux via l’IA en permettant l’interrogation en langage naturel
  • Permettre la collaboration entre utilisateurs du Data Catalog via le partage de notes ou commentaires sur la donnée
  • Renforcer l’interopérabilité des data catalog pour assurer leur connexion avec divers systèmes et outils, notamment les outils de Business Intelligence
  • Tendance de plus en plus marquée de l’hébergement dans le Cloud qui offrent plus de flexibilité et une meilleure accessibilité pour les entreprises de toutes tailles
  • Retrouvez nos articles sur nos partenaires Data Catalog

    Vous souhaitez former vos équipes, nous poser des questions ? 

    Nos spécialistes sont à votre disposition via ce formulaire.