Kezako.data
Découvrir Microsoft Azure Data Services
Episode 3. Azure Data Factory



Transcription du Kezako.data
Episode 3. Azure Data Factory

"Bonjour à tous et bienvenue pour ce troisième épisode de Kézako.data Azure Data Services.

Aujourd´hui, je vous présente Azure Data Factory.

Je me présente, je suis Séverine Capon, Architecte Data chez Kwanzeo.

Lors des épisodes précédents, je vous ai présenté Azure Synapse Analytics et les Blob Storage ainsi que le Portail Azure .

Aujourd´hui, je parlerai de Azure Data Factory qui va nous permettre de faire la liaison entre votre système amont ou aval en terme de données et votre plateforme de Data Intelligence.

Je vais aborder les points suivants :
1. Présentation
- Pourquoi ADF (Azure Data Factory) est un ELT ?
- Ses composants
- Focus IR (Integration Runtime)
2. Démonstration
- Création d´une Data Factory
3. Démonstration
- Création d´une Pipeline donc d'un process de copie de données et de transformation de données



1. Présentation

> Pourquoi ADF est un ELT

ADF est un ELT parce qu'il permet de faire de l'extraction, du chargement et de la transformation.

De l'extraction, à partir de plus de 80 sources de données disponibles dont des sources dans le Cloud ou On-Premise, sur vos serveurs d'entreprise.
Exemples :
- Amazon Redshift
- SAP
- Azure Data Lake Storage Gen2
- FTP
- REST
- Azure SQL Database
- Azure Synapse Analytic (formerly SQL DW)
- SQL Server
- Oracle
- File System
- Snowflake

Et le chargement, c'est pareil on va pouvoir le faire sur ces 80 mêmes sources.

La transformation est quant à elle effectuée via des activités.
ADF permet de transformer des données via des activités.
Ces activités peuvent être :
- Des procédures stockées,
- Des Notebooks Databricks,
- Des exécutions Machine Learning,
- Des Packages SSIS,
- etc.


> Les composants Azure Data Factory :

> Pipelines : une suite ordonnée d´activités à exécuter sous SSIS. Si je fais le pendant, cela va être la partie Control flow.
> Activities : il en existe trois types principaux :
- Copie : qui va permettre l'extraction et le chargement des données à partir de ces 80 types de sources,
- Exécution : transformation des données par activité,
- Itération ou de condition : boucles de traitement ou traitements conditionnels à inclure dans les flux de données.
> Data flows : permet de définir des logiques de transformation de la donnée de manière graphique. Les Data flows reposent sur un Cluster Spark, qui peut être très coûteux. On peut faire ses transformations là, par d'autres moyens que par un Cluster Spark.
> Datasets : jeux de données avec une structure colonne. Un Dataset est lié à un Linked Service, c'est la chaîne de connexion.
> Linked Services : chaînes de connexions aux sources de données.
> Integration Runtime : c'est le coeur de l'Infrastructure de l'Azure Data Factory. Infrastructure (Azure, Self-Hosted, Azure-SSIS) d´exécution des activités.
> Triggers : qui correspondraient sous SSIS au Job SQL entre autre qui va permettre aux Eléments de déclencher l'exécution d'une ou de plusieurs pipelines. Une pipeline Data Factory peut être exécutée de différentes manières : Schedules, Tumbling Window, Event Based, Manual.
> Templates : utiliser les templates de pipelines (depuis la galerie publique ou ceux partagés par les collaborateurs) afin de faciliter et accélérer le développement des pipelines sous ADF.


> Focus Integration Runtime (IR) :

C'est l'infrastructure de calcul de Data Factory.

Il en existe trois types :
Azure : qui est le type par défaut qui va permettre les mouvements de données depuis ou vers un réseau public ... alors on peut être sur Azure et sur un réseau public ou un réseau privé. Lorsque l'on est sur Azure avec un réseau privé, c'est que l'on a mis les éléments de Database ou de données sur ce que l'on appelle communément un Virtual Network et on va permettre, sur le type Azure, également l'exécution d'activités sur les éléments qui sont sur le réseau public.
Self-hosted : pour les mouvements de données depuis ou vers un réseau privé et l'exécution d'activités sur le réseau privé. Nécessite une VM.
Azure – SSIS : pour l'exécution de packages SSIS. C'est ce type là que l'on utilise lorsque l'on doit migrer les packages SSIS de On-prem vers Azure.


2. Démonstration

> Création d'une Data Factory :

Je vais vous montrer comment on crée Azure Data Factory sous Azure.
... On se met sur le Ressource Group ou l'on souhaite créer l'Azure Data Factory....Je vérifie la version, on est bien en V2, l'abonnement, le Ressource Group, l'emplacement, ...le paramétrage qui est lié à GitHub.
Pourquoi ? Simplement, le développement que vous allez pouvoir faire, va être versionné par GitHub sous Azure Data Factory....
Pour en savoir plus, suivre la Démo via la vidéo ci-dessus.


3. Démonstration

> Création d'une Pipeline donc d'un process de copie de données et de transformation de données :

... Pour en savoir plus, suivre la Démo de la vidéo ci-dessus.

... Au terme de ces trois épisodes de Kézako.data Azure Data Services, on est arrivé sur une Architecture de Data Intelligence simple ou on a notre ELT qui va permettre l'interface entre les systèmes amont et aval, ...les systèmes amont pour récupérer l'information et le DataLake Storage pour copier les données bruts dessus et la partie du Pool Synapse Analytics pour la partie de l'entrepôt de données ...
On aurait pu très bien plugger Power BI dessus sur Synapse Analytics ou DataLake Blob Storage, avec une préférence sur Synapse Analytics et on a déjà une Architecture simple de Data Intelligence.

Merci d'avoir suivi ce troisième épisode de Kezako.data Azure Data Services !

Pour les prochains épisodes de notre série Kezako.Data sur Microsoft Azure Data Services, je vais aborder, Azure SQL DB, intéressant sur des Architectures à faible volumétrie (Episode 4) et deux autres notions qui sont l'Infra As Code (IaC) sur les ressources Data (Episode 5) et l'Intégration continue ou le Déploiement continu (CI/CD) pour la notion de Data (Episode 6) et les Databricks (Episode 7) puis l'Azure Analysis Services (Episode 8).

Pour toutes questions ou projets à déployer, vous pouvez me joindre par mail à : contact@kwanzeo.com ou en remplissant le formulaire.

A bientôt, Séverine"



Bénéficiez de Microsoft Azure Data avec Kwanzeo

Vous souhaitez mettre en place une solution de Data Intelligence dans Azure ?

Nos spécialistes sont là pour échanger et travailler avec vous et vos collaborateurs, pour vous aider à concrétiser votre projet et/ou renforcer vos équipes. Démarrons ensemble !

N'hésitez pas à nous contacter par mail à contact@kwanzeo.com ou en remplissant notre formulaire.