
Copy Job dans Microsoft Fabric
Qu'est-ce que Copy Job ?
La tâche de copie (copy job) dans Microsoft Fabric Data Factory est une fonctionnalité simplifiée conçue pour une ingestion efficace des données. elle fournit une méthode simplifiée pour déplacer les données d’un système source vers un Lake house ou un Warehouse. Axé sur l’ingestion, elle élimine le besoin d’un développement personnalisé , offrant une interface graphique de configuration conviviale ou un assistant pour une installation rapide. Cela en fait une solution idéale pour gérer des charges de données incrémentielles et synchroniser efficacement de grands ensembles de données, permettant aux utilisateurs de se concentrer sur les informations sur les données plutôt que sur la complexité du pipeline.
En quelques clics, vous pouvez créer une tâche de copie pour déplacer vos données. Une fois la tâche exécutée, vous recevrez une vue complète du mouvement des données, garantissant une surveillance transparente.
Avantages du Copy Job
Le Copy Job simplifie et améliore l’expérience d’ingestion de données grâce à une interface utilisateur plus intuitive et des capacités avancées :
1. Expérience intuitive : Copiez vos données facilement et sans compromis.
2. Efficacité : Simplifie la copie incrémentale, réduisant l’intervention manuelle, avec une meilleure utilisation des ressources et des temps d’exécution plus courts.
3. Flexibilité : Contrôlez vos transferts de données :
-
- Sélection des tables/colonnes.
- Mapping des données.
- Définition des comportements de lecture/écriture.
- Programmation des tâches (ponctuelles ou récurrentes).
4. Performance robuste : Infrastructure sans serveur, optimisant le transfert de données à grande échelle grâce à un parallélisme élevé. Grâce à sa configuration sans serveur et à son traitement parallèle, il utilise efficacement les ressources réseau et de stockage pour de meilleures performances. Qu’il s’agisse de transferts groupés(bulk) ou de mises à jour, Copy Job garantit des transferts fluides et plus rapides avec des coûts réduits et une meilleure efficacité.
Connecteurs supportés :
Modes de copie et comportement :
1. Styles de livraison des données :
- Mode copie complète : Copie l’intégralité des données à chaque exécution.
- Mode copie incrémentale : Copie initiale complète, puis transfert uniquement des modifications (grâce à une colonne incrémentale). Une colonne incrémentale (timestamp ou entier croissant) sert de repère pour identifier les nouvelles données à copier.
- Par défaut : Les données sont ajoutées (append) au stockage cible.
- Options : Modifier le comportement pour upsert (mise à jour/insertion) ou overwrite (remplacement complet).
Dans cet exemple je vais illustrer les étapes faites pour effectuer un full copy d’une table sous Azure SQL DB vers un Lake house existant :
Étape 1 : Se connecter à Fabric, choisir le Workspace, et choisir Data Factory.

Étape 2 : Dans la page Data Factory, choisir le composent Copy Job.

Étape 3 : Une nouvelle fenêtre apparaîtra, donnez un nom à la tâche de copie et cliquez sur « Créer ». Dans cet exemple, la tâche est nommée Copyjob_Kwanzeo.

Étape 4 : Cliquer sur « Créer » ouvre un assistant pour guider le processus de création de la tâche.

La première étape consiste à choisir la source de données.
Étape 5 : Dans cet exemple, la source est une base de données Azure SQL. Entrez les détails de la connexion et cliquez sur « Suivant » après avoir rempli les champs.

Étape 6 : Sélectionnez les données à transférer vers la destination en choisissant les tables requises. Toutes les tables peuvent être sélectionnées, ou bien des tables spécifiques. Un aperçu des données de la table sélectionnée est disponible. Après la sélection, cliquez sur « Suivant »

Étape 7 : Sélectionnez la destination des données. Dans cet exemple, notre destination est le Lake house»

Étape 8 : Effectuez le mappage vers la destination. Ici, les noms des tables de destination peuvent être modifiés, et le mappage, le schéma ainsi que les types de données peuvent être ajustés manuellement ou en sélectionnant des options.

Étape 9 : Sélectionnez la méthode souhaitée pour copier les données. Ce mode sera appliqué à chaque exécution de la tâche, qu’il s’agisse d’une tâche ponctuelle ou récurrente. Une fois la nouvelle tâche de copie créée, elle peut être planifiée pour des exécutions régulières, et son état peut être surveillé. Il y a 3 options : Copie complète, Copie incrémentielle et Copie en streaming. Dans cet exemple, une Copie complète est effectuée.

Pour une copie incrémentielle, une colonne incrémentielle doit être présente dans la table.

Étape 10 : L’étape suivante consiste à réviser et enregistrer, où la tâche peut être enregistrée et exécutée. Une fois la tâche exécutée, elle copiera la table dans le Lake house et restera inactive jusqu’à ce qu’elle soit redémarrée manuellement ou programmée pour une nouvelle exécution. Les résultats seront affichés, incluant des détails tels que la source, la destination, l’état (réussi ou échoué), les lignes lues, les lignes écrites, l’heure de début de l’exécution et l’heure de fin de l’exécution.
