logo de copy job fabric

Copy Job dans Microsoft Fabric

Qu'est-ce que Copy Job ?

La tâche de copie (copy job) dans Microsoft Fabric Data Factory est une fonctionnalité simplifiée conçue pour une ingestion efficace des données. elle fournit une méthode simplifiée pour déplacer les données d’un système source vers un Lake house ou un Warehouse. Axé sur l’ingestion, elle élimine le besoin d’un développement personnalisé , offrant une interface graphique de configuration conviviale ou un assistant pour une installation rapide. Cela en fait une solution idéale pour gérer des charges de données incrémentielles et synchroniser efficacement de grands ensembles de données, permettant aux utilisateurs de se concentrer sur les informations sur les données plutôt que sur la complexité du pipeline.

En quelques clics, vous pouvez créer une tâche de copie pour déplacer vos données. Une fois la tâche exécutée, vous recevrez une vue complète du mouvement des données, garantissant une surveillance transparente.

Avantages du Copy Job

Le Copy Job simplifie et améliore l’expérience d’ingestion de données grâce à une interface utilisateur plus intuitive et des capacités avancées :
1. Expérience intuitive : Copiez vos données facilement et sans compromis.
2. Efficacité : Simplifie la copie incrémentale, réduisant l’intervention manuelle, avec une meilleure utilisation des ressources et des temps d’exécution plus courts.
3. Flexibilité : Contrôlez vos transferts de données :

    • Sélection des tables/colonnes.
    • Mapping des données.
    • Définition des comportements de lecture/écriture.
    • Programmation des tâches (ponctuelles ou récurrentes).

4. Performance robuste : Infrastructure sans serveur, optimisant le transfert de données à grande échelle grâce à un parallélisme élevé. Grâce à sa configuration sans serveur et à son traitement parallèle, il utilise efficacement les ressources réseau et de stockage pour de meilleures performances. Qu’il s’agisse de transferts groupés(bulk) ou de mises à jour, Copy Job garantit des transferts fluides et plus rapides avec des coûts réduits et une meilleure efficacité.

Connecteurs supportés :

Le Copy Job supporte à la fois les transferts de données dans le cloud et les transferts depuis des environnements locaux (via une passerelle). Les connecteurs disponibles incluent :
  • Bases de données : Azure SQL DB, On-premises SQL Server, Amazon RDS pour SQL Server.
  • Entrepôts de données : Fabric Warehouse, Fabric Lake house.
  • Stockages cloud : Amazon S3, Azure Blob Storage, Azure Data Lake Storage Gen2.
  • Modes de copie et comportement :

    1. Styles de livraison des données :

      • Mode copie complète : Copie l’intégralité des données à chaque exécution.
      • Mode copie incrémentale : Copie initiale complète, puis transfert uniquement des modifications (grâce à une colonne incrémentale). Une colonne incrémentale (timestamp ou entier croissant) sert de repère pour identifier les nouvelles données à copier.

    2. Comportement d’écriture :
      • Par défaut : Les données sont ajoutées (append) au stockage cible.
      • Options : Modifier le comportement pour upsert (mise à jour/insertion) ou overwrite (remplacement complet).

    Dans cet exemple je vais illustrer les étapes faites pour effectuer un full copy d’une table sous Azure SQL DB vers un Lake house existant :

    Étape 1 : Se connecter à Fabric, choisir le Workspace, et choisir Data Factory.

    première étape des Illustration des étapes pour se connecter à Microsoft Fabric, choisir un Workspace et accéder à Data Factory

    Étape 2 : Dans la page Data Factory, choisir le composent Copy Job.

    Logo de Copy Job dans Microsoft Fabric, représentant un processus d’ingestion et de copie de données dans Data Factory

    Étape 3 : Une nouvelle fenêtre apparaîtra, donnez un nom à la tâche de copie et cliquez sur « Créer ». Dans cet exemple, la tâche est nommée Copyjob_Kwanzeo.

    Fenêtre de création d’une tâche de copie (Copy Job) dans Microsoft Fabric, avec un champ pour nommer la tâche et un bouton 'Créer'

    Étape 4 : Cliquer sur « Créer » ouvre un assistant pour guider le processus de création de la tâche.

    Assistant de création d’un Copy Job dans Microsoft Fabric, guidant l’utilisateur à travers le processus.

    La première étape consiste à choisir la source de données.

    Étape 5 : Dans cet exemple, la source est une base de données Azure SQL. Entrez les détails de la connexion et cliquez sur « Suivant » après avoir rempli les champs.

    Sélection de la source de données Azure SQL dans l’assistant de création de Copy Job sur Microsoft Fabric, avec les champs de connexion à remplir

    Étape 6 : Sélectionnez les données à transférer vers la destination en choisissant les tables requises. Toutes les tables peuvent être sélectionnées, ou bien des tables spécifiques. Un aperçu des données de la table sélectionnée est disponible. Après la sélection, cliquez sur « Suivant »

    Interface de sélection des tables de données à transférer dans l’assistant de création de Copy Job sur Microsoft Fabric, avec un aperçu des données.

    Étape 7 : Sélectionnez la destination des données. Dans cet exemple, notre destination est le Lake house»

    Sélection de la destination des données dans l’assistant de création de Copy Job sur Microsoft Fabric, avec le Lakehouse choisi comme destination

    Étape 8 : Effectuez le mappage vers la destination. Ici, les noms des tables de destination peuvent être modifiés, et le mappage, le schéma ainsi que les types de données peuvent être ajustés manuellement ou en sélectionnant des options.

    Interface de mappage des données vers la destination dans l’assistant de création de Copy Job sur Microsoft Fabric, avec options de modification des noms de tables, du schéma et des types de données.

    Étape 9 : Sélectionnez la méthode souhaitée pour copier les données. Ce mode sera appliqué à chaque exécution de la tâche, qu’il s’agisse d’une tâche ponctuelle ou récurrente. Une fois la nouvelle tâche de copie créée, elle peut être planifiée pour des exécutions régulières, et son état peut être surveillé. Il y a 3 options : Copie complète, Copie incrémentielle et Copie en streaming. Dans cet exemple, une Copie complète est effectuée.

    Sélection de la méthode de copie des données dans l’assistant de création de Copy Job sur Microsoft Fabric, avec les options : Copie complète, Copie incrémentielle et Copie en streaming

    Pour une copie incrémentielle, une colonne incrémentielle doit être présente dans la table.

    Colonne incrémentielle requise pour une copie incrémentielle d’une table.

    Étape 10 : L’étape suivante consiste à réviser et enregistrer, où la tâche peut être enregistrée et exécutée. Une fois la tâche exécutée, elle copiera la table dans le Lake house et restera inactive jusqu’à ce qu’elle soit redémarrée manuellement ou programmée pour une nouvelle exécution. Les résultats seront affichés, incluant des détails tels que la source, la destination, l’état (réussi ou échoué), les lignes lues, les lignes écrites, l’heure de début de l’exécution et l’heure de fin de l’exécution.

    Révision et exécution d’une tâche de copie vers le Lakehouse.