Découvrez nos équipes et nos offres data intelligence
L´objectif est de mettre en place une solution de Data Intelligence, de bénéficier d´une solution accessible par les acteurs actuels et futurs dans un contexte sécurisable. Pour cela, il faudra tout de même déployer la solution : Kwanzeo peut vous aider à accélérer cette étape en la réalisant pour vous ou en vous fournissant des scripts sous forme de QuickStarter.
Découvrez comment déployer Azure Data Services dans la série des videos Kezako.data
Episode 1. Le Portail Azure
Episode 2. Synapse Analytics. Partie Pool SQL
Nous retrouvons dans Azure des briques classiques et d´autres innovantes tenant leur puissance du Cloud.
ETL / ELT : pour bénéficier de la puissance des données lors de la prise de décision, il faut aller les chercher dans le reste du système d´information,
chez les partenaires, fournisseurs, clients ou bien à l´extérieur (chez tout fournisseur de données intéressantes).
La solution la plus simple est d´utiliser un ETL (Extract, Transform and Load).
Le but de cette phase importante de tout projet décisionnel (estimée à 70% du temps projet global) est de créer les conditions de rapatriement des données dans un contexte
cyclique en traitant les aspects "qualité de données" et en ayant la possibilité de réorganiser l´information. Les développeurs / utilisateurs de l´ETL développeront des « batchs ».
Ces batchs regroupent un ensemble de commandes pour l´ETL et lui permettant de rassembler dans l´infocentre les données nécessaires pour mettre en place le bon pilotage.
Dans l´offre « On-Premise » de Microsoft, l´ETL se fait par le biais de SSIS (SQL Server Integration Services).
ADF (Azure Data Factory) assure cette fonction dans l´offre Cloud de Microsoft.
Les nouvelles capacités de traitement de la donnée dans les services cloud ont notamment permis l´émergence et la démocratisation de l´ELT (Extract, Load and Transform).
La donnée est d´abord déplacée en l´état de la source vers la cible. Elle est, par la suite, traitée et unifiée.
Azure Data Factory (ADF) permet de se connecter à de nombreuses sources On-Prem et Cloud et de construire les flux des données graphiquement ou par code.
L´objectif est de construire des pipelines et de profiter des 80 connecteurs natifs permettant de se connecter rapidement aux sources de données.
La solution permet de mettre en place une démarche simple (CI/CD) de livraison continue et de surveillance des processus.
D´autres moyens de se connecter pour extraire des données existent (Stream Analytics, connexions à des APIs...).
Azure SQL Database est un moteur de bases de données relationnelles, proposé comme un service (PaaS - Platform as a Service). Il vous permet de créer, gérer et interroger vos bases de données dans Azure. L´administration y est simplifiée et économique. Elle est compatible avec SQL Server on-premise et vous permet donc de migrer votre infrastructure existante même si certains codes devraient être modifiés. La qualité de la donnée pourra être au cœur des préoccupations. Azure SQL Database DB vous permet de faire des backups automatiques, de la restauration de bases à la demande, de la géo-réplication, etc. avec un SLA de 99,995%. Vous choisissez ainsi une solution de stockage de vos bases de données professionnelle et sécurisée. Deux types de facturation sont proposées pour plus de souplesse (DTU -unité de transaction ou Vcore - Virtual Core).
Azure Synapse Analytics (anciennement Azure SQL Data Warehouse) permet de créer plus efficacement le cœur du Data Warehouse et donne accès au Big Data. Il permet le stockage de l´entrepôt de données (modélisation en étoile, operational Data Store (ODS) orienté décisionnel et Staging). Il dispose de moyens d´interroger ces données y compris sur des gros volumes de données en optant pour la meilleure stratégie de calcul (serverless ou en dimensionnant le besoin). Il est la solution pour répondre aux besoins de Business Intelligence et de Machine Learning. L´utilisateur peut opter pour un usage orienté interface ou écrire le code associé via des langages classiques (usage de requêtes via T-SQL, langage Big data avec Python, Scala, R et .NET). Azure Synapse se connecte à Azure Data Lake, Azure Machine Learning, Azure Databricks et Power BI entre autres. Azure Synapse permet ainsi aux Data Engineers, aux Data Scientistes et IT pros un véritable travail collaboratif. La scalabilité est très aisée. Si, par exemple, l´analyse d´un flux de données est gourmande le matin mais ne l´est pas l´après-midi, la plate-forme sera réglée en conséquence. Le réglage des Data Warehouse Units (DWU) permet de fixer la puissance de calcul et d´optimiser le ratio temps de calcul/coût. Cette élasticité est un atout majeur car elle permet de paralléliser les calculs.
Azure Data Lake : le stockage Blob Azure est le système de stockage orienté objet d´Azure. Il est le socle de Azure Data Lake Storage Gen2. Le Data Lake permet d´entreposer un grand volume de données et notamment des fichiers non structurés utilisés en IA. Microsoft recommande d´utiliser Azure Data Lake comme socle de Azure Synapse Analytics.
AAS (Azure Analysis Services) : solution PaaS d´analyse de données similaire aux fonctionnalités de Microsoft SSAS. Elle peut traiter un gros volume de données pour pouvoir y faire des calculs ad-hoc sous forme de modèles de données tabulaires. AAS peut être connecté à Excel ou Power BI pour une exploration simple et rapide des données.
Databricks : solution Open Source qui s´appuie sur Apache Spark. Elle est le support de l´usage d´algorithme de Data Science et permet des développements simples (Notebooks) pour les data scientistes dans divers langages informatiques (dont le fameux python). L´objectif est d´utiliser les logiques Big Data pour chercher à prédire. Par exemple, dans le cas d´une segmentation des clients, l´utilisateur pourra créer des clusters (éléments proches). Databricks permettra de créer le plus intelligemment ce cluster ce qui permettra de choisir une stratégie de communication adaptée à des clients que l´on n´aurait pas imaginés comme « proche ». Databricks contient une solution de Machine Learning et peut diffuser ses résultats en continue ou les transmettre à Power BI par exemple.
D´une façon générale, Power BI pourra être utilisé pour restituer et partager les calculs effectués par les différentes solutions sous forme de rapports et de tableaux de bord.
Le 4 Novembre 2019, Microsoft annonce en fanfare le service Azure Synapse Analytics ! Ne l'appelez plus Azure SQL Data Warehouse qu'ils disaient… Nouveau nom, nouveau logo et même nouveau concept de Workspace et de Provisioned / On-demand SQL Pools (actuellement en Public Preview) ! Mais pourquoi ? Qu'est-ce que cela change au final pour l'utilisateur qui se trouve confus par ce changement ?
>>>>> lire l'article
Découvrez nos équipes et nos offres data intelligence