Recherche…


Introduction

L'article décrit les différents environnements dans lesquels les données peuvent résider et les caractéristiques des données et de l'environnement à chaque étape du cycle de vie des données.

Cycle de vie des données

Les données sont généralement perçues comme des données statiques entrées dans une base de données et interrogées ultérieurement. Mais dans de nombreux environnements, les données sont en réalité plus similaires à un produit dans une chaîne de montage, passant d'un environnement à un autre et subissant des transformations en cours de route.

entrer la description de l'image ici

■ OLTP: traitement transactionnel en ligne

■ DSA: zone de stockage des données

■ DW: entrepôt de données

■ BISM: modèle sémantique de Business Intelligence

■ DM: exploration de données

■ ETL: extraire, transformer et charger

■ MDX: expressions multidimensionnelles

■ DAX: expressions d'analyse de données

■ DMX: Extensions d'exploration de données

Traitement transactionnel en ligne

Les données sont entrées initialement dans un système de traitement transactionnel en ligne (OLTP). Un système OLTP met l'accent sur la saisie de données et non sur la génération de rapports: les transactions consistent principalement à insérer, mettre à jour et supprimer des données. Cependant, un environnement OLTP ne convient pas à des fins de génération de rapports, car un modèle normalisé implique généralement de nombreuses tables (une pour chaque entité) avec des relations complexes. Même les rapports les plus simples nécessitent de joindre plusieurs tables, ce qui entraîne des requêtes complexes et peu performantes.

Entrepôts de données

Un entrepôt de données (DW) est un environnement conçu à des fins de récupération et de génération de rapports. Quand il sert une organisation entière; un tel environnement est appelé un entrepôt de données; lorsqu'il ne dessert qu'une partie de l'organisation ou un domaine dans l'organisation, on l'appelle un magasin de données. Le modèle de données d'un entrepôt de données est conçu et optimisé principalement pour prendre en charge les besoins de récupération de données. Le modèle a une redondance intentionnelle, moins de tables et des relations plus simples, ce qui aboutit à des requêtes plus simples et plus efficaces par rapport à un environnement OLTP.

Le processus qui extrait les données des systèmes source (OLTP et autres), les manipule et les charge dans l'entrepôt de données est appelé extraction, transformation et chargement ou ETL.

Le processus ETL impliquera souvent l'utilisation d'une zone de transfert de données (DSA) entre l'OLTP et le DW. Le DSA réside généralement dans une base de données relationnelle telle qu'une base de données SQL Server et est utilisé comme zone de nettoyage des données. Le DSA n'est pas ouvert aux utilisateurs finaux.

Le modèle sémantique de la Business Intelligence

Le modèle sémantique Business Intelligence (BISM) est le dernier modèle de Microsoft pour prendre en charge l'intégralité de la pile d'applications BI. L’idée est de fournir des capacités d’analyse et de reporting riches, flexibles, efficaces et évolutives. Son architecture comprend trois couches:

  • le modèle de données
  • logique métier et requêtes
  • accès aux données

Le déploiement du modèle peut se faire sur un serveur Analysis Services ou PowerPivot. Avec Analysis Services, vous pouvez utiliser un modèle de données multidimensionnel ou un modèle tabulaire (relationnel). Avec PowerPivot, vous utilisez un modèle de données tabulaire.

La logique métier et les requêtes utilisent deux langages: les expressions multidimensionnelles (MDX), basées sur des concepts multidimensionnels, et les expressions DAX (Data Analysis Expressions), basées sur des concepts tabulaires.

La couche d'accès aux données peut obtenir ses données à partir de différentes sources: bases de données relationnelles telles que DW, fichiers, services cloud, applications métier, flux OData, etc. La couche d'accès aux données peut soit mettre en cache les données localement, soit simplement servir de couche d'intercommunication directement à partir des sources de données.

Le BISM fournit à l'utilisateur des réponses à toutes les questions possibles, mais la tâche de l'utilisateur est de poser les bonnes questions - pour trier les anomalies, les tendances et d'autres informations utiles de la mer de données.

Exploration de données

L'exploration de données (DM) est la prochaine étape. Au lieu de laisser l'utilisateur chercher des informations utiles dans la mer de données, les modèles d'exploration de données peuvent le faire pour l'utilisateur. En d'autres termes, les algorithmes d'exploration de données combinent les données et filtrent les informations utiles. Le langage utilisé pour gérer et interroger les modèles d'exploration de données est Data Mining Extensions (DMX).



Modified text is an extract of the original Stack Overflow Documentation
Sous licence CC BY-SA 3.0
Non affilié à Stack Overflow