Lexique de la data
Base de données
C’est un ensemble de fichiers contenant les données collectées, sous une forme standardisée : lignes, colonnes, tableaux. Les bases de données (BDD) ont pour but de stocker, organiser et permettre d’analyser les données via des requêtes (par exemple type SQL).
La BBD est sauvegardée sur un serveur. Le choix du type de BDD dépendra du volume de data à exploiter et des temps de réponse nécessaires.
Pour modéliser une base de données, on fait un schéma de modèle conceptuel de données (MCD) : identification des concepts, les associations entre les concepts, la multiplicité de ces associations; puis un modèle logique de données (MLD) en intégrant les clés (primaires, étrangères) permettant de relier les tables entre elles.
Base de données multidimensionnelle
La base de données multidimensionnelle considère chaque attribut d’une donnée (ex. le produit, les régions géographiques, ou la période temporelle) comme une dimension « séparée ». L’intersection des dimensions est par exemple la quantité de cheeseburgers vendus à Toulouse au dessus d’un certain prix pendant une période spécifique. Il peut aussi y avoir des sous-attributs (ex. les différentes périodes de temps).
Aide à découvrir des relations entre les données
SQL relationnelle : PostgreSQL, MySQL, Oracle, SQL Server
NoSQL
Cloud (privé ou public ou hybride)
MySQL
Le plus populaire des logiciels de base de données, gratuit et régulièrement mis à jour avec de nouvelles fonctionnalités et des améliorations de sécurité. Des versions payantes existent pour de meilleurs fonctionnalités.
PostgreSQL
Le plus ancien des logiciels de base de données, il peut être difficile à configurer. Peut être hébergé sur un environnement virtuel, physique et aussi dans le cloud.
Microsoft SQL Server
Grand classique dans l’univers des logiciels de base de données, fonctionnant sur les serveurs locaux et dans le cloud. Très performant pour traiter les données temporelles.
SQL
Structured Query Language. C’est un langage de requête qui permet d’interroger facilement des bases de données. Une requête peut avoir plusieurs buts : accéder à une donnée, ajouter une donnée, modifier la structure des tables, etc.
Cube
Un cube est basé sur un modèle logique, dit multidimensionnel, qui facilite l’analyse suivant différentes dimensions et granularité. Ce modèle organise les données en terme de table de fait et de tables de dimensions => Schéma en étoile ou en Flocon de neige. On ne parle plus de table de données, mais d’un cube de données.
Le Cube permet d’effectuer des requêtes afin de répondre aux questions particulières des métiers
OLAP
OLAP (Online Analytical Processing) est une technologie permettant d’effectuer des analyses de données multidimensionnelles, pour des utilisateurs professionnels non techniques. Les cubes OLAP sont connectés à des bases de données créées à cet effet. Les applications sont, par exemple, l’analyse de tendances, les calculs complexes, le data modeling, la prévision, le budgeting, la planification, le reporting financier, l’analyse, les modèles de simulation, la knowledge discovery et le Data Warehouse Reporting
Nécessite un serveur OLAP
Data Warehouse
Un entrepôt de données (Data Warehouse) est une technologie qui regroupe des données structurées (agrégées et historisées) provenant d’une ou de plusieurs sources (systèmes transactionnels) afin qu’elles puissent être comparées et analysées en business intelligence. Il peut regrouper toutes les données et bases de données pour tous les départements de l’entreprise.
DataMart
Un datamart est une ‘sous’ base de données du Data Warehouse, dont le contenu est en rapport avec une activité de l’entreprise (ou métier, ou département) et qui est créé pour répondre aux besoins spécifiques d’un groupe d’utilisateurs. Il est de fait plus léger et réactif que le Data Warehouse.
DataMart marketing et commercial, DataMart Ressources Humaines, DataMart financier
SAP Hana
Le petit nouveau des logiciels de base de données, qui peut traiter des données SAP et non SAP (sources physiques ou dans le cloud). Il allie des fonctionnalités de BDD, mais aussi des options d’analytique avancée, de management des informations d’entreprise,… Quelques points forts : la compression qui réduit les besoins en ressources, la capacité de gérer les stocks et de produire des rapports en temps réel. Toutes ces fonctions s’exécutent dans la mémoire vive, au sein d’une seule plateforme.
Mongo DB
Ce logiciel peut utiliser des données structurées et non structurées. À noter qu’il est adaptable, flexible, rapide, facile et simple à utiliser, même pour les débutants.
Cloud
Serveur informatique physique qui stocke les données, mais qui n’appartient pas à l’utilisateur, et qui n’est pas situé dans ses locaux. Les avantages sont : les données sont rapidement accessibles à partir d’une connexion internet, l’utilisateur délègue la charge de maintenance du serveur, des mises à jour, de la sécurité, des sauvegardes au propriétaire du serveur cloud, et l’implémentation est rapide. De plus, c’est la meilleure solution si votre équipe IT est trop petite, et également si vous êtes en pleine croissance et qu’il vous faut prévoir plus de stockage de façon flexible. L’inconvénient principal est le ‘loyer’ à payer jusqu’à la fin du contrat, et de ce fait la dépendance aux fluctuations de prix.
On premise
L’opposé du stockage en cloud. Le serveur physique appartient à l’utilisateur, et est le plus souvent situé dans ses locaux. C’est l’utilisateur qui le gère. Les principaux avantages : il est complètement dédié à l’utilisateur (pas de partage de performance, confidentialité des données, paramétrage sur mesure selon le besoin de l’entreprise), l’implémentation est un gros investissement mais il n’y a pas de ‘loyer’ annuel ou mensuel à payer puisqu’on est propriétaire. Un inconvénient majeur est le temps et les ressources nécessaires à l’implémentation d’un tel serveur on-premise.
ERP
Un Progiciel de gestion intégré (Enterprise Resource Planning) est un système ou logiciel que les entreprises utilisent pour gérer leurs activités quotidiennes telles que la comptabilité, les achats, la gestion de projets, la gestion des risques et la conformité, ainsi que les opérations de supply chain.
On-premise (de plus en plus rare) : Data Center
Cloud : Oracle, Microsoft Dynamics 365/Business, SAP, Infor, IFS, SalesForce…
EPM
Outil de planification et reporting (Enterprise Planning Management), qui intègre aussi parfois la consolidation des comptes. Leur atout dans une grande structure est la construction collaborative et transversale des budgets prévisionnels, grâce à des workflows de processus et la traçabilité des tâches. L’outil permet de faire facilement plusieurs versions de budgets, de construire en mode bottom-up ou top-down. Avec un EPM, la préparation du budget n’est plus réservée qu’à la finance, car toute l’entreprise peut y apporter sa contribution métier.
Anaplan, Tagetik, Board, IBM TM1
SaaS
Software as a Service. Votre outil de reporting en ligne, hébergé sur un serveur qui ne vous appartient pas (l’éditeur du produit, ou l’intégrateur). Avantages : plus besoin de gérer les mises à jour, la sécurité et la maintenance du serveur.
Big Data
Le Big Data désigne d’énormes volumes de données variées et complexes, provenant de sources telles que les réseaux sociaux, les transactions commerciales, les capteurs, etc. Utilisé dans divers secteurs comme la finance et la santé, il améliore la prise de décision et la personnalisation des services.
API
Application permettant d’exploiter un code de programmation (modèle machine learning, …). Une API permet à deux systèmes informatiques d’échanger de façon automatique.
Data wrangling
Processus transformant, nettoyant et enrichissant les données pour les rendre applicables, exploitables et utiles. Contrairement au prétraitement ou à la préparation des données, le wrangling a lieu tout au long de l’analyse et de la création de modèles pour l’analytique des données. Cinq étapes majeures : explorer, transformer, nettoyer, enrichir et stocker.
Data scraping
Extraction de données d’un site web vers un format exploitable. Le scraping permet de :
– rechercher des contenus Web
– comparer les tarifs pour les réservations de voyage ou comparer un prix
– mener une étude de marché via les sources de données publiques
– chercher des canaux de vente
– transférer des données entre deux ou plusieurs sites e-commerce.
Data governance
C’est l’ensemble des règles et des process qui assurent l’organisation, la protection et la gestion des données de l’entreprise. Une entreprise qui se veut « data-driven » (pilotage par la donnée) met en place une stratégie de gouvernance de la donnée pour prendre de meilleures décisions stratégiques. Voici les étapes :
- identification puis classification des données
- politiques de gestion pour guider le traitement d’accès aux données, la modification, la suppression, la rétention et la responsabilité en cas de violation
- contrôle d’accès et sécurisation des données
- éducation et sensibilisation (bonnes pratiques)
- désigner un responsable de la protection des données
- adaptation continue, audits régulier
Business Intelligence
L’Informatique Décisionnelle (BI) est un outil stratégique permettant l’analyse des données, de présentation d’informations qui permet d’accélérer, d’améliorer et de faciliter la prise de décision et ainsi permettant d’augmenter les revenus de l’entreprise. Ses outils permettent la collecte des données, leur exploitation et la présentation visuelle en tableaux de bord.
Dictionnaire des données
Outil essentiel qui sert à documenter de manière détaillée les métadonnées associées aux données au sein d’une organisation : définition, source, format, signification, et d’autres attributs pertinents. Cela facilite la compréhension et l’interprétation uniforme des données par les utilisateurs.
Il est recommandé une mise à jour facile et régulière du document.