12. Data Discovery et Data Observability (Module MDD)

Dans Tale of Data, le module de Data Discovery (MDD : Mass Data Discovery) et le module Data Observability sont couplés.

Ces deux modules permettent d’effectuer des analyses et de configurer une surveillance automatisée sur une grande quantité de jeux de données.

Il est possible d’analyser tout ou partie des jeux de données :

  • d’un serveur de base de données,

  • d’une plateforme de données cloud (ex : Snowflake, Databricks,…),

  • d’un système de fichiers, local ou cloud (tous les fichiers contenant des données structurées seront analysés : Excel, CSV, XML, Parquet, …etc.)

Les analyses et les contrôles peuvent être planifiés à la fréquence de votre choix.

Généralement le module Mass Data Discovery est utilisé en premier, car il permet d’effectuer une cartographie exhaustive des données en répondant aux questions suivantes :

  • Quels sont les jeux de données à disposition ?

  • Où sont-ils localisés ?

  • Que contiennent-ils ?

  • Quel est leur score de qualité ?

Les informations remontées automatiquement sont les suivantes :

  1. Le nombre de lignes et de colonnes de chaque jeu de données analysé

  2. Pour chaque colonne analysée :

    1. Le type de la donnée (date, entier, décimal, texte, ..etc).

    2. La nature de la données : s’agit-il d’un prénom, d’un n° de téléphone, d’un e-mail d’un pays, d’un IBAN, … Tale of Data propose en standard des dizaines de natures préconstruites, mais vous pouvez ajouter vos propres natures qui seront, elles aussi, reconnues automatiquement.

    3. Le nombre et le pourcentage de données manquantes ou invalides (ex : un n° de téléphone ou un e-mail mal formés)

    4. Des statistiques pour la colonne (moyenne, écart type, nombre de valeurs distinctes, min, max, percentiles, etc)

La Data Observability est une approche proactive de la gestion des données vous permettant d’être alerté en temps réel lorsqu’un des problèmes suivants survient dans vos données :

  • Fraîcheur

    Mes données ne sont pas mises à jour à la bonne fréquence.

  • Volume

    J’ai trop ou pas assez de lignes suite à un traitement.

  • Qualité

    J’ai des données manquantes, mal formées ou aberrantes.

  • Schéma

    Il y a eu un changement dans les colonnes (ajout, suppression, changement de type) qui fait échouer certains traitements.

  • Lignage (appelé aussi Data Lineage)

    Ma chaîne de traitements est cassée. Je veux savoir d’où vient le problème et quels sont les traitements impactés en aval.

Le module de Data Observability de Tale of Data va utiliser les informations récoltées, à la fréquence de votre choix, par le module Mass Data Discovery pour installer une surveillance et des alertes ciblées. En effet, ces informations forment des séries temporelles qu’il est possible d’analyser et de surveiller.

Par exemple, vous pouvez être alerté, si vous le souhaitez, sur le fait que le nombre de valeurs valides dans un jeu de données a diminué de plus de X% en 24h (si vous avez configuré une fréquence de surveillance d’une journée).

Il est important de noter que les modules Mass Data Discovery et Data Observability peuvent être utilisés par des profils non techniques, comme tous les modules de Tale of Data. Les données étant découvertes automatiquement, le temps de mise en place est minimal : des contrôles peuvent être lancés out-of-the box en quelque minutes, une fois les identifiants de connexion aux systèmes de stockage renseignés dans le catalogue.

En plus des contrôles massifs, des contrôles ciblés (implémentés par des flows Tale of Data) peuvent être planifiés à la fréquence de votre choix. Ces contrôles ciblés permettent :

  • d’effectuer des vérifications avancées sur mesure, spécifiques à un jeu de données (ex : des règles métier portant sur plusieurs colonnes, des jointures floues pour identifier des différences entre deux ou plusieurs jeux de données, des fonctions de dédoublonnage configurables)

  • d’effectuer des routages (i.e. séparation des enregistrements ne répondant pas aux critères édictés)

Indication

Un tutoriel vidéo complet sur le module de MDD est disponible ici.