12.1. Vue des analyses

La liste des analyses se trouve dans la section Mass Data Discovery de Tale of Data, dans la première entrée du sous-menu, au sein du premier onglet.

image555

  • Pour créer une nouvelle analyse, appuyer sur Nouvelle Analyse en haut à droite. La section suivante détaille le paramétrage de la nouvelle analyse.

  • Pour modifier une analyse existante, utiliser le petit crayon sur la ligne correspondant à celle-ci.

  • Pour lancer une analyse, il suffit de la créer et d’appuyer sur le bouton Exécuter maintenant dans la fenêtre de paramétrage, une fois l’analyse bien configurée. Si l’analyse a déjà été configurée, il est possible de la lancer directement à l’aide du bouton « play » à côté du petit crayon.

12.2. Configuration d’une analyse

12.2.1. Paramètres généraux

Les paramètres généraux permettent tout d’abord de définir un nom, une description et un groupe pour l’analyse.

image556

12.2.2. Sources de données

Dans l’onglet sources de données, il est possible de sélectionner simultanément plusieurs sources parmi l’ensemble des sources disponibles dans le catalogue de l’utilisateur. On peut ouvrir les hiérarchies au sein des sources pour piocher un groupe de tables, ou une table ou des fichiers individuels. Ainsi, Tale of Data propose une grande flexibilité dans la définition des systèmes à analyser et chaque analyse peut s’intéresser à des jeux de données très différents en nombre et en complexité.

image557

12.2.3. Natures

L’onglet Natures permet de sélectionner spécifiquement des natures de données visant qui seront identifiées au cours de l’analyse. Au moins une nature doit être sélectionnée.

image558

12.2.4. Statistiques avancées

Il est possible en option d’activer le calcul de statistiques avancées. Ce calcul créera de la charge sur le serveur fournissant les données et ne doit pas être utilisé si les résultats ne sont pas utiles pour l’utilisateur, car il ralentit et alourdit l’analyse. Les statistiques produites peuvent se montrer extrêmement utiles pour caractériser en masse des jeux de données.

Les statistiques collectées sont:

  • count_distinct

    Compte du nombre de valeurs distinctes dans la colonne

  • mean

    Calcul de la valeur moyenne pour les colonnes numériques

  • stddev

    Calcul de la déviation standard ( variation ou dispersion ) des valeurs pour les colonnes numériques

  • min

    Valeur minimale de la colonne

  • percentile_5

    Calcul du pourcentile 5 pour les colonnes numériques, en-dessous duquel 5% des observations tombent

  • percentile_25

    Calcul du pourcentile 25 pour les colonnes numériques, en-dessous duquel 25% des observations tombent

  • percentile_50

    Calcul du pourcentile 50 pour les colonnes numériques, en-dessous duquel 50% des observations tombent

  • percentile_75

    Calcul du pourcentile 75 pour les colonnes numériques, en-dessous duquel 75% des observations tombent

  • percentile_95

    Calcul du pourcentile 95 pour les colonnes numériques, en-dessous duquel 95% des observations tombent

  • max

    Valeur maximale de la colonne

Concernant le calcul du nombre de valeurs distinctes, deux options sont disponibles :

  • Un calcul basé sur une estimation du nombre de valeurs distinctes

  • Une mesure exacte de ces valeurs distinctes

image559

Ces statistiques seront accessibles après l’analyse par deux moyens:

12.2.5. Export des résultats

Cet onglet permet d’exporter, à la fin de l’analyse, les résultats bruts dans une table. Si cette cible est dans une base de données, il sera possible de spécifier directement la table. Si cette cible est dans un système de fichiers (comme « mon espace de travail » par exemple), alors il faudra spécifier un format CSV ou Parquet.

Deux modes d’écriture sont disponibles :

  • Ajouter des données à la fin de la table cible (Les résultats sont ajoutés à la suite de l’agrégation des données sources pour former une table unique).

  • Écraser les données de la table cible (es résultats remplacent les données existantes pour créer une nouvelle table).

image560

Lorsqu’une cible d’export a été configuré, elle sera mentionné en bas du panneau à droite comme indiqué sur la copie d’écran ci-dessous.

image565

12.2.6. Flow ou séquence de flows à déclencher en sortie d’analyse

Dans cet onglet, il est possible de sélectionner des flows ou des séquences de flows existants, qui pourront être déclenchés automatiquement à la fin de l’analyse afin d’automatiser certaines tâches (par exemple, préparer des données à partir des résultats obtenus).

image561

12.2.7. Planification

En complément de l’onglet précédent, il est également possible d’automatiser une analyse créée. Il suffit pour cela de définir le rythme des exécutions directement dans cet onglet.

image562

Indication

La fréquence de répétition doit être d’au moins 10 minutes.

12.3. Vue des exécutions

Lorsqu’une analyse est lancée, le Mass Data Discovery va parcourir l’ensemble des jeux de données de la ou des sources de données sélectionnée(s). Ceci étant afin d’effectuer une inférence pour les types de données lorsque c’est nécessaire (par exemple pour les fichiers CSV) ainsi qu’une inférence des natures (e-mails, téléphones, etc.).

Toutes exécutions, qu’elles soient lancées, en cours, interrompues ou terminées, seront visibles dans la table Exécutions des analyses. Une fois l’exécution terminée, les résultats pourront être consultés en cliquant sur le bouton Ouvrir, comme illustré ci-dessous.

image563

12.3.1. Arrêt et reprise de l’exécution

Une exécution lancée peut être arrêtée à tout moment en appuyant sur le bouton carré rouge interrompre l’analyse.

image569

Il est possible de la relancer à tout moment en appuyant sur le bouton orange reprendre l’analyse.

image568

Pendant le déroulement d’une analyse, il est possible que certaines tables présentent des erreurs à la lecture. Ceci peut intervenir par exemple si sur la table concernée:

  • il y a des problèmes de format, ou

  • certaines des colonnes de la table ne sont pas lisibles par Tale of Data, ou

  • la connexion n’autorise pas l’accès à cette table (lecture interdite)

Si cela se produit, l’analyse MDD se poursuivra, et un rapport d’erreur listant les tables dont le scan a échoué, et pour chacune d’entre elles la raison, sera immédiatement disponible en téléchargement, en complément des résultats qui auront pu être calculés.

image570