12. Mass Data Discovery

Note

Un tutoriel vidéo complet sur le module de Mass Data Discovery est disponible ici.

Le module Mass Data Discovery offre la possibilité d’analyser n’importe quelle(s) source(s) de données afin de :

  • Réaliser la cartographie sémantique (nature).

  • Réaliser la cartographie des données à caractère personnel (RGPD).

  • Réaliser la cartographie des anomalies.

  • Mesurer la qualité des données.

  • Suivre l’évolution dans le temps des différentes cartographies.

Les sources de données existantes du catalogue peuvent être réutilisées et être de n’importe quel type.

12.1. Fonctionnement d’une analyse

Lorsqu’une analyse est lancée, le Mass Data Discovery va parcourir l’ensemble des jeux de données de la ou des sources de données sélectionnée(s) en effectuant une inférence pour les types de données lorsque c’est nécessaire (par exemple pour les fichiers CSV) ainsi qu’une inférence des natures (e-mails, téléphones, etc.).

Le Mass Data Discovery va ensuite collecter pour chacun des champs :

  • Le nombre de cellules.

  • Le nombre de valeurs invalides de type.

  • Le nombre de valeurs invalides de nature.

  • Le nombre de valeurs manquantes.

  • Le nombre de valeurs valides de type.

  • Le nombre de valeurs valides de nature.

  • Des exemples de valeurs invalides de type.

  • Des exemples de valeurs invalides de nature.

L’ensemble des résultats est consolidé dans un système de stockage afin de présenter les informations collectées de manière adaptée à différents besoins :

  • Vue instantanée de la cartographie des anomalies.

  • Vue instantanée de la cartographie des natures.

  • Vue historique de l’évolution des anomalies.

  • Vue historique de l’évolution des natures.

  • Rapports PDF.

  • Rapports Excel pour des exploitations externes.

La liste des jeux de données supportés est disponible ici.

12.2. Cartographie des anomalies

12.2.1. Dernières cartographies

Cet écran présente la vue actualisée de la cartographie des anomalies : seuls les derniers résultats d’analyse sont pris en compte. C’est une vue instantanée de la cartographie des anomalies.

image528

  • Bouton permettant d’accéder à l’écran du Mass Data Discovery image529.

  • Zone présentant une vue d’ensemble des anomalies par source de données et jeu de données image530.

  • Zone présentant une vue synthétique des anomalies en fonction de la source de données ou du jeu de données sélectionné : les données des sous-éléments sont agrégées au niveau de l’élément sélectionné image531.

  • Bouton permettant de configurer puis de démarrer une analyse d’une ou plusieurs source(s) de données image532.

  • Bouton permettant d’ajouter une source de données image533.

  • Bouton permettant de créer un flow à partir du jeu de données sélectionné image534.

  • Bouton permettant de télécharger le rapport synthétique de la cartographie des anomalies au format PDF (les données dépendent de l’élément sélectionné dans l’arbre de gauche) image535.

  • Bouton permettant de télécharger les données brutes de la cartographie des anomalies au format Excel (les données dépendent de l’élément sélectionné dans l’arbre de gauche) image536.

12.2.2. Historique

Cet écran présente l’évolution de la cartographie des anomalies par analyse pour le jeu de données sélectionné.

image537

12.3. Cartographie sémantique

12.3.1. Dernières cartographies

Cet écran présente la vue la plus à jour de la cartographie des natures : seuls les derniers résultats d’analyse sont pris en compte. C’est une vue instantanée de la cartographie des natures, par conséquent, seuls les champs avec une nature sont affichés.

image538

  • Bouton permettant d’accéder à l’écran du Mass Data Discovery image539.

  • Zone présentant l’ensemble des natures. En gras les natures dites RGPD (données à caractère personnel) image540. La sélection d’un ou plusieurs éléments permet de filtrer les résultats (partie droite de l’écran).

  • Bouton permettant de sélectionner / désélectionner directement les natures dites RGPD image541.

  • Bouton permettant de configurer puis de démarrer une analyse d’une ou plusieurs source(s) de données image542.

  • Zone présentant le nombre de valeurs pour les natures sélectionnées, réparti par source de données image543. En l’absence de sélection, l’ensemble des résultats ayant une nature est affiché.

  • Zone présentant le détail de la cartographie des natures par champ image544. Seuls les champs ayant des natures sont affichés.

  • Bouton permettant de télécharger les données brutes de la cartographie des natures au format Excel (les données dépendent de l’élément sélectionné dans la table de gauche) image545.

12.3.2. Historique

Cet écran présente l’évolution de la cartographie des natures par analyse pour le jeu de données sélectionné. Seuls les champs avec une nature sont affichés.

image546

12.4. Démarrer une analyse

Cliquer sur le bouton Démarrer une analyse.

L’écran de configuration suivant apparaît :

image547

Sélectionner la ou les source(s) de données à analyser.

Cliquer sur le bouton Démarrer une analyse.

12.4.1. Paramètre d’analyse

12.4.1.1. Laisser la date de dernier accès inchangée

Lors de l’analyse d’une source de données de type Stockage de fichiers, les dates de dernier accès de chacun des fichiers analysés sont modifiées. Bien que ce comportement soit normal, il se peut que vous ayez besoin de conserver ces dates telles quelles. Dans ce cas, cochez la case.