12. Mass Data Discovery
Note
Un tutoriel vidéo complet sur le module de Mass Data Discovery est disponible ici.
Le module Mass Data Discovery offre la possibilité d’analyser n’importe quelle(s) source(s) de données afin de :
Réaliser la cartographie sémantique (nature).
Réaliser la cartographie des données à caractère personnel (RGPD).
Réaliser la cartographie des anomalies.
Mesurer la qualité des données.
Suivre l’évolution dans le temps des différentes cartographies.
Les sources de données existantes du catalogue peuvent être réutilisées et être de n’importe quel type.
12.1. Fonctionnement d’une analyse
Lorsqu’une analyse est lancée, le Mass Data Discovery va parcourir l’ensemble des jeux de données de la ou des sources de données sélectionnée(s) en effectuant une inférence pour les types de données lorsque c’est nécessaire (par exemple pour les fichiers CSV) ainsi qu’une inférence des natures (e-mails, téléphones, etc.).
Le Mass Data Discovery va ensuite collecter pour chacun des champs :
Le nombre de cellules.
Le nombre de valeurs invalides de type.
Le nombre de valeurs invalides de nature.
Le nombre de valeurs manquantes.
Le nombre de valeurs valides de type.
Le nombre de valeurs valides de nature.
Des exemples de valeurs invalides de type.
Des exemples de valeurs invalides de nature.
L’ensemble des résultats est consolidé dans un système de stockage afin de présenter les informations collectées de manière adaptée à différents besoins :
Vue instantanée de la cartographie des anomalies.
Vue instantanée de la cartographie des natures.
Vue historique de l’évolution des anomalies.
Vue historique de l’évolution des natures.
Rapports PDF.
Rapports Excel pour des exploitations externes.
La liste des jeux de données supportés est disponible ici.
12.2. Cartographie des anomalies
12.2.1. Dernières cartographies
Cet écran présente la vue actualisée de la cartographie des anomalies : seuls les derniers résultats d’analyse sont pris en compte. C’est une vue instantanée de la cartographie des anomalies.
Bouton permettant d’accéder à l’écran du Mass Data Discovery .
Zone présentant une vue d’ensemble des anomalies par source de données et jeu de données .
Zone présentant une vue synthétique des anomalies en fonction de la source de données ou du jeu de données sélectionné : les données des sous-éléments sont agrégées au niveau de l’élément sélectionné .
Bouton permettant de configurer puis de démarrer une analyse d’une ou plusieurs source(s) de données .
Bouton permettant de créer un flow à partir du jeu de données sélectionné .
Bouton permettant de télécharger le rapport synthétique de la cartographie des anomalies au format PDF (les données dépendent de l’élément sélectionné dans l’arbre de gauche) .
Bouton permettant de télécharger les données brutes de la cartographie des anomalies au format Excel (les données dépendent de l’élément sélectionné dans l’arbre de gauche) .
12.2.2. Historique
Cet écran présente l’évolution de la cartographie des anomalies par analyse pour le jeu de données sélectionné.
12.3. Cartographie sémantique
12.3.1. Dernières cartographies
Cet écran présente la vue la plus à jour de la cartographie des natures : seuls les derniers résultats d’analyse sont pris en compte. C’est une vue instantanée de la cartographie des natures, par conséquent, seuls les champs avec une nature sont affichés.
Bouton permettant d’accéder à l’écran du Mass Data Discovery .
Zone présentant l’ensemble des natures. En gras les natures dites RGPD (données à caractère personnel) . La sélection d’un ou plusieurs éléments permet de filtrer les résultats (partie droite de l’écran).
Bouton permettant de sélectionner / désélectionner directement les natures dites RGPD .
Bouton permettant de configurer puis de démarrer une analyse d’une ou plusieurs source(s) de données .
Zone présentant le nombre de valeurs pour les natures sélectionnées, réparti par source de données . En l’absence de sélection, l’ensemble des résultats ayant une nature est affiché.
Zone présentant le détail de la cartographie des natures par champ . Seuls les champs ayant des natures sont affichés.
Bouton permettant de télécharger les données brutes de la cartographie des natures au format Excel (les données dépendent de l’élément sélectionné dans la table de gauche) .
12.3.2. Historique
Cet écran présente l’évolution de la cartographie des natures par analyse pour le jeu de données sélectionné. Seuls les champs avec une nature sont affichés.
12.4. Démarrer une analyse
Cliquer sur le bouton Démarrer une analyse.
L’écran de configuration suivant apparaît :
Sélectionner la ou les source(s) de données à analyser.
Cliquer sur le bouton Démarrer une analyse.
12.4.1. Paramètre d’analyse
12.4.1.1. Laisser la date de dernier accès inchangée
Lors de l’analyse d’une source de données de type Stockage de fichiers, les dates de dernier accès de chacun des fichiers analysés sont modifiées. Bien que ce comportement soit normal, il se peut que vous ayez besoin de conserver ces dates telles quelles. Dans ce cas, cochez la case.