2. La vue catalogue
2.1. La vue catalogue
Le catalogue est accessible depuis le menu principal de Tale of Data.
Le catalogue est lui-même divisé en deux parties :
2.1.1. Accès aux jeux de données
La vue Accès aux jeux de données du catalogue permet :
D’ajouter de nouvelles sources de données (fichiers, base de données).
De trouver les jeux de données dont vous avez besoin via une interface graphique unifiée simple d’utilisation. L’interface est la même quel que soit le système de stockage sous-jacent (fichiers, base de données).
De téléverser un fichier depuis votre ordinateur.
D”importer un ou plusieurs jeux de données vers un Flow.
D’accéder aux jeux de données produits par un flow (cible).
D’accéder à une prévisualisation des données.
L’écran catalogue se présente comme suit :
Avec les zones principales suivantes :
2.1.2. Accès aux Référentiels
Cette vue permet d’accéder à l’ensemble des Référentiels accessibles à l’utilisateur.
Avec les zones principales suivantes :
2.2. Charger des fichiers dans Tale of Data
2.2.1. Téléversement d’un fichier
Zone où un fichier peut être téléversé par un glisser-déposer .
Répertoire de destination du système de fichiers Mon espace de travail, dans lequel le fichier sera téléversé .
Réparation d’un fichier CSV : consiste à rendre compatible un fichier CSV avec un traitement en environnement distribué :
Supprimer les lignes avant la première ligne de données ou d’en-tête.
Homogénéiser le nombre de colonnes (la plus longue ligne sert de référence et des cellules vides sont ajoutées si besoin).
Tronquer les cellules excédant la limite de 4 096 caractères.
Éliminer les lignes vides.
2.2.2. Modification du répertoire de destination pour le téléversement
Lors du téléversement, si un fichier portant le même nom que le nouveau fichier existe déjà dans le répertoire de destination du système de fichier Mon espace de travail, l’ancien fichier sera remplacé par le nouveau. Pour changer le répertoire de destination, il suffit de le sélectionner dans l’arbre avant de faire le téléversement :
2.2.3. Création, renommage et suppression des répertoires et des fichiers
En haut à gauche de l’écran catalogue, se trouve la zone suivante :
Supprimer le répertoire (et tout son contenu) ou le fichier sélectionné .
Configurer l’import du ou des jeux de données sélectionnés vers un flow (nouveau ou existant) .
Prudence
La suppression d’un répertoire ou d’un fichier est définitive !
2.3. Création de flows à partir du catalogue
Le guide de démarrage détaille une manière simple de créer un flow à partir de l’écran d’accueil, et d’ajouter des données source qui seraient aussi visibles dans le catalogue.
Cependant, il existe aussi deux autres manières de créer un flow :
en sélectionnant des jeux de données dans la vue catalogue, et en utilisant le bouton d’ajout à un flow ( sur la capture ci-dessous).
en passant par la vue des flows, et en ajoutant un flow. Ceci étant fait avant d’y ajouter tout jeu de données.
Nous détaillons la première de ces deux méthodes ci-dessous, qui s’avère le plus souvent être la plus rapide et la plus pratique, puisqu’elle part directement des jeux de données, soit pour créer un nouveau flow, soit pour les ajouter à un flow déjà existant.
2.3.1. Ajouter un ou plusieurs jeux de données à un flow (existant ou à créer)
Cette deuxième méthode est la plus rapide de toutes. En haut à gauche de l’écran catalogue, se trouve la zone suivante :
Zone de sélection du ou des jeux de données à importer vers un flow. Afin de sélectionner plusieurs jeux de données, maintenez la touche CTRL enfoncée puis cliquez sur chacun des jeux de données concernés .
La fenêtre suivante s’affiche après le clic sur le bouton de configuration de l’import vers un flow :
Bouton de configuration rapide des Opérations d’ajout : tous les jeux de données auront l’Opération d’ajout correspondante .
Onglet permettant de basculer entre nouveau flow et flows existant .
Vous pouvez rapidement ajouter les jeux de données sélectionnés dans un flow existant ou bien dans un nouveau flow, tout en configurant de quelle façon les jeux de données interagiront entre eux (Opération d’ajout) :
- Jeu de données autonome
Le jeu de données sera ajouté sans aucun lien dans un flow.
- Jeu de données avec préparation
Le jeu de données sera ajouté à un flow avec un lien vers une préparation.
- Jeu de données d’union
Le jeu de données sera ajouté à un unique nœud d’union. L’ordre des jeux de données sera conservé.
- Jeu de données de jointure
Le jeu de données sera ajouté à un unique nœud de jointure.
- Jeu de données à enrichir
Le jeu de données sera ajouté à un unique nœud d’enrichissement en tant que jeu de données recevant de nouvelles colonnes.
- Jeu de données d’enrichissement
Le jeu de données sera ajouté à un unique nœud d’enrichissement en tant que jeu de jeu de données donnant de nouvelles colonnes.
Astuce
Les paramètres de chaque jeu de données pourront être modifiés depuis le flow au besoin.
Vous pouvez réordonner les jeux de données à l’aide du Glisser-Déposer. L’ordre n’est utile que pour les Jeux de données d’union.
Une fois l’opération validée, la présentation basculera vers le flow concerné (nouveau ou pré-existant), dans la vue Flow Designer.
2.4. Autres fonctionnalités de la vue catalogue
2.4.1. Supprimer une table dans une base de données relationnelle
La sélection d’une table de base de données relationnelle (e.g. MariaDB, SQL Server, PostgreSQL…etc.) active le bouton supprimer :
Un clic sur ce bouton permet de supprimer la table, sous réserve que le compte de base de données associé à la source de données possède des permissions suffisantes pour effectuer une telle opération.
2.4.2. Afficher le nombre de lignes d’un jeu de données
Un clic droit sur un jeu de données dans le catalogue permet d’accéder à des informations sur ce jeu de données.
Le nombre de lignes dans le jeu de données : selon le type de stockage (fichier, base de données), cette information peut nécessiter plus ou moins de temps de calcul.
2.4.3. Afficher les statistiques d’un jeu de données
Avec on accède à des statistiques sur les valeurs contenues dans le jeu de données (le temps de calcul dépend du support de stockage, mais aussi du nombre de colonnes et de lignes) :
Pour chacune des colonnes du jeux de données, les mesures suivantes sont calculées :
- Count
le nombre de valeurs non vides pour la colonne.
- Mean
la moyenne des valeurs de la colonne (non pertinent pour les données de type texte ou booléen).
- Stddev
l’écart-type des valeurs de la colonne (non pertinent pour les données de type texte ou booléen).
- Min
la plus petite des valeurs de la colonne.
- Pourcentile 25
la valeur, pour la colonne, en deçà de laquelle se situent 25% des lignes du jeu de données (non pertinent pour les données de type texte ou booléen).
- Pourcentile 50
la valeur, pour la colonne, en deçà de laquelle se situent 50% des lignes du jeu de données (non pertinent pour les données de type texte ou booléen). Il s’agit donc de la médiane.
- Pourcentile 75
la valeur, pour la colonne, en deçà de laquelle se situent 75% des lignes du jeu de données (non pertinent pour les données de type texte ou booléen).
- Max
la plus grande des valeurs de la colonne.
2.4.4. Télécharger un jeu de données depuis le catalogue
En sélectionnant un jeu de données dans l’arbre du catalogue, une Zone de configuration de téléchargement apparaît.
Les possibilités de configuration dépendent du type de jeu de données sélectionné. Si l’on sélectionne par exemple un fichier CSV, il est possible, si l’on n’est pas satisfait par la détection automatique, de changer des paramètres comme le séparateur, l’encodage, etc.
Si vous changez la configuration, il est nécessaire de cliquer sur le bouton Appliquer afin que les nouveaux paramètres soient pris en compte.
Cliquez sur le bouton à droite du bouton Appliquer pour télécharger le jeu de données.
Le fichier téléchargé est au format csv zippé (fichier.gz).
Note
Tale of Data permet de télécharger depuis le catalogue jusqu’à 1 000 000 de lignes (les lignes au-delà de cette limite sont ignorées).
En fonction du nombre de lignes et de colonnes, le téléchargement peut prendre quelques secondes à quelques minutes.
2.5. Linéage des flows, des jeux de données et des enregistrements
La fonctionnalité de Linéage permet, en partant d’un jeu de données, de visualiser une chaîne complète de traitements de données impliquant plusieurs flows.
Dans la vue Jeux de données du catalogue :
Sélectionnez un jeu de données
(dans notre exemple·: customers_tod_final_particuliers_deduped.parquet).
La fenêtre de visualisation du Linéage s’ouvre. Deux modes de parcours sont disponibles :
Le Linéage en amont.
Le Linéage en aval.
2.5.1. Linéage en amont
Cette vue permet de naviguer dans les flows et les jeux de données qui ont contribué à créer le jeu de données sélectionné.
Vous pouvez accéder à n’importe quel Flow en amont en le sélectionnant et en cliquant sur le bouton Ouvrir le Flow .
2.5.2. Linéage en aval
Cette vue permet de naviguer dans les flows et les jeux de données alimentés par le jeu de données sélectionné. Vous pouvez accéder à n’importe quel flow en aval en le sélectionnant et en cliquant sur le bouton Ouvrir le Flow .
La vue Linéage est également disponible dans le flow, via le configurateur de n’importe quel nœud source ou cible :