2. La vue catalogue

2.1. La vue catalogue

Le catalogue est accessible depuis le menu principal de Tale of Data.

Le catalogue est lui-même divisé en deux parties :

  • L’accès image2 aux jeux de données.

  • L’accès image3 aux référentiels .

image1

2.1.1. Accès aux jeux de données

La vue Accès aux jeux de données du catalogue permet :

  • D’ajouter de nouvelles sources de données (fichiers, base de données).

  • De trouver les jeux de données dont vous avez besoin via une interface graphique unifiée simple d’utilisation. L’interface est la même quel que soit le système de stockage sous-jacent (fichiers, base de données).

  • De téléverser un fichier depuis votre ordinateur.

  • D”importer un ou plusieurs jeux de données vers un Flow.

  • D’accéder aux jeux de données produits par un flow (cible).

  • D’accéder à une prévisualisation des données.

L’écran catalogue se présente comme suit :

image18

Avec les zones principales suivantes :

  • Zone de navigation image19 et de sélection des jeux de données.

  • Zone d’information image20 du jeu de données sélectionné.

  • Zone de téléversement image21 de jeu de données.

  • Zone d’aperçu image22 du jeu de données sélectionné.

2.1.2. Accès aux Référentiels

Cette vue permet d’accéder à l’ensemble des Référentiels accessibles à l’utilisateur.

image23

Avec les zones principales suivantes :

  • Zone de navigation image24 et de sélection des référentiels.

  • Zone d’information image25 du référentiel sélectionné.

  • Zone d’aperçu image26 des données du référentiel sélectionné.

2.2. Charger des fichiers dans Tale of Data

2.2.1. Téléversement d’un fichier

image27

  • Ouvre la boîte de dialogue de sélection de fichier image28.

  • Zone où un fichier peut être téléversé par un glisser-déposer image29.

  • Répertoire de destination du système de fichiers Mon espace de travail, dans lequel le fichier sera téléversé image30.

  • Réparation d’un fichier CSV image31 : consiste à rendre compatible un fichier CSV avec un traitement en environnement distribué :

    • Supprimer les lignes avant la première ligne de données ou d’en-tête.

    • Homogénéiser le nombre de colonnes (la plus longue ligne sert de référence et des cellules vides sont ajoutées si besoin).

    • Tronquer les cellules excédant la limite de 4 096 caractères.

    • Éliminer les lignes vides.

2.2.2. Modification du répertoire de destination pour le téléversement

Lors du téléversement, si un fichier portant le même nom que le nouveau fichier existe déjà dans le répertoire de destination du système de fichier Mon espace de travail, l’ancien fichier sera remplacé par le nouveau. Pour changer le répertoire de destination, il suffit de le sélectionner dans l’arbre avant de faire le téléversement :

image32

  • Sélection du répertoire de destination « ToD Demo » dans l’arbre image33.

  • Confirmation du répertoire de destination sélectionné image34. Tous les fichiers téléversés seront déposés dans ce répertoire.

2.2.3. Création, renommage et suppression des répertoires et des fichiers

En haut à gauche de l’écran catalogue, se trouve la zone suivante :

image35

  • Créer un répertoire image36.

  • Renommer le répertoire ou le fichier sélectionné image37.

  • Supprimer le répertoire (et tout son contenu) ou le fichier sélectionné image38.

  • Configurer l’import du ou des jeux de données sélectionnés vers un flow (nouveau ou existant) image39.

Prudence

La suppression d’un répertoire ou d’un fichier est définitive !

2.3. Création de flows à partir du catalogue

Le guide de démarrage détaille une manière simple de créer un flow à partir de l’écran d’accueil, et d’ajouter des données source qui seraient aussi visibles dans le catalogue.

Cependant, il existe aussi deux autres manières de créer un flow :

  • en sélectionnant des jeux de données dans la vue catalogue, et en utilisant le bouton d’ajout à un flow (image54 sur la capture ci-dessous).

  • en passant par la vue des flows, et en ajoutant un flow. Ceci étant fait avant d’y ajouter tout jeu de données.

Nous détaillons la première de ces deux méthodes ci-dessous, qui s’avère le plus souvent être la plus rapide et la plus pratique, puisqu’elle part directement des jeux de données, soit pour créer un nouveau flow, soit pour les ajouter à un flow déjà existant.

2.3.1. Ajouter un ou plusieurs jeux de données à un flow (existant ou à créer)

Cette deuxième méthode est la plus rapide de toutes. En haut à gauche de l’écran catalogue, se trouve la zone suivante :

image52

  • Zone de sélection du ou des jeux de données à importer vers un flow. Afin de sélectionner plusieurs jeux de données, maintenez la touche CTRL enfoncée puis cliquez sur chacun des jeux de données concernés image53.

  • Bouton de configuration de l’import vers un flow image54.

La fenêtre suivante s’affiche après le clic sur le bouton de configuration de l’import vers un flow :

image55

  • Liste des jeux de données sélectionnés précédemment image56.

  • Opérations d’ajout image57.

  • Bouton de configuration rapide des Opérations d’ajout : tous les jeux de données auront l’Opération d’ajout correspondante image58.

  • Onglet permettant de basculer entre nouveau flow et flows existant image59.

Vous pouvez rapidement ajouter les jeux de données sélectionnés dans un flow existant ou bien dans un nouveau flow, tout en configurant de quelle façon les jeux de données interagiront entre eux (Opération d’ajout) :

Jeu de données autonome

Le jeu de données sera ajouté sans aucun lien dans un flow.

Jeu de données avec préparation

Le jeu de données sera ajouté à un flow avec un lien vers une préparation.

Jeu de données d’union

Le jeu de données sera ajouté à un unique nœud d’union. L’ordre des jeux de données sera conservé.

Jeu de données de jointure

Le jeu de données sera ajouté à un unique nœud de jointure.

Jeu de données à enrichir

Le jeu de données sera ajouté à un unique nœud d’enrichissement en tant que jeu de données recevant de nouvelles colonnes.

Jeu de données d’enrichissement

Le jeu de données sera ajouté à un unique nœud d’enrichissement en tant que jeu de jeu de données donnant de nouvelles colonnes.

Astuce

Les paramètres de chaque jeu de données pourront être modifiés depuis le flow au besoin.

Vous pouvez réordonner les jeux de données à l’aide du Glisser-Déposer. L’ordre n’est utile que pour les Jeux de données d’union.

Une fois l’opération validée, la présentation basculera vers le flow concerné (nouveau ou pré-existant), dans la vue Flow Designer.

2.4. Autres fonctionnalités de la vue catalogue

2.4.1. Supprimer une table dans une base de données relationnelle

La sélection d’une table de base de données relationnelle image40 (e.g. MariaDB, SQL Server, PostgreSQL…etc.) active le bouton supprimer image41 :

image42

Un clic sur ce bouton permet de supprimer la table, sous réserve que le compte de base de données associé à la source de données possède des permissions suffisantes pour effectuer une telle opération.

2.4.2. Afficher le nombre de lignes d’un jeu de données

Un clic droit sur un jeu de données dans le catalogue permet d’accéder à des informations sur ce jeu de données.

image43

Le nombre de lignes image44 dans le jeu de données : selon le type de stockage (fichier, base de données), cette information peut nécessiter plus ou moins de temps de calcul.

2.4.3. Afficher les statistiques d’un jeu de données

Avec image45 on accède à des statistiques sur les valeurs contenues dans le jeu de données (le temps de calcul dépend du support de stockage, mais aussi du nombre de colonnes et de lignes) :

image46

Pour chacune des colonnes du jeux de données, les mesures suivantes sont calculées :

Count

le nombre de valeurs non vides pour la colonne.

Mean

la moyenne des valeurs de la colonne (non pertinent pour les données de type texte ou booléen).

Stddev

l’écart-type des valeurs de la colonne (non pertinent pour les données de type texte ou booléen).

Min

la plus petite des valeurs de la colonne.

Pourcentile 25

la valeur, pour la colonne, en deçà de laquelle se situent 25% des lignes du jeu de données (non pertinent pour les données de type texte ou booléen).

Pourcentile 50

la valeur, pour la colonne, en deçà de laquelle se situent 50% des lignes du jeu de données (non pertinent pour les données de type texte ou booléen). Il s’agit donc de la médiane.

Pourcentile 75

la valeur, pour la colonne, en deçà de laquelle se situent 75% des lignes du jeu de données (non pertinent pour les données de type texte ou booléen).

Max

la plus grande des valeurs de la colonne.

2.4.4. Télécharger un jeu de données depuis le catalogue

En sélectionnant un jeu de données dans l’arbre du catalogue, une Zone de configuration image47 de téléchargement apparaît.

Les possibilités de configuration dépendent du type de jeu de données sélectionné. Si l’on sélectionne par exemple un fichier CSV, il est possible, si l’on n’est pas satisfait par la détection automatique, de changer des paramètres comme le séparateur, l’encodage, etc.

Si vous changez la configuration, il est nécessaire de cliquer sur le bouton Appliquer image48 afin que les nouveaux paramètres soient pris en compte.

Cliquez sur le bouton image49 image50 à droite du bouton Appliquer pour télécharger le jeu de données.

Le fichier téléchargé est au format csv zippé (fichier.gz).

image51

Note

Tale of Data permet de télécharger depuis le catalogue jusqu’à 1 000 000 de lignes (les lignes au-delà de cette limite sont ignorées).

En fonction du nombre de lignes et de colonnes, le téléchargement peut prendre quelques secondes à quelques minutes.

2.5. Linéage des flows, des jeux de données et des enregistrements

La fonctionnalité de Linéage permet, en partant d’un jeu de données, de visualiser une chaîne complète de traitements de données impliquant plusieurs flows.

image60

Dans la vue Jeux de données du catalogue :

  • Sélectionnez un jeu de données image61

    (dans notre exemple·: customers_tod_final_particuliers_deduped.parquet).

  • Cliquez sur le bouton avec une icône de cible image62 image63.

La fenêtre de visualisation du Linéage s’ouvre. Deux modes de parcours sont disponibles :

  • Le Linéage en amont.

  • Le Linéage en aval.

2.5.1. Linéage en amont

image64

Cette vue permet de naviguer dans les flows et les jeux de données qui ont contribué à créer le jeu de données sélectionné.

Vous pouvez accéder à n’importe quel Flow en amont en le sélectionnant et en cliquant sur le bouton Ouvrir le Flow image65.

2.5.2. Linéage en aval

image66

Cette vue permet de naviguer dans les flows et les jeux de données alimentés par le jeu de données sélectionné. Vous pouvez accéder à n’importe quel flow en aval en le sélectionnant et en cliquant sur le bouton Ouvrir le Flow image67.

La vue Linéage est également disponible dans le flow, via le configurateur de n’importe quel nœud source ou cible :

image68

Accès à la vue Linéage depuis un flow image69