Guide de démarrage
Note
Un tutoriel vidéo est disponible ici en complément de la documentation ci-dessous.
Tale of Data est un logiciel conçu pour les utilisateurs métier, afin de leur permettre de reprendre confiance dans leurs données et donc de prendre de bonnes décisions.
Tale of Data propose les fonctionnalités suivantes, sans avoir besoin d’écrire du code :
Fiabilisation intelligente des données,
Contrôle de la conformité des données,
Découverte des jeux de données disséminés au sein du Système d’Information,
Cartographie sémantique (nature des données) et cartographie des anomalies,
Croisement de sources de données hétérogènes, augmentation des données,
Automatisation des contrôles, des alertes et des opérations de remédiation.
Principes fondamentaux
Des données auditées, fiabilisées par les métiers pour des décisions avisées afin de maximiser vos résultats et minimiser vos risques !
Définitions
- Flow
Un flow est un traitement construit sous forme graphique. Il est constitué:
De données en entrée,
D’un ensemble de transformation,
De données de sortie.
- Nœud
Un nœud est représenté par des icônes dans un flow.
Un un nœud va servir à représenter par exemple :
Description des icônes Tale of Data
Tale of Data affiche des icônes pour vous guider.
Ecran d’accueil
Après avoir saisi votre identifiant et votre mot de passe, l’écran d’accueil apparaît.
Vous retrouvez à gauche de l’écran le menu principal de Tale of Data qui restera toujours visible.
Le menu accessible en cliquant sur votre profil utilisateur (en haut à gauche) permet de:
Paramétrer ses préférences utilisateur
Télécharger la documentation au format PDF
Se déconnecter.
Catalogue
Le catalogue est accessible depuis le menu principal de Tale of Data. Il permet:
d’accéder aux jeux de données
d’accéder à la liste des référentiels
d’ajouter de nouvelles sources de données
Créer son premier Flow
Objectif
Dans le cadre de ce guide de démarrage, nous allons créer un Flow « simple ». Ce Flow aura pour objectif de prendre des données dans un fichier, d’en filtrer certaines lignes, et d’écrire les résultats vers un autre fichier.
Pour y parvenir, vous devrez créer et paramétrer :
Indication
Ce Flow permet à un nouvel utilisateur de se familiariser avec les concepts de Tale of Data. Il s’agit d’un Flow pour assister à la prise en main, le plein potentiel de Tale of Data deviendra visible avec la pratique.
Créer le flow
Dans l’écran d’accueil :
Le Flow Designer
- Barre d’outils
(à partir de laquelle il est possible de glisser-déposer des nœuds dans le canevas).
- Canevas
(sur lequel l’utilisateur compose son Flow).
- Zone de configuration
(pour saisir et sélectionner les paramètres des nœuds utilisés dans le Flow).
- Zone de prévisualisation
(pour visionner les données d’entrée et de sortie du nœud sélectionné dans le Flow).
Indication
Cette prévisualisation est partielle. En effet, elle n’est appliquée qu’à un échantillon de lignes.
Ajouter une source de données
Faites un glisser-déposer de l’icône du nœud source de la barre d’outils sur le canevas.
Un nœud source permet de récupérer des enregistrements (en se connectant à des fichiers ou à des bases de données).
Configurer le nœud source
Vous pouvez éventuellement nommer votre nœud source .
Par exemple : « Ma Source de données »
Si vous ne le faites pas, le nœud prendra automatiquement le nom du fichier ou de la table sélectionné.
Sélectionnez dans le champ « Type de Source de Données » : Système de fichiers Tale of Data.
Note
Le champ « Sources de Données existantes » est complété automatiquement.
Appuyez sur le bouton « Sélectionner ».
Une nouvelle fenêtre apparaît.
Dans la partie « Téléverser des fichiers », appuyez sur le bouton « Sélectionner les fichiers ».
Importez le fichier de démonstration fourni avec le guide de démarrage (My_Data.csv).
Dans la partie « Sélection d’un fichier », le fichier est visible.
Cliquez sur le fichier « My_Data.csv » pour le sélectionner.
Le bouton « Sélectionner » devient coloré et donc actif.
Appuyez sur le bouton « Sélectionner ».
L’interface Flow Designer réapparaît avec votre nœud source configuré.
Note
L’icône indique que la source n’est pas encore prête à être utilisée. En effet, elle doit être liée à un nœud cible .
Note
Un aperçu des données du fichier importé est affiché dans la zone de prévisualisation en bas de l’écran.
Ajouter une cible pour les données
Faites un glisser-déposer de l’icône du nœud cible de la barre d’outils dans le canevas à côté du nœud source .
Un nœud cible permet d’envoyer des enregistrements vers un système de stockage.
Configurer le nœud cible
Vous pouvez éventuellement nommer votre nœud cible .
Par exemple : « Données traitées »
Si vous ne le faites pas, le nœud prendra automatiquement le nom du fichier ou de la table sélectionné.
Sélectionnez dans le champ « Type de Source de Données » : Système de fichiers Tale of Data.
Note
Le champ « Sources de Données existantes » est complété automatiquement.
Dans la liste déroulante du champ « Types de fichier », sélectionnez « XLSX (à partir d’Excel 2007) ».
Important
La barre orange indique qu’il faut cliquer sur le bouton « Appliquer » pour sauvegarder la configuration du nœud.
Si vous ne cliquez pas sur le bouton « Appliquer », la configuration du nœud sera perdue.
Une nouvelle partie de la zone de configuration apparaît.
Dans la partie « Options Excel (XLSX) », appuyez sur le bouton « Sélectionner ».
Une nouvelle fenêtre apparaît.
Dans la partie « Fichier de Sortie » remplissez les 2 champs :
- « Nom du Fichier », nom qui sera attribué au fichier Excel,
Par exemple : « Données Traitées »
- « Nom de la feuille », nom de la feuille de calcul où seront stockées les données.
Par exemple : « Feuille_1 »
Important
Il est nécessaire de sortir des champs de saisie pour rendre le bouton « Sélectionner » actif.
Après avoir rempli et être sorti du champ « Nom de la feuille », le bouton se colore et devient actif.
Appuyez sur le bouton « Sélectionner ».
L’interface Flow Designer réapparaît avec votre nœud cible configuré.
Mode de sauvegarde
- Ecraser (Overwrite)
pour écraser la table ou le fichier à chaque exécution du flow.
- Ajouter (Append)
pour ajouter les enregistrements à la fin d’une table ou d’un fichier existant.
- Créer (Create)
pour créer une nouvelle table ou un nouveau fichier. Dans ce cas une erreur se produira si la table (ou le fichier) existe déjà.
Note
Il peut exister d’autres modes, suivant le type de connecteur utilisé. Les trois modes listés ici sont communs à quasiment tous les connecteurs Tale of Data et sont les plus utilisés.
Relier les nœuds
Pour créer un lien entre deux items du Flow :
Faites glisser la souris vers le nœud cible en maintenant le bouton gauche de la souris enfoncé.
Relâchez le bouton gauche de la souris une fois au-dessus du nœud cible .
Vous avez créé le lien entre les deux nœuds.
Note
La bulle avec le point d’exclamation a disparu : le lien est valide et les nœuds sont prêts à être utilisés.
Ajouter un nœud filtre
Nous souhaitons filtrer les lignes provenant du fichier d’entrée, et ne conserver que les lignes pour lesquelles les entrées de la colonne « Pays » sont « France ». Pour cela nous allons introduire un noeud filtre dans notre flow, comme intermédiaire entre les données d’entrée et les données de sortie.
Configurer le nœud filtre
Dans la partie Prédicats, accédez à la liste déroulante en cliquant sur la flèche.
Le contenu de la liste déroulante est généré en fonction du fichier chargé.
Sélectionnez « Pays ». Deux nouveaux champs apparaissent.
Dans le champ vide, saisissez la valeur « France ». Avec la condition « equal to » (qui signifie « est égal à »), le filtre sera sera sensible à la casse de la valeur saisie (minuscule, majuscule).
Appuyez sur le bouton « Appliquer ».
Un aperçu des données filtrées s’affiche dans la zone de prévisualisation en bas de l’écran.
Note
Après avoir cliqué sur le nœud cible , ce dernier semble contenir les résultats escomptés mais ce n’est qu’un échantillon.
Il faudra exécuter le Flow pour que le filtrage soit bien appliqué sur tout le jeu de données.
Indication
Il est possible de nommer le filtre, avec le champ « Nom ».
Ceci aide à documenter le flow; si vous choisissez un nom particulier, celui-ci apparaîtra dans la documentation du PDF flow lorsque celle-ci sera produite (la documentation détaille le fonctionnement du flow de façon lisible).
Exécuter le Flow
Pour pouvoir récupérer les résultats de ce traitement (le Flow), nous allons l’exécuter.
Appuyez sur le bouton « Exécuter » situé à droite dans la barre d’outils.
La fenêtre de planification apparaît.
Appuyez sur le bouton « Exécuter maintenant ».
Vous pouvez observer un message de réussite de la planification et de l’exécution du Flow.
Félicitations, vous venez de créer et d’exécuter votre premier Flow !
Télécharger les résultats
Maintenant nous souhaitons récupérer le résultat produit par l’exécution de ce flow.
Comparer les fichiers avant et après le traitement
Vous pouvez effectuer une comparaison du fichier source avec le fichier cible.
- Fichier source « My_Data »
- Fichier cible « Mes données traitées »
Note
Ce premier Flow est un exemple d’introduction : des traitements beaucoup plus élaborés (mais simples d’utilisation) sont disponibles.
Il est par exemple possible de :
Exécuter le même traitement sur d’autres données sans refaire le Flow (= réutilisation des Flows)
Planifier les exécutions (quotidiennes, hebdomadaires, etc.)
Traiter de très grosses volumétries de données (milliards de lignes)
Lancer des alertes paramétrables sur tous types d’anomalies présentes dans les données.
Pour aller plus loin
Gérer ses Flows
Vous pouvez observer que votre Flow apparaît maintenant dans la partie « Mes Flows récents » de l’écran d’accueil.
Appuyez sur « Voir tous mes Flows ».
Sélectionnez le Flow que vous souhaitez modifier (en cochant la case).
Récapitulatif de la palette des nœuds de traitement de la barre d’outils
Le guide de référence permet de trouver des informations détaillées sur chacun des outils de traitement de Tale of Data. Voici un récapitulatif en bref:
Une fonction de préparation permet d’appliquer une série de transformations aux données d’entrée, en puisant dans une palette d’une centaine de types d’opérations possibles, comme par exemple formater, redresser, dédoublonner, harmoniser, enrichir, poser et appliquer des règles de validation.
Un nœud filtre permet de sélectionner les champs et les enregistrements à envoyer sur chacune de ses sorties.
Un nœud de validation envoie les enregistrements valides sur sa 1ère sortie et les enregistrements invalides sur sa 2ème sortie, s’il en a une.
Un nœud de diffusion permet de dupliquer chaque enregistrement (entrées) sur toutes les sorties.
Un nœud de jointure permet d’ajouter des informations à une donnée, correspondant à un ajout de colonnes (jointure au sens SQL).
Un nœud d’enrichissement permet, notamment en utilisant du matching flou, d’ajouter de nouveaux champs à un jeu de données (dit jeu de données à enrichir ou jeu de données n°1) à partir d’un jeu de données d’enrichissement (= jeu de données n°2, connecté par un lien bleu).
Un nœud d’union permet d’ajouter plusieurs jeux de données en entrée (empilement), correspondant à un ajout de lignes (union au sens SQL).
Un nœud de tri permet de trier les enregistrements en entrée selon différents critères.
Un nœud d’agrégation permet de créer des tableaux croisés.
Une fonction fenêtre permet d’effectuer, pour chaque ligne du jeu de données d’entrée, un ou des calculs sur un ensemble d’enregistrements qui sont liés à l’enregistrement courant du jeu de données d’entrée.
Les référentiels permettent de réparer ou d’enrichir des jeux de données avec des algorithmes de matching sophistiqués.