4. Traitement des données : les outils des flows

Nous commencerons, dans les sections suivantes, par les nœuds

qui permettent de configurer les données d’entrée et de destination des flows.

Ensuite, nous passerons en revue chacun des types de nœuds de la liste ci-dessous. Comme les sources et cibles, ceux-ci peuvent être déposés sur le canevas depuis la barre d’outil de l’éditeur de flows de Tale of Data :

node-list-s-image25 Fonction de préparation

Une fonction de préparation permet d’appliquer une série de transformations aux données d’entrée, en puisant dans une palette d’une centaine de types d’opérations possibles, comme par exemple formater, redresser, dédoublonner, harmoniser, enrichir, poser et appliquer des règles de validation.

node-list-s-image4 Filtre

Un nœud filtre permet de sélectionner les champs et les enregistrements à envoyer sur chacune de ses sorties.

node-list-s-image102 Validation

Un nœud de validation envoie les enregistrements valides sur sa 1ère sortie et les enregistrements invalides sur sa 2ème sortie, s’il en a une.

node-list-s-image96 Diffusion

Un nœud de diffusion permet de dupliquer chaque enregistrement (entrées) sur toutes les sorties.

node-list-s-image98 Jointure

Un nœud de jointure permet d’ajouter des informations à une donnée, correspondant à un ajout de colonnes (jointure au sens SQL).

node-list-s-image99 Enrichissement

Un nœud d’enrichissement permet, notamment en utilisant du matching flou, d’ajouter de nouveaux champs à un jeu de données (dit jeu de données à enrichir ou jeu de données n°1) à partir d’un jeu de données d’enrichissement (= jeu de données n°2, connecté par un lien bleu).

node-list-s-image97 Union

Un nœud d’union permet d’ajouter plusieurs jeux de données en entrée (empilement), correspondant à un ajout de lignes (union au sens SQL).

node-list-s-image101 Tri

Un nœud de tri permet de trier les enregistrements en entrée selon différents critères.

node-list-s-image100 Agrégation

Un nœud d’agrégation permet de créer des tableaux croisés.

node-list-i512 Fonction fenêtre

Une fonction fenêtre permet d’effectuer, pour chaque ligne du jeu de données d’entrée, un ou des calculs sur un ensemble d’enregistrements qui sont liés à l’enregistrement courant du jeu de données d’entrée.

node-list-i159 Référentiel

Les référentiels permettent de réparer ou d’enrichir des jeux de données avec des algorithmes de matching sophistiqués.