4. Traitement des données : les outils des flows
qui permettent de configurer les données d’entrée et de destination des flows.
Ensuite, nous passerons en revue chacun des types de nœuds de la liste ci-dessous. Comme les sources et cibles, ceux-ci peuvent être déposés sur le canevas depuis la barre d’outil de l’éditeur de flows de Tale of Data :
Une fonction de préparation permet d’appliquer une série de transformations aux données d’entrée, en puisant dans une palette d’une centaine de types d’opérations possibles, comme par exemple formater, redresser, dédoublonner, harmoniser, enrichir, poser et appliquer des règles de validation.
Un nœud filtre permet de sélectionner les champs et les enregistrements à envoyer sur chacune de ses sorties.
Un nœud de validation envoie les enregistrements valides sur sa 1ère sortie et les enregistrements invalides sur sa 2ème sortie, s’il en a une.
Un nœud de diffusion permet de dupliquer chaque enregistrement (entrées) sur toutes les sorties.
Un nœud de jointure permet d’ajouter des informations à une donnée, correspondant à un ajout de colonnes (jointure au sens SQL).
Un nœud d’enrichissement permet, notamment en utilisant du matching flou, d’ajouter de nouveaux champs à un jeu de données (dit jeu de données à enrichir ou jeu de données n°1) à partir d’un jeu de données d’enrichissement (= jeu de données n°2, connecté par un lien bleu).
Un nœud d’union permet d’ajouter plusieurs jeux de données en entrée (empilement), correspondant à un ajout de lignes (union au sens SQL).
Un nœud de tri permet de trier les enregistrements en entrée selon différents critères.
Un nœud d’agrégation permet de créer des tableaux croisés.
Une fonction fenêtre permet d’effectuer, pour chaque ligne du jeu de données d’entrée, un ou des calculs sur un ensemble d’enregistrements qui sont liés à l’enregistrement courant du jeu de données d’entrée.
Les référentiels permettent de réparer ou d’enrichir des jeux de données avec des algorithmes de matching sophistiqués.