4.10. Nœud d’union
Nombre d’entrées : 2 ou plus.
Nombre de sorties : 1.
- Définition
Un nœud d’union permet d’ajouter plusieurs jeux de données en entrée (empilement), correspondant à un ajout de lignes (union au sens SQL).
- Paramétrage
Le nœud union est utilisé pour combiner deux ou plusieurs jeux de données.
Chaque jeu de données est ajouté à la fin du précédent.
Trois stratégies d’empilement sont disponibles :
Utilisation du 1er jeu de données comme référence :
le premier jeu de données détermine les noms et types de champs du jeu de données de sortie. Cette option provoque une erreur si le nombre OU le type des champs d’entrée ne correspondent pas.
Union des champs d’entrée :
si, par exemple, le 1er jeu de données possède les champs A, B & C et le 2nd possède les champs B, C & D alors le jeu de données de sortie aura les champs : A, B, C & D. Les champs dont les types ne correspondent pas seront convertis en texte.
Intersection des champs d’entrée : si, par exemple, le 1er jeu de données possède les champs A, B & C et le 2nd possède les champs B, C & D alors le jeu de données de sortie aura les champs : B & C. Les champs dont les types ne correspondent pas seront convertis en texte.
Il est par ailleurs possible, dans le configurateur du nœud union, de spécifier (par son nom) un champ de provenance : c’est un champ qui sera ajouté à la suite de l’union et qui indiquera le jeu de données de provenance (autrement dit d’origine) de chaque enregistrement :
- Exemple visuel
Ici, par exemple, on met en place une stratégie d’union des champs et un ajout d’un champ de provenance (nommé Origine) :
- Exemples pratiques
Note
Exemple 1 : Utiliser le premier jeu de données comme référence
Avant l’opération :
Jeu de données 1 :
A (Nombre)
B (Texte)
C (Date)
1
Alpha
2023-01-01
2
Beta
2023-01-02
Jeu de données 2 :
D (Nombre)
E (Texte)
F (Date)
3
Gamma
2023-01-03
4
Delta
2023-01-04
Configuration du nœud :
Type d’union :
Utiliser le premier jeu de données comme référence
Nom du champ source du jeu de données :
EMPTY
Après l’opération :
Jeu de données combiné :
A (Nombre)
B (Texte)
C (Date)
1
Alpha
2023-01-01
2
Beta
2023-01-02
3
Gamma
2023-01-03
4
Delta
2023-01-04
L’union fonctionne car :
Les colonnes A et D ont le même type.
Les colonnes B et E ont le même type.
Les colonnes C et F ont le même type.
Les noms de colonnes du premier jeu de données sont conservés, car il s’agit du jeu de données de référence.
Note
Exemple 2 : Union des champs d’entrée
Avant l’opération :
Jeu de données 1 :
A
B
C
1
X
2023-01-01
Jeu de données 2 :
B
C
D
Y
2023-02-02
100
Configuration du nœud :
Type d’union :
Union des champs d’entrée
Nom du champ source du jeu de données :
EMPTY
Après l’opération :
Jeu de données combiné :
A
B
C
D
1
X
2023-01-01
NULL
NULL
Y
2023-02-02
100
Le jeu de données résultant comprend tous les champs des deux jeux de données d’entrée. Les valeurs manquantes sont représentées par
NULL
.Note
Exemple 3 : Intersection des champs d’entrée
Avant l’opération :
Jeu de données 1 :
A
B
C
1
X
2023-01-01
Jeu de données 2 :
B
C
D
Y
2023-02-02
100
Configuration du nœud :
Type d’union :
Intersection des champs d’entrée
Nom du champ source du jeu de données :
EMPTY
Après l’opération :
Jeu de données combiné :
B
C
X
2023-01-01
Y
2023-02-02
Seuls les champs communs à tous les jeux de données en entrée (B et C) sont inclus dans le jeu de données résultant.
Note
Exemple 4 : Traçabilité des données
Ajoute automatiquement une colonne indiquant l’origine de chaque enregistrement.
Avant l’opération :
Jeu de données 1 :
A
B
1
X
2
Y
Jeu de données 2 :
A
C
3
Z
4
W
Configuration du nœud :
Type d’union :
Union des champs d’entrée
Nom du champ source du jeu de données :
Source
(Traçabilité)
Après l’opération :
Si le nom du champ source du jeu de données n’est pas vide, le jeu de données en sortie comprendra une colonne supplémentaire nommée « Source » qui indique l’origine de chaque enregistrement :
Jeu de données combiné :
A
B
C
Source
1
X
NULL
Jeu de données 1
2
Y
NULL
Jeu de données 1
3
NULL
Z
Jeu de données 2
4
NULL
W
Jeu de données 2