4.9. Nœud d’enrichissement

Note

Un tutoriel vidéo complet sur le nœud d’enrichissement est disponible ici.

4.9.1. Description

Icône : image135

  • Nombre d’entrées : 2.

  • Nombre de sorties : 1.

Définition

Un nœud d’enrichissement permet, notamment en utilisant du matching flou, d’ajouter de nouveaux champs à un jeu de données (dit Jeu de données à enrichir ou jeu de données n°1) à partir d’un jeu de données d’enrichissement (= jeu de données n°2, connecté par un lien bleu).

Paramétrage

Le nœud d’enrichissement doit être connecté sur son entrée à exactement 2 nœuds, dans l’ordre:

  1. Le jeu de données à enrichir : celui sur lequel on souhaite ajouter de nouveaux champs.

  2. Le jeu de données d’enrichissement (connecté par un lien bleu) : c’est le jeu de données qui va apporter les nouveaux champs.

En cliquant dans le configurateur sur le bouton Ajouter une condition de correspondance image136 il est possible de configurer chaque condition de correspondance image137 permettant de réaliser l’enrichissement.

Les conditions de correspondance sont évaluées comme un « ET » logique : elles doivent toutes être satisfaites.

Les options de correspondance image138 sont les suivantes:

  • Egalité stricte :

    la correspondance ne sera validée que si les valeurs des deux cellules mises en correspondance sont égales (la première cellule appartenant au jeu de données à enrichir, la seconde au jeu de données d’enrichissement).

  • Ignorer la casse et les accents :

    la correspondance ne sera validée que si les valeurs des deux cellules mises en correspondance sont égales en faisant abstraction des différences majuscules/minuscules ou des différences de caractères accentués (les deux champs mis en correspondance doivent être tous deux de type texte).

  • Phonétique française :

    la correspondance ne sera validée que si les valeurs des deux cellules mises en correspondance se prononcent de manière identique en français (les deux champs mis en correspondance doivent être tous deux de type texte).

  • Phonétique anglaise :

    la correspondance ne sera validée que si les valeurs des deux cellules mises en correspondance se prononcent de manière identique en anglais (les deux champs mis en correspondance doivent être tous deux de type texte).

  • Floue - 1 différence max :

    la correspondance ne sera validée que si les valeurs des deux cellules mises en correspondance ont une distance de Levenshtein [1] inférieure ou égale à 1 (les deux champs mis en correspondance doivent être tous deux de type texte).

  • Floue - 2 différences max :

    la correspondance ne sera validée que si les valeurs des deux cellules mises en correspondance ont une distance de Levenshtein inférieure ou égale à 2 (les deux champs mis en correspondance doivent être tous deux de type texte).

  • Plus proche :

    cette condition, qui ne peut être utilisée seule, permet de départager deux enregistrements du jeu de données d’enrichissement lorsque les autres conditions de correspondance sont satisfaites : on donnera une priorité plus grande à celui pour lequel les valeurs des deux cellules mises en correspondance sont les plus proches (les deux colonnes mises en correspondance doivent être toutes deux de type continu : numérique ou date).

  • Full text :

    cette condition n’a de sens que si les deux cellules mises en correspondance contiennent plusieurs mots (généralement un texte court). L’algorithme de rapprochement va faire correspondre à une cellule du jeu de données à enrichir la cellule du jeu de données d’enrichissement qui a le plus de mots en commun avec elle (les deux champs mis en correspondance doivent être tous deux de type texte).

L’utilisateur doit sélectionner au moins un champ du jeu de données d’enrichissement à rapatrier dans le jeu de données à enrichir image139.

Trois paramètres supplémentaires sont proposés pour configurer un nœud d’enrichissement :

  • La note de confiance image140 qui permet de mesurer la fiabilité d’une jointure floue.

    Elle varie entre 0 (= jointure peu fiable car présentant de grandes différences sur les champs joints) et 1 (= jointure très fiable car tous les champs joints sont identiques).

  • Le nombre maximal de correspondances image141 :

    c’est le nombre maximum d’enregistrements du jeu de données d’enrichissement mis en correspondance avec un enregistrement du jeu de données à enrichir. Par exemple, si l’utilisateur lui donne la valeur 3, alors un enregistrement du jeu de données à enrichir pourra amener à la création d’au maximum 3 enregistrements de correspondance dans le jeu de données résultat afin de conserver les 3 meilleures correspondances trouvées.

  • Le Préfixe pour les colonnes récupérées image142 :

    cette option permet de spécifier un texte de préfixe pour toutes les nouvelles colonnes récupérées à la suite de l’enrichissement.

image143

En bas du configurateur du nœud d’enrichissement, le bouton Statistiques de l’enrichissement image144 permet d’accéder à des informations sur la performance de l’enrichissement de données.

image145

Les 3 onglets permettent de visualiser sur un échantillon les enregistrements du jeu de données à enrichir qui ont une, plusieurs ou aucune correspondance dans le jeu de données d’enrichissement.

Le code couleur est le suivant :

  • image146 Champ du jeu de données à enrichir.

  • image147 Champ du jeu de données d’enrichissement.

Astuce

Si votre jeu de données d’enrichissement est volumineux (plusieurs centaines de milliers à plusieurs centaines de millions d’enregistrements), utilisez les Référentiels Tale of Data plutôt qu’un nœud d’enrichissement.

4.9.2. Exemple

image148

Ici, par exemple, on effectue un enrichissement du jeu de données n°1 à partir du jeu de données n°2.

image149

Le premier enregistrement de la table ci-dessus montre que Jacky Hubert a été mis en correspondance avec Jackie Hubert (correspondance phonétique dans cet exemple) et que le taux de similarité est de 0.8933 (en raison de la différence d’orthographe entre Jacky et Jackie).