7.5. Configuration et utilisation d’une transformation
Prudence
Lorsque des filtres sont positionnés lors de l’exécution d’une transformation, cette transformation s’applique uniquement sur les enregistrements du jeu de données qui sont acceptés par le filtre.
Zone d’aide
décrivant ce que fait la transformation (elle peut être masquée en cliquant sur le bouton ‘-‘ en haut à gauche de cette zone).
Liste des champs
sur lesquels s’appliquera la transformation (il est possible de sélectionner plusieurs champs avec les touches Maj ou Ctrl) ainsi que l’ensemble des options disponibles pour la transformation courante.
Le bouton Appliquer
permet d’appliquer la transformation courante au jeu de données. Le bouton Prévisualiser
permet d’avoir un aperçu des modifications qu’apportera la transformation courante.
7.6. Accès rapide aux transformations
Le Navigateur de champs permet un accès rapide à certaines transformations couramment utilisées. Pour invoquer ces transformations, il suffit d’effectuer un clic droit sur le ou les champs sélectionnés dans le Navigateur de champs :
Astuce
Le menu contextuel du Navigateur de champs permet également de positionner des filtres sur le ou les champs sélectionnés.
7.7. Visualisation des modifications apportées par une transformation
La Fenêtre de visualisation des modifications apportées par une transformation se présente comme suit :
Les changements sont répartis selon 5 critères :
Champ d’entrée (en blanc).
Champ modifié (en beige).
Valeur modifiée (en jaune).
Champ créé (en bleu).
Champ supprimé (en gris).
La visualisation des modifications apportées par une transformation est disponible à 2 endroits :
7.8. Transformations sur les champs
7.8.1. Ajouter un champ
Créer un nouveau champ, vide par défaut. En renseignant la valeur par défaut, il est possible d’affecter une valeur commune à toutes les cellules.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Ajouter un champ
Avant la transformation :
ID |
Nom |
Âge |
---|---|---|
1 |
Alice |
30 |
2 |
Bob |
25 |
Configuration de la transformation :
Nom de la nouvelle colonne : « Localisation »
Type de colonne : « Texte »
Valeur par défaut : « Inconnue »
Après la transformation :
ID |
Nom |
Âge |
Localisation |
---|---|---|---|
1 |
Alice |
30 |
Inconnue |
2 |
Bob |
25 |
Inconnue |
Dans cet exemple, la transformation ajoute une nouvelle colonne nommée « Localisation » au jeu de données. Chaque ligne est enrichie avec la valeur par défaut « Inconnue » dans cette nouvelle colonne.
7.8.2. Concaténer des champs
Créer un nouveau champ qui est le résultat de la concaténation de plusieurs champs existants.
La transformation s’applique sur plusieurs champs.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Concaténer des champs
Avant la transformation :
Prénom |
Nom |
DateDeNaissance |
---|---|---|
John |
Doe |
1990-01-01 |
Jane |
Smith |
1985-05-23 |
Configuration de la transformation :
Colonnes cibles :
Prénom
,Nom
,DateDeNaissance
Nom de la nouvelle colonne :
NomComplet
Texte de jointure : » «
Concaténer les valeurs manquantes :
true
Supprimer les colonnes concaténées :
true
Après la transformation :
NomComplet |
---|
John Doe 1990-01-01 |
Jane Smith 1985-05-23 |
Dans cet exemple, la transformation prend les valeurs des colonnes Prénom
, Nom
et DateDeNaissance
pour les fusionner dans une nouvelle colonne appelée NomComplet
. Chaque élément est séparé par un espace, fournissant un format clair et lisible qui regroupe les informations essentielles dans une seule colonne. Comme prévu, les colonnes initiales ont été supprimées après la concaténation.
7.8.3. Copier un champ
Créer un nouveau champ qui est la copie d’un champ existant.
La transformation s’applique sur un unique champ.
La transformation n’utilise pas le ou les filtres actifs.
Note
Exemple pratique : Copier un champ
Avant la transformation :
ID |
Nom |
Âge |
---|---|---|
1 |
Alice |
30 |
2 |
Bob |
25 |
3 |
Carol |
28 |
Configuration de la transformation :
Colonne source : Âge
Colonne cible : Copie_Âge
Après la transformation :
ID |
Nom |
Âge |
Copie_Âge |
---|---|---|---|
1 |
Alice |
30 |
30 |
2 |
Bob |
25 |
25 |
3 |
Carol |
28 |
28 |
Dans cet exemple, la transformation a permis de créer une nouvelle colonne nommée Copie_Âge
contenant les mêmes données que la colonne Âge
. Cela permet de manipuler ou d’analyser les âges sans altérer les données d’origine.
7.8.4. Diviser un champ
Scinder un champ en plusieurs champs en utilisant un ou plusieurs séparateur(s).
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Diviser un champ
Avant Transformation :
NomComplet |
---|
Jane Doe |
John Smith Jr |
Alice Johnson |
Configuration de Transformation :
Colonne Cible : “NomComplet”
Motif de Séparation : Espace (” “)
Nombre Fixe de Colonnes de Sortie : 3
Après Transformation :
NomComplet |
NomComplet.split |
NomComplet.split_1 |
---|---|---|
Jane |
Doe |
|
John |
Smith |
Jr |
Alice |
Johnson |
7.8.5. Fusionner des champs
Compléter les valeurs manquantes du premier champ avec la première valeur rencontrée parmi les autres champs sélectionnés.
La transformation s’applique sur plusieurs champs.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Fusionner des champs
Avant Transformation :
FirstName |
MiddleName |
---|---|
John |
Patrick |
Audrey |
|
Bob |
Gerald |
Configuration de la Transformation :
Colonnes Sources : « FirstName », « MiddleName »
Supprimer les Colonnes Fusionnées :
true
Après Transformation :
FirstName |
---|
John |
Audrey |
Bob |
Dans cet exemple, on peut observer que sur la deuxième ligne, puisque la colonne « FirstName » est vide, c’est la valeur « Audrey » provenant de la colonne « MiddleName » qui a été conservée et placée dans la colonne fusionnée (ici « FirstName »).
7.8.6. Modifier le type d’un champ
Changer ou forcer le type d’un champ (e.g. passer le type d’un champ de numérique à texte).
La transformation s’applique sur un ou plusieurs champs.
La transformation n’utilise pas le ou les filtres actifs.
Note
Exemple pratique : Modifier le type d’un champ
Avant la transformation :
ID |
Nom |
Date de Naissance |
---|---|---|
1 |
Alice |
« 1985-04-12 » |
2 |
Bob |
« 1990-08-23 » |
Configuration de la transformation :
Colonne ciblée : Date de Naissance
Nouveau type de données : Date (à partir de chaîne de caractères)
Après la transformation :
ID |
Nom |
Date de Naissance |
---|---|---|
1 |
Alice |
1985-04-12T00:00:00 |
2 |
Bob |
1990-08-23T00:00:00 |
Dans cet exemple, la colonne « Date de Naissance » était initialement stockée sous forme de chaînes de caractères. La configuration de la transformation précise que cette colonne doit être convertie en type Date. Après l’application de la transformation, la colonne affiche désormais des dates (au lieu de chaînes), avec un format conforme au type Date.
7.8.7. Remplir les valeurs vides
Remplir les valeurs manquantes d”un ou plusieurs champs avec la dernière valeur non vide rencontrée.
Exemple visuel :
Date |
Forecast |
11/05/2019 |
800 |
12/05/2019 |
|
13/05/2019 |
|
21/05/2019 |
950 |
22/05/2019 |
|
23/05/2019 |
Après application de la transformation, on obtient la table suivante :
Date |
Forecast |
11/05/2019 |
800 |
12/05/2019 |
800 |
13/05/2019 |
800 |
21/05/2019 |
950 |
22/05/2019 |
950 |
23/05/2019 |
950 |
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Remplir les valeurs vides
Avant Transformation :
Considérons le jeu de données suivant représentant les données de ventes. Le jeu de données contient des valeurs manquantes dans les colonnes « Montant des Ventes » et « Nom du Client ».
Date |
Montant des Ventes |
Nom du Client |
Région |
---|---|---|---|
2024-01-01 |
100 |
John Doe |
Nord |
2024-01-02 |
Nord |
||
2024-01-03 |
200 |
Jane Smith |
Est |
2024-01-04 |
Est |
||
2024-01-05 |
Ouest |
||
2024-01-06 |
300 |
Mike Johnson |
Ouest |
2024-01-07 |
Sud |
Configuration de la Transformation :
Colonnes Cibles : « Montant des Ventes », « Nom du Client »
Filtres : Aucun (s’applique à toutes les lignes)
Après Transformation :
Le jeu de données transformé remplit les valeurs manquantes de « Montant des Ventes » et « Nom du Client » avec les dernières valeurs observées :
Date |
Montant des Ventes |
Nom du Client |
Région |
---|---|---|---|
2024-01-02 |
100 |
John Doe |
Nord |
2024-01-01 |
100 |
John Doe |
Nord |
2024-01-03 |
200 |
Jane Smith |
Est |
2024-01-04 |
200 |
Jane Smith |
Est |
2024-01-05 |
200 |
Jane Smith |
Ouest |
2024-01-06 |
300 |
Mike Johnson |
Ouest |
2024-01-07 |
300 |
Mike Johnson |
Sud |
Dans cet exemple, les valeurs manquantes dans « Montant des Ventes » et « Nom du Client » ont été remplacées par les valeurs les plus récentes disponibles provenant des lignes précédentes. Cela permet de compléter le jeu de données sans valeurs manquantes ou vides, facilitant ainsi une meilleure analyse et prise de décision.
7.8.8. Renommer une colonne
Modifier le nom d’un champ.
La transformation s’applique sur un unique champs.
La transformation n’utilise pas le ou les filtres actifs.
Note
Exemple pratique : Renommer une colonne
Avant Transformation :
ProductID |
ProductName |
Price |
Quantity |
---|---|---|---|
001 |
Apple |
0.50 |
100 |
002 |
Banana |
0.30 |
150 |
003 |
Cherry |
1.20 |
200 |
Configuration de Transformation :
Colonne Cible : « ProductName »
Nouveau Nom de Champ : « ItemName »
Après Transformation :
ProductID |
ItemName |
Price |
Quantity |
---|---|---|---|
001 |
Apple |
0.50 |
100 |
002 |
Banana |
0.30 |
150 |
003 |
Cherry |
1.20 |
200 |
7.8.9. Renommer plusieurs colonnes
Modifier le nom de plusieurs champs différents.
Note
Exemple pratique : Renommer plusieurs colonnes
Avant Transformation
Considérons un jeu de données avec les colonnes et données suivantes :
ID |
First_Name |
Last_Name |
Age |
City |
---|---|---|---|---|
1 |
John |
Doe |
28 |
New York |
2 |
Jane |
Smith |
34 |
Los Angeles |
3 |
Alice |
Johnson |
45 |
Chicago |
Configuration de Transformation
Pour cet exemple, la configuration suivante est choisie pour renommer les colonnes :
Renommage automatique :
Ajouter un suffixe
« _X »
Après Transformation
ID |
First_Name_X |
Last_Name_X |
Age_X |
City_X |
---|---|---|---|---|
1 |
John |
Doe |
28 |
New York |
2 |
Jane |
Smith |
34 |
Los Angeles |
3 |
Alice |
Johnson |
45 |
Chicago |
7.8.10. Réordonner les champs
Réordonner les champs d’un jeu de données.
La transformation s’applique sur plusieurs champs.
La transformation n’utilise pas le ou les filtres actifs.
Note
Exemple pratique : Réordonner les champs
Avant Transformation :
CustomerID |
OrderDate |
ProductName |
Quantity |
Price |
---|---|---|---|---|
101 |
2024-01-01 |
Widget A |
10 |
2.50 |
102 |
2024-01-02 |
Widget B |
5 |
5.00 |
103 |
2024-01-03 |
Widget C |
2 |
7.50 |
Configuration de Transformation :
Ordre des Colonnes Souhaité :
ProductName, Quantity, Price, OrderDate, CustomerID
Après Transformation :
ProductName |
Quantity |
Price |
OrderDate |
CustomerID |
---|---|---|---|---|
Widget A |
10 |
2.50 |
2024-01-01 |
101 |
Widget B |
5 |
5.00 |
2024-01-02 |
102 |
Widget C |
2 |
7.50 |
2024-01-03 |
103 |
7.8.11. Supprimer un champ
Supprimer un ou plusieurs champs.
La transformation s’applique sur un ou plusieurs champs.
La transformation n’utilise pas le ou les filtres actifs.
Note
Exemple pratique : Supprimer un champ
Avant Transformation :
ID Employé |
Nom |
Âge |
Département |
---|---|---|---|
001 |
Alice |
30 |
RH |
002 |
Bob |
24 |
Marketing |
003 |
Carol |
29 |
Développement |
Configuration de la Transformation :
Colonnes Cibles : « Âge », « Département »
Après Transformation :
ID Employé |
Nom |
---|---|
001 |
Alice |
002 |
Bob |
003 |
Carol |
7.8.12. Transposer des champs en enregistrements
Transposer les valeurs des champs sélectionnés en un enregistrement par champ. Par exemple, pour le jeu de données ci-après :
Country Name |
1960 |
1961 |
Afghanistan |
414.371 |
491.378 |
Angola |
550.05 |
454.708 |
Albania |
2024.184 |
2280.874 |
Avec les paramètres suivants pour la transformation :
Liste des champs : 1960 and 1961.
Champ cible pour les en-têtes : Year.
Champ cible pour les valeurs : Level.
On obtient le résultat suivant :
Country Name |
Year |
Level |
Afghanistan |
1960 |
414.371 |
Angola |
1960 |
550.05 |
Albania |
1960 |
2024.184 |
Afghanistan |
1961 |
491.378 |
Angola |
1961 |
454.708 |
Albania |
1961 |
2280.874 |
La transformation s’applique sur plusieurs champs.
La transformation n’utilise pas le ou les filtres actifs.
Note
Exemple pratique : Transposer des champs en enregistrements
Avant Transformation
Considérons un jeu de données représentant les ventes sur différents trimestres pour divers produits :
ID Produit |
Ventes T1 |
Ventes T2 |
Ventes T3 |
Ventes T4 |
---|---|---|---|---|
101 |
1500 |
1800 |
2000 |
2100 |
102 |
1700 |
1600 |
1950 |
2000 |
103 |
1600 |
1700 |
1800 |
1900 |
Configuration de Transformation
Colonnes à dé-pivoter : Ventes T1, Ventes T2, Ventes T3, Ventes T4
Stratégie de dé-pivotage : Dé-pivoter les colonnes sélectionnées.
Colonne cible pour les en-têtes : Trimestre
Colonne cible pour les valeurs : Ventes
Remarque : Une autre option aurait été de sélectionner la colonne ID Produit et de choisir la stratégie Dé-pivoter toutes les colonnes sauf celles sélectionnées*. Le résultat aurait été identique, avec la possibilité supplémentaire d’ajouter des colonnes à transposer dynamiquement.*
Après Transformation
Le jeu de données après transformation ressemblerait à ceci :
ID Produit |
Trimestre |
Ventes |
---|---|---|
101 |
Ventes T1 |
1500 |
101 |
Ventes T2 |
1800 |
101 |
Ventes T3 |
2000 |
101 |
Ventes T4 |
2100 |
102 |
Ventes T1 |
1700 |
102 |
Ventes T2 |
1600 |
102 |
Ventes T3 |
1950 |
102 |
Ventes T4 |
2000 |
103 |
Ventes T1 |
1600 |
103 |
Ventes T2 |
1700 |
103 |
Ventes T3 |
1800 |
103 |
Ventes T4 |
1900 |
Après la transformation, les données de ventes sont mieux structurées pour une analyse temporelle ou une visualisation, où les ventes de chaque produit sont désormais associées à un trimestre spécifique dans une colonne unique, « Trimestre », et au montant des ventes correspondant dans la colonne « Ventes ».
7.8.13. Masquer les données sensibles
Masquer des données sensibles afin d’en préserver la confidentialité.
Plusieurs stratégies de masquage sont disponibles :
Masquage sémantique
Masquage déterministe
Masquer tout
Masquer les n premiers caractères
Préserver les n premiers caractères
Masquer les n derniers caractères
Masquer les caractères entre deux positions
Préserver les caractères entre deux positions
Masquer les chiffres
Il est possible d’utiliser la prévisualisation pour anticiper les résultats de masquage.
La transformation s’applique sur plusieurs champs de type texte.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Masquer les données sensibles
Avant Transformation :
Nom du Client |
Adresse Email |
Numéro de Téléphone |
---|---|---|
John Doe |
123-456-7890 |
|
Jane Smith |
098-765-4321 |
Configuration de la Transformation :
Colonnes à Masquer : Adresse Email, Numéro de Téléphone
Stratégies de Masquage :
Adresse Email : Masquer tous les caractères
Numéro de Téléphone : Conserver les quatre derniers caractères, masquer le reste
Après Transformation :
Nom du Client |
Adresse Email |
Numéro de Téléphone |
---|---|---|
John Doe |
xxxxxxxxxxxxxxxx |
xxx-xxx-7890 |
Jane Smith |
xxxxxxxxxxxxxxxx |
xxx-xxx-4321 |
Dans cet exemple, la transformation masque tous les caractères des adresses email afin de protéger l’identité des utilisateurs, tandis que pour les numéros de téléphone, elle conserve les quatre derniers caractères pour maintenir un certain niveau d’information sans révéler le numéro complet. Cette approche est utile dans les scénarios où des données partielles suffisent pour les tests ou les analyses.
7.9. Transformations sur les enregistrements
7.9.1. Ajouter des identifiants de lignes numériques
Pour configurer la transformation « Ajouter des identifiants numériques de lignes », l’utilisateur doit spécifier plusieurs paramètres :
Nom de la colonne cible : Le nom de la nouvelle colonne à ajouter, qui contiendra la séquence de valeurs entières.
Filtres : Un ensemble de conditions qui déterminent quelles lignes du jeu de données recevront la séquence d’entiers. Les lignes qui ne remplissent pas ces conditions auront une valeur nulle dans la nouvelle colonne.
La transformation commence par créer un identifiant de ligne interne pour chaque ligne du jeu de données à l’aide d’un nombre unique et monotonement croissant. Ensuite, elle applique les filtres spécifiés pour déterminer quelles lignes doivent recevoir un numéro de séquence. Si une ligne satisfait aux conditions des filtres, un numéro de séquence unique lui est attribué dans la nouvelle colonne. Si une ligne ne satisfait pas aux conditions des filtres, la nouvelle colonne pour cette ligne est définie sur null.
Enfin, le jeu de données est trié selon l’identifiant de ligne interne afin de conserver l’ordre d’origine, et la colonne de séquence est ajoutée au jeu de données.
Note
Exemple pratique : Ajouter des identifiants de lignes numériques
Avant Transformation :
ID |
Nom |
Âge |
Pays |
---|---|---|---|
1 |
John |
28 |
USA |
2 |
Maria |
34 |
Canada |
3 |
Lee |
23 |
Chine |
4 |
Anna |
45 |
USA |
Configuration de la Transformation :
Nom de la Colonne Cible :
SequenceNumber
Filtres :
Country = 'USA'
Après Transformation :
ID |
Nom |
Âge |
Pays |
SequenceNumber |
---|---|---|---|---|
1 |
John |
28 |
USA |
12 |
2 |
Maria |
34 |
Canada |
null |
3 |
Lee |
23 |
Chine |
null |
4 |
Anna |
45 |
USA |
21 |
Dans cet exemple, la transformation a ajouté une nouvelle colonne, SequenceNumber
, au jeu de données. La séquence commence à 0 pour la première ligne qui répond à la condition de filtre (Country = 'USA'
). Les lignes qui ne remplissent pas la condition de filtre ont la valeur null
dans la colonne SequenceNumber
. La transformation conserve l’ordre d’origine du jeu de données et ne modifie le contenu qu’en fonction des paramètres configurés.
7.9.2. Supprimer les lignes filtrées
Supprimer les enregistrements filtrés.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Supprimer les lignes filtrées
Avant Transformation :
Supposons que nous ayons le jeu de données suivant :
ID |
Nom |
Âge |
Pays |
---|---|---|---|
1 |
Alice |
30 |
USA |
2 |
Bob |
25 |
Canada |
3 |
Charlie |
35 |
USA |
4 |
David |
40 |
UK |
5 |
Eve |
28 |
Canada |
Configuration de la Transformation :
L’utilisateur souhaite supprimer toutes les lignes où la colonne « Pays » a la valeur « USA ».
Condition de Filtrage : Country = « USA »
Après Transformation :
Après avoir appliqué la transformation Supprimer les Lignes Filtrées avec le filtre ci-dessus, le jeu de données résultant serait :
ID |
Nom |
Âge |
Pays |
---|---|---|---|
2 |
Bob |
25 |
Canada |
4 |
David |
40 |
UK |
5 |
Eve |
28 |
Canada |
Dans cet exemple, la transformation a supprimé les lignes où la colonne « Pays » était « USA » (lignes avec les ID 1 et 3). Le jeu de données restant ne contient donc que les lignes où le « Pays » est différent de « USA ».
7.9.3. Supprimer des enregistrements vides
Supprimer les enregistrements vides. Un enregistrement vide est un enregistrement dont tous les champs sont vides.
La transformation n’utilise pas le ou les filtres actifs.
Note
Exemple pratique : Supprimer les lignes vides
Pour illustrer le fonctionnement de la transformation Supprimer les lignes vides, considérons l’exemple suivant :
Avant Transformation :
ID |
Nom |
Âge |
|
---|---|---|---|
1 |
John |
28 |
|
2 |
|||
3 |
|||
4 |
|||
5 |
Robert |
29 |
Configuration de la Transformation :
Aucune configuration requise
Après Transformation :
ID |
Nom |
Âge |
|
---|---|---|---|
1 |
John |
28 |
|
5 |
Robert |
29 |
Explication :
Les lignes 2, 3 et 4 sont supprimées car elles sont vides.
Après la transformation, le jeu de données ne conserve que les lignes où toutes les colonnes sélectionnées possèdent des valeurs non vides et non nulles, garantissant ainsi que les données restantes sont complètes et valides.
7.10. Transformations de type Texte
7.10.1. Ajouter un préfixe
Ajouter un préfixe aux valeurs du champ sélectionné.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Ajouter un préfixe
Avant la transformation :
ID |
Nom |
Numéro de téléphone |
---|---|---|
1 |
John Doe |
123456789 |
2 |
Jane Smith |
|
3 |
Bob Brown |
987654321 |
Configuration de la transformation :
Colonne cible : Numéro de téléphone
Préfixe : +1-
Ajouter aux valeurs manquantes : Oui
Après la transformation :
ID |
Nom |
Numéro de téléphone |
---|---|---|
1 |
John Doe |
+1-123456789 |
2 |
Jane Smith |
+1- |
3 |
Bob Brown |
+1-987654321 |
Dans cet exemple, la transformation ajoute le préfixe « +1- » à chaque numéro de téléphone. Pour Jane Smith, qui n’avait pas de numéro à l’origine, le préfixe est tout de même ajouté car l’option « Ajouter aux valeurs manquantes » est activée, ce qui donne « +1- ».
7.10.2. Ajouter un suffixe
Ajouter un suffixe aux valeurs du champ sélectionné.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Ajouter un suffixe
Avant la transformation :
ID |
Nom |
Ville |
---|---|---|
1 |
Alice |
New York |
2 |
Bob |
|
3 |
Charlie |
Los Angeles |
Configuration de la transformation :
Colonne cible : Ville
Suffixe : « - USA »
Ajouter aux valeurs manquantes : Oui
Après la transformation :
ID |
Nom |
Ville |
---|---|---|
1 |
Alice |
New York - USA |
2 |
Bob |
- USA |
3 |
Charlie |
Los Angeles - USA |
Dans cet exemple, la transformation ajoute le suffixe « - USA » à chaque valeur de la colonne Ville
.
Remarquez que même l’entrée vide pour Bob a été modifiée pour inclure le suffixe, ce qui illustre l’effet de l’option activée Ajouter aux valeurs manquantes.
7.10.3. Attribuer une valeur aux cellules
Attribuer une même valeur à l’ensemble des cellules d’un champ. Si la nouvelle valeur est vide, le contenu des cellules est effacé.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Attribuer une valeur aux cellules
Avant Transformation :
ID |
Nom |
Statut |
---|---|---|
1 |
Alice |
Actif |
2 |
Bob |
Inactif |
3 |
Charlie |
Actif |
Configuration de la Transformation :
Colonne Cible : Statut
Nouvelle Valeur : En attente de révision
Après Transformation :
ID |
Nom |
Statut |
---|---|---|
1 |
Alice |
En attente de révision |
2 |
Bob |
En attente de révision |
3 |
Charlie |
En attente de révision |
Dans cet exemple, la transformation a été configurée pour mettre à jour la colonne « Statut » de tous les enregistrements avec la valeur « En attente de révision ». Cela peut être utile dans des cas où un processus de révision est requis pour tous les membres, indépendamment de leur statut initial. La transformation garantit que le statut de chaque enregistrement est mis à jour de manière uniforme, facilitant ainsi un processus de révision cohérent.
7.10.4. Capitalisation
Mettre en lettre capitale le premier caractère de chaque mot de chaque cellule du ou des champs sélectionnés. Peut s’appliquer uniquement sur le premier mot en utilisant l’option Premier mot uniquement.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Mettre une sélection en lettre capitale
Avant la transformation :
ID |
Description |
Catégorie |
---|---|---|
1 |
APPLE PIE FROM STORE |
bakery items |
2 |
fresh orange JUICE |
beverages |
3 |
chocolate Bar |
confectionery |
Configuration de la transformation :
Colonnes sélectionnées : Description, Catégorie
Type de mise en majuscule : Mettre la première lettre de chaque mot en majuscule
Après la transformation :
ID |
Description |
Catégorie |
---|---|---|
1 |
Apple Pie From Store |
Bakery Items |
2 |
Fresh Orange Juice |
Beverages |
3 |
Chocolate Bar |
Confectionery |
Dans cet exemple, la transformation est configurée pour mettre en majuscule la première lettre de chaque mot dans les colonnes “Description” et “Catégorie”. Après l’application de la transformation, tous les mots commencent par une majuscule, ce qui améliore l’apparence du texte et le rend plus formel et lisible.
7.10.5. Compléter à droite
Compléter à droite les cellules du champ sélectionné avec une chaîne de caractères donnée.
Exemple visuel :
Étant donné une cellule bcd, avec une chaîne de complétion a et une longueur de 4, donnera bcda.
Étant donné une cellule bcda, avec une chaîne de complétion a et une longueur de 4, donnera bcda.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Compléter à droite
Avant Transformation :
ID |
Nom |
Ville |
---|---|---|
1 |
Alice |
New York |
2 |
Bob |
LA |
3 |
Clara |
San Diego |
Configuration de Transformation :
Colonne ciblée : Ville
Caractère de remplissage : « * »
Taille du remplissage : 9
Après Transformation :
ID |
Nom |
Ville |
---|---|---|
1 |
Alice |
|
2 |
Bob |
|
3 |
Clara |
|
7.10.6. Compléter à gauche
Compléter à gauche les cellules du champ sélectionné avec une chaîne de caractères donnée.
Exemple visuel :
Étant donné une cellule bcd, avec une chaîne de complétion a et une longueur de 4, donnera abcd.
Étant donné une cellule abcd, avec une chaîne de complétion a et une longueur de 4, donnera abcd.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Compléter à gauche
Avant Transformation :
ID |
Name |
Description |
---|---|---|
1 |
Alice |
Manager |
2 |
Bob |
Assistant |
3 |
Charlie |
Regional Manager |
Configuration de la Transformation :
Colonne Cible : Description
Caractère de Remplissage : « * »
Taille : 20
Après Transformation :
ID |
Name |
Description |
---|---|---|
1 |
Alice |
|
2 |
Bob |
|
3 |
Charlie |
|
Dans cet exemple, la colonne Description a été transformée pour garantir que chaque entrée fasse exactement 20 caractères, en utilisant des astérisques pour compléter les descriptions plus courtes. Ce formatage est particulièrement utile pour générer des rapports ou aligner les données dans des sorties lisibles.
7.10.7. Conversion en minuscule
Convertir tous les caractères de chaque cellule du champ sélectionné en lettres minuscules.
Exemple visuel : « CONTENU d’une Cellule » devient « contenu d’une cellule ».
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Conversion en minuscule
Avant Transformation :
ID |
Name |
|
---|---|---|
1 |
Alice |
|
2 |
Bob |
|
3 |
Charlie |
Configuration de la Transformation :
Colonnes Cibles : Name, Email
Après Transformation :
ID |
Name |
|
---|---|---|
1 |
alice |
|
2 |
bob |
|
3 |
charlie |
7.10.8. Conversion en majuscule
Convertir tous les caractères de chaque cellule du champ sélectionné en lettres majuscules.
Exemple visuel : « CONTENU d’une Cellule » devient « CONTENU D’UNE CELLULE ».
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Conversion en majuscule
Avant Transformation :
ID |
Nom |
Ville |
---|---|---|
1 |
John Doe |
new york |
2 |
Jane Smith |
los angeles |
Configuration de Transformation :
Colonnes cibles : Nom, Ville
Après Transformation :
ID |
Nom |
Ville |
---|---|---|
1 |
JOHN DOE |
NEW YORK |
2 |
JANE SMITH |
LOS ANGELES |
7.10.9. Conversion depuis des entités HTML
Convertir les entités HTML de chaque cellule du champ sélectionné sous la forme d’un caractère.
Par exemple :
Entité HTML
devientEntité HTML
.
Entité HTML
devientEntité HTML
.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Conversion depuis des entités HTML
Avant Transformation :
ID |
Description |
---|---|
1 |
|
2 |
|
Configuration de Transformation :
Colonnes cibles : Description
Après Transformation :
ID |
Description |
---|---|
1 |
|
2 |
|
Dans cet exemple, la transformation décode les entités HTML dans la colonne « Description » pour restituer leur forme lisible. Par exemple, « <div> » devient « <div> » et « &#x27; » devient l’apostrophe simple « “ ».
7.10.10. Conversion vers des entités HTML
Convertir les caractères éligibles de chaque cellule du champ sélectionné vers leur forme d’entité HTML.
Par exemple : Entité HTML
devient Entité HTML
.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Conversion vers des entités HTML
Avant Transformation :
Nom |
Description |
---|---|
John Doe |
|
Jane Smith |
|
Configuration de la Transformation :
Colonnes cibles :
Description
Après Transformation :
Nom |
Description |
---|---|
John Doe |
|
Jane Smith |
|
Dans cet exemple, la colonne Description
contient des caractères sensibles en HTML comme <
, >
et &
. La transformation remplace ces caractères par leurs entités HTML équivalentes (<
, >
et &
) afin d’éviter qu’ils ne soient interprétés comme des balises ou entités HTML lorsqu’ils sont affichés dans un environnement web. Cela garantit que le texte s’affiche exactement tel qu’il a été saisi.
7.10.11. Convertir les points de code Unicode en caractères
Convertir les points de code Unicode [7] en caractères (glyphes) pour chacun des champs sélectionnés.
Exemple visuel :
Biblioth\\u00E8que
deviendraBibliothèque
.
Mus\\ u00E9e
deviendraMusée
.
Informations complémentaires :
Unicode sur Wikipédia.
Point de code Unicode sur Wikipédia.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Convertir les points de code Unicode en caractères
Avant Transformation :
ID |
Description |
---|---|
1 |
\u0048ello |
2 |
World\u0021 |
3 |
\u0047ood \u004Dorning |
Configuration de Transformation :
Colonnes cibles : [“Description”]
Après Transformation :
ID |
Description |
---|---|
1 |
Hello |
2 |
World! |
3 |
Good Morning |
Dans cet exemple, la transformation décode les séquences Unicode dans la colonne « Description » afin de les convertir en texte lisible. Par exemple, « \u0048 » devient « H » et « \u0021 » devient « ! ».
7.10.12. Normaliser les espaces
Supprimer les espaces consécutifs (ou tout caractère apparenté à un espace : tabulations, retour chariot, etc.) pour les remplacer par un seul espace (caractère ASCII n°10).
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Normaliser les espaces
Avant Transformation :
ID |
Description |
Prix |
---|---|---|
1 |
Pomme, fruit frais |
$1.50 |
2 |
Banane, fruit tropical |
$0.50 |
3 |
Carotte, légume |
$0.30 |
Configuration de la Transformation :
Colonnes Cibles : Description
Supprimer les espaces en début et fin :
true
Après Transformation :
ID |
Description |
Prix |
---|---|---|
1 |
Pomme, fruit frais |
$1.50 |
2 |
Banane, fruit tropical |
$0.50 |
3 |
Carotte, légume |
$0.30 |
Dans cet exemple, la transformation a été appliquée à la colonne “Description”. Les espaces superflus en début et fin de chaîne ont été supprimés, assurant un contenu propre et homogène.
7.10.13. Rechercher / Remplacer
Effectuer une opération de rechercher / remplacer, soit en utilisant du texte simple, soit une expression régulière. Cette opération fonctionne pour tous les types de champs ainsi que pour les valeurs non reconnues.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Rechercher / Remplacer
Avant Transformation :
ID |
Statut |
---|---|
1 |
Nouveau Fichier |
2 |
En Revue |
3 |
Approuvé |
4 |
NouveauFichier |
Configuration de la Transformation :
Colonne Cible : Statut
Trouver : « Nouveau »
Remplacer par : « Ouvert »
Mode de remplacement :
Mot entier
Sensible à la casse :
Oui
Après Transformation :
ID |
Statut |
---|---|
1 |
Ouvert Fichier |
2 |
En Revue |
3 |
Approuvé |
4 |
NouveauFichier |
Dans cet exemple, la transformation cible la colonne « Statut ». La valeur « Nouveau » est remplacée par « Ouvert ». Notez que dans la quatrième ligne, NouveauFichier reste inchangé. Cela est dû au fait que le mode de remplacement est défini sur Mot entier
et que le texte « Nouveau » est inclus dans le mot « NouveauFichier ».
7.10.14. Reconnaître la langue
Reconnaître la langue de chacune des cellules du champ sélectionné. La langue reconnue est stockée dans un nouveau champ. Les formats de la langue disponibles sont :
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Reconnaître la langue
Avant Transformation :
Record ID |
Description |
---|---|
1 |
Bonjour, comment ça va? |
2 |
Good morning, how are you? |
3 |
Guten Morgen, wie geht es? |
Configuration de la Transformation :
Colonne Cible : Description
Format de Langue :
Nom de la langue localisée
Localiser le nom de la langue en :
Anglais
Ajouter la Confiance : Oui
Après Transformation :
Record ID |
Description |
Description.language |
Description.confiance |
---|---|---|---|
1 |
Bonjour, comment ça va? |
French |
0.97 |
2 |
Good morning, how are you? |
English |
0.99 |
3 |
Guten Morgen, wie geht es? |
German |
0.99 |
Dans cet exemple, la transformation identifie avec précision la langue de chaque entrée textuelle et fournit un score de confiance reflétant la certitude de cette détection. Cela permet d’améliorer les analyses et traitements des données en fonction de critères spécifiques à chaque langue.
7.10.15. Supprimer le code HTML
Supprimer les balises HTML, remplace les entités HTML et les entités Unicode par leur équivalent texte pour les champs sélectionnés.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Supprimer le code HTML
Avant Transformation :
ID |
Description |
Price |
---|---|---|
1 |
|
$50 |
2 |
|
$30 |
3 |
|
$20 |
Configuration de la Transformation :
Colonnes Cibles :
Description
Après Transformation :
ID |
Description |
Price |
---|---|---|
1 |
Special offer on shoes & gloves |
$50 |
2 |
Buy this item now! |
$30 |
3 |
New stock available in store |
$20 |
Dans cet exemple, la transformation est appliquée à la colonne Description de chaque ligne. Les balises HTML telles que <b>
, <i>
, <a href="...">
, <p>
, et <br>
sont supprimées, ne laissant que le texte brut.
7.10.16. Supprimer les diacritiques
Supprimer tous les diacritiques [10] de chaque cellule du champ sélectionné. Les accents font partie des diacritiques.
Sont considérés comme diacritiques les caractères appartenant aux catégories Unicode :
LM LETTER, Modifier.
SK SYMBOL, Modifier.
MN MARK, Nonspacing.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Supprimer les diacritiques
Avant Transformation :
ID |
Nom |
Ville |
---|---|---|
1 |
José Álvarez |
São Paulo |
2 |
Zoë Kravitz |
Zürich |
3 |
François Père |
Strasbourg |
Configuration de la Transformation :
Colonnes Cibles : Nom, Ville
Après Transformation :
ID |
Nom |
Ville |
---|---|---|
1 |
Jose Alvarez |
Sao Paulo |
2 |
Zoe Kravitz |
Zurich |
3 |
Francois Pere |
Strasbourg |
7.10.17. Suppression des espaces en début et fin
Supprimer les espaces ou tout caractère apparenté (tabulations, retour chariot, etc.) au début et à la fin d’un texte.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Suppression des espaces en début et fin
Avant Transformation :
ID |
Nom |
|
---|---|---|
1 |
John Doe |
|
2 |
Jane Smith |
|
3 |
Bob Lee |
Configuration de Transformation :
Colonnes cibles : Nom, Email
Après Transformation :
ID |
Nom |
|
---|---|---|
1 |
John Doe |
|
2 |
Jane Smith |
|
3 |
Bob Lee |
Dans cet exemple, la transformation supprime les espaces supplémentaires éventuels au début et à la fin des valeurs des colonnes « Nom » et « Email », garantissant ainsi que les données soient propres et uniformément formatées dans l’ensemble du jeu de données.
7.10.18. Supprimer des caractères indésirables
L’objectif de la transformation Supprimer les caractères indésirables est de nettoyer et de normaliser les données au sein d’un jeu de données en supprimant ou en modifiant certains caractères selon des règles spécifiques. Cela permet de garantir que les données soient uniformes et exemptes de caractères indésirables.
Note
Exemple pratique : Supprimer des caractères indésirables
Avant Transformation :
ID |
Nom |
Adresse |
---|---|---|
1 |
Jöhn Döe |
123 Sträßé Blvd |
2 |
Jane Smith |
456 Road St. |
3 |
Alice O’Hara |
789 Avénue Ct. |
Configuration de Transformation :
Colonnes Ciblées : Name, Adresse
Supprimer les signes de ponctuation et symboles : Oui
Supprimer les diacritiques : Oui
Supprimer toutes les lettres : Non
Supprimer tous les chiffres : Non
Convertir les multiples espaces en un seul caractère espace : Oui
Supprimer les espaces en début et fin de chaîne : Oui
Supprimer tous les espaces : Non
Après Transformation :
ID |
Nom |
Adresse |
---|---|---|
1 |
John Doe |
123 Strasse Blvd |
2 |
Jane Smith |
456 Road St |
3 |
Alice OHara |
789 Avenue Ct |
7.11. Transformations de type Numérique
7.11.1. Arrondir un décimal
Arrondir un décimal :
Si la stratégie est A l’entier le plus proche, le décimal est arrondi à l’entier le plus proche (2,6 est remplacé par 3 et 2,4 est remplacé par 2).
Si la stratégie est A l’entier supérieur, le décimal est arrondi à l’entier supérieur (2,1 est remplacé par 3).
Si la stratégie est A l’entier inférieur, le décimal est arrondi à l’entier inférieur (2,6 est remplacé par 2).
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Arrondir un décimal
Avant Transformation :
ID |
Prix |
---|---|
1 |
23.67 |
2 |
89.99 |
3 |
100.01 |
4 |
55.55 |
Configuration de Transformation :
Colonne ciblée : Prix
Stratégie d’arrondi :
ROUND
Après Transformation :
ID |
Prix |
---|---|
1 |
24 |
2 |
90 |
3 |
100 |
4 |
56 |
7.11.2. Créer des intervalles de taille fixe
Créer des intervalles de taille fixe à partir d’une colonne numérique.
Exemple visuel :
Exemple :
[0, 10[
[10, 20[
[20, 30[ …
Cette transformation peut être utilisée pour créer, par exemple, des histogrammes (e.g. des diagrammes à barre) à partir de valeurs continues.
Choisir le nom de la colonne numérique à partir de laquelle les intervalles vont être créés.
Choisir le nom de la nouvelle colonne qui contiendra les intervalles.
Spécifier une borne inférieure pour le premier intervalle et une borne supérieure pour le dernier intervalle. C’est une opération optionnelle. Si une borne inférieure B est précisée, toutes les valeurs inférieures à cette borne seront placées dans l’intervalle ]-∞, B[. Si une borne supérieure B”
est précisée, toutes les valeurs supérieures ou égales à cette borne seront placées dans l’intervalle [B”, +∞[.
Cocher l’option pour obtenir une colonne de type texte contenant des intervalles de type [X, Y[ signifiant que la valeur est >= X et < Y.
Cocher l’option pour obtenir deux colonnes de type numérique : la première contenant les bornes inférieures des intervalles (inclusives) et la seconde contenant les bornes supérieures des intervalles (exclusives).
Prévisualisation du résultat :
Note
Exemple pratique : Créer des intervalles de taille fixe
Avant Transformation :
Âge |
---|
17 |
37 |
45 |
60 |
82 |
Configuration de la Transformation :
Colonne Cible : Âge
Nom de la nouvelle colonne
Pas (Stride) : 20
Valeur Minimale : 20
Valeur Maximale : 80
Générer des Intervalles : True
Générer deux colonnes (Bornes inférieure et supérieure) : True
Après Transformation :
Âge |
Intervalles |
Bornes_min_inclusive |
Bornes_max_exclusive |
---|---|---|---|
17 |
]-∞, 20[ |
20 |
|
37 |
[20, 40[ |
20 |
40 |
45 |
[40, 60[ |
40 |
60 |
60 |
[60, 80[ |
60 |
80 |
82 |
[80, +∞[ |
80 |
Dans ce jeu de données transformé :
La colonne “Intervalles” indique la plage dans laquelle chaque âge se situe.
Les colonnes “Bornes_min_inclusive” et “Bornes_max_exclusive” fournissent les limites numériques précises de ces intervalles.
Cette transformation facilite la catégorisation et l’analyse des données d’âge, notamment à des fins statistiques ou de regroupement.
7.11.3. Convertir des unités de mesure
Convertir des valeurs d’une unité de mesure vers une autre (e.g. convertir des Kilomètres en Miles).
Il est également possible de détecter automatiquement l’unité de mesure source.
La transformation supporte 2 modes de fonctionnement :
Conversion simple : d’un champ numérique vers un champ numérique, éventuellement la même.
Conversion avec reconnaissance automatique de l’unité : d’un champ texte vers un nouveau champ numérique.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Convertir des unités de mesure
Avant Transformation :
Product ID |
Longueur (unité=pouces) |
---|---|
001 |
24 |
002 |
36 |
Configuration de Transformation :
Colonnes à convertir : « Longueur »
Unité source :
pouces
Unité cible :
centimètres
Convertir vers de nouvelles colonnes :
true
Suffixe pour les colonnes créées : « «
Après Transformation :
Product ID |
Longueur (unité=pouces) |
Longueur.cm |
---|---|---|
001 |
24 |
60.96 |
002 |
36 |
91.44 |
Dans cet exemple, la transformation convertit la longueur de pouces en centimètres.
Mode d’analyse et de conversion
Pour activer ce mode, vous devez sélectionner l’option Conversion avec reconnaissance automatique de l’unité de mesure.
Colonnes à convertir : Identifiez les colonnes du jeu de données contenant les valeurs à analyser et à convertir. Ces colonnes doivent être de type texte.
Catégorie source : Définissez la catégorie d’unité de mesure correspondant aux valeurs des colonnes (par exemple : Masse, Pression, Volume, Longueur, etc.). Les colonnes sélectionnées sont censées contenir des mesures du même type. Par exemple, vous ne pouvez pas avoir 5Kg (kilos) et 8l (litres) dans la même colonne.
Unité cible : Définissez l’unité vers laquelle les données doivent être converties (cette unité doit être cohérente avec la catégorie source : si vous avez sélectionné la catégorie Pression pour votre colonne, une valeur de 5 kg sera considérée comme une erreur car il s’agit d’une unité de Masse et non de Pression).
Séparateur décimal : Indiquez le séparateur décimal utilisé dans l’expression textuelle de la mesure. Les valeurs possibles sont le point (par défaut) et la virgule. Si vous choisissez la virgule, alors 10.5 kg sera interprété comme le décimal 10.5 avec, comme unité de mesure, le kilogramme.
Ajouter une colonne de diagnostic : Facultativement, ajoutez des colonnes permettant de diagnostiquer et d’enregistrer les éventuelles erreurs ou problèmes survenus pendant le processus de conversion, comme les erreurs d’analyse.
Suffixe pour les colonnes créées : Ajoutez un suffixe aux colonnes générées lors du processus d’analyse et de conversion.
Note
Exemple pratique : Parse and Convert Mode
Avant Transformation :
Product ID |
Poids |
---|---|
001 |
5.3 kg |
002 |
10.2 m² |
Configuration de Transformation :
Colonnes à convertir : « Poids »
Catégorie source :
Masse
Unité cible :
Gramme
Séparateur décimal :
point
Ajouter une colonne de diagnostic :
true
Suffixe pour les colonnes créées : « Gramme »
Après Transformation :
Product ID |
Poids |
Poids.Gramme |
Poids.Gramme_diagnostic |
---|---|---|---|
001 |
« 5 kg » |
5000.0 |
null |
002 |
« 10 m² » |
“m²” n’est pas une unité de mesure de Masse |
Dans cet exemple, sur la première ligne, la transformation convertit avec succès le poids de kilogrammes en grammes et enregistre le résultat dans de nouvelles colonnes. Sur la deuxième ligne, la valeur indique une unité de surface (« 10 m² ») et non une unité de masse. La transformation est donc impossible (la colonne « Poids.Gramme » reste vide) et un message d’erreur en précise la raison : 'm²' n'est pas une unité de mesure de Masse
.
7.11.4. Extraire des nombres
Extraire des nombres d’un champ de type texte et les insère dans de nouveaux champs.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Extraire des nombres
Avant Transformation :
ID |
Description |
---|---|
1 |
Total: $123,456.78 |
2 |
Amount: 98765.43 units |
3 |
Count: 12,000 items |
Configuration de la Transformation :
Colonne Cible : “Description”
Type de Colonnes de Sortie : “Décimal”
Nombre Fixe de Colonnes de Sortie :
1
Stratégie de Milliers : “Virgule”
Stratégie Décimale : “Point”
Après Transformation :
ID |
Description |
Description.number |
---|---|---|
1 |
Total: $123,456.78 |
123456.78 |
2 |
Amount: 98765.43 units |
98765.43 |
3 |
Count: 12,000 items |
12000.00 |
Dans cet exemple, la transformation extrait avec succès la première valeur numérique de la colonne “Description”, interprète correctement les séparateurs de milliers et de décimales en fonction des séparateurs spécifiés, et remplit la nouvelle colonne “Description.number” avec la valeur décimale extraite. Cela permet une analyse plus claire et directe des données numériques précédemment intégrées dans le texte.
7.12. Transformations de type Date
7.12.1. Ajouter la date et l’heure actuelle
Le but de la transformation « Ajouter la date et l’heure actuelles » est d’ajouter une nouvelle colonne à un jeu de données qui enregistre la date et l’heure actuelles au moment de l’application de la transformation. Cela peut être particulièrement utile pour suivre quand les données ont été traitées ou mises à jour.
Fonctionnement :
Pour configurer cette transformation, vous devez spécifier le nom de la nouvelle colonne dans laquelle l’heure actuelle sera enregistrée. Cela se fait en définissant un paramètre qui détermine le nom de la colonne cible. La transformation ajoutera automatiquement cette nouvelle colonne à chaque ligne de votre jeu de données, en la remplissant avec la date et l’heure exactes de l’exécution de la transformation.
Note
Exemple pratique : Ajouter la date et l’heure actuelle
Avant la transformation :
IDCommande |
NomClient |
Produit |
Quantité |
---|---|---|---|
001 |
John Doe |
Laptop |
1 |
002 |
Jane Smith |
Tablet |
2 |
Configuration de la transformation :
Vous décidez d’ajouter une colonne nommée « HeureTraitement » pour suivre la date et l’heure de traitement de chaque enregistrement.
Après la transformation :
IDCommande |
NomClient |
Produit |
Quantité |
HeureTraitement |
---|---|---|---|---|
001 |
John Doe |
Laptop |
1 |
07/12/2021 10:00 AM |
002 |
Jane Smith |
Tablet |
2 |
07/12/2021 10:00 AM |
Dans cet exemple, « 07/12/2021 10:00 AM » représente la date et l’heure d’exécution de la transformation. Cette valeur est ajoutée à chaque ligne dans la nouvelle colonne « HeureTraitement ». Important : après l’application de la transformation, toutes les lignes du jeu de données contiendront la même valeur dans la colonne HeureTraitement
.
7.12.2. Convertir un nombre entier en date
Convertir un nombre entier en date.
Le nombre en entrée peut représenter la date de façon littérale (e.g. 20190715 = 15 juillet 2019) mais il peut aussi représenter un nombre de jours ou de millisecondes depuis une date d’origine. Par exemple, si vous indiquez que votre nombre vient de Microsoft Excel, 39448 sera converti à la date du 1er janvier 2008 car il y a exactement 39 448 jours entre le 1er janvier 1900 et le 1er janvier 2008.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Convertir un nombre entier en date
Avant Transformation :
ID Employé |
Date de Début (Entier) |
---|---|
001 |
20210101 |
002 |
20210523 |
Configuration de la Transformation :
Colonnes Cibles : Date de Début (Numérique)
Stratégie de Conversion : yyyyMMdd
Modèle de Date Personnalisé : Non utilisé
Après Transformation :
ID Employé |
Date de Début (Type Date) |
---|---|
001 |
2021-01-01 |
002 |
2021-05-23 |
Dans cet exemple, la colonne “Date de Début” qui était au format numérique (entier de type yyyyMMdd) a été convertie en un véritable format date (aaaa-MM-jj). Cela permet de normaliser les dates et de les rendre exploitables pour des opérations de tri, de filtrage ou de calculs temporels.
7.12.3. Extraire une partie d’une date
Extraire une partie d’un champ de type date (Année, Trimestre, Mois, Jour) et l’insère dans un nouveau champ.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Extraire une partie d’une date
Avant Transformation :
ID Employé |
Date de Début |
---|---|
1 |
2023-01-15 |
2 |
2024-02-20 |
Configuration de la Transformation :
Colonne cible : Date de Début
Nom de la nouvelle colonne : Année de Début
Partie de la date à extraire :
Année
Après Transformation :
ID Employé |
Date de Début |
Année de Début |
---|---|---|
1 |
2023-01-15 |
2023 |
2 |
2023-02-20 |
2024 |
Dans cet exemple, la transformation a été configurée pour extraire la partie “année” de la colonne “Date de Début”. En conséquence, une nouvelle colonne “Année de Début” a été ajoutée au jeu de données, montrant l’année extraite de chaque date de la colonne “Date de Début”. Cela permet une analyse plus facile des données en fonction de l’année.
7.12.4. Formater une date avec un format personnalisé
Formater la date d’un champ de type date en lui appliquant un format personnalisé et l’insère dans un nouveau champ.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Formater une date avec un format personnalisé
Avant Transformation :
ID Enregistrement |
Date Originale (type:Date) |
---|---|
1 |
2023-01-01 13:45:00 |
2 |
2023-01-02 14:30:00 |
Configuration de la Transformation :
Colonne Source : Date Originale
Format de Date : « dd-MM-yyyy »
Après Transformation :
ID Enregistrement |
Date Originale (type:Texte) |
---|---|
1 |
01-01-2023 |
2 |
02-01-2023 |
7.12.5. Formater une date avec un format prédéfini
Formater la date d’un champ de type date en lui appliquant un format prédéfini, et l’insère dans un nouveau champ.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Formater une date avec un format prédéfini
Avant Transformation :
ID Enregistrement |
Date Originale (type:Date) |
---|---|
1 |
2023-01-01 13:45:00 |
2 |
2024-01-02 14:30:00 |
Configuration de la Transformation :
Colonne Source : Date Originale
Format de Date : « Année et trimestre »
Après Transformation :
ID Enregistrement |
Date Originale (type:Texte) |
---|---|
1 |
2023 T1 |
2 |
2024 T1 |
7.12.6. Intervalle de dates
Calculer l’intervalle de dates entre deux champs de type date. Un nouveau champ est créé avec le résultat du calcul, exprimé au choix, en Semaines, Jours, Heures, Minutes, Secondes ou Millisecondes.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Intervalle de dates
Avant Transformation :
ID Commande |
Date de Début |
Date de Fin |
---|---|---|
1 |
2023-01-01 10:00:00 |
2023-01-02 10:00:00 |
2 |
2023-01-01 15:00:00 |
2023-01-03 11:00:00 |
Configuration de la Transformation :
Colonnes Cibles : Date de Début, Date de Fin
Unité d’Intervalle : Heures
Après Transformation :
ID Commande |
Date de Début |
Date de Fin |
Intervalle (Heures) |
---|---|---|---|
1 |
2023-01-01 10:00:00 |
2023-01-02 10:00:00 |
24 |
2 |
2023-01-01 15:00:00 |
2023-01-03 11:00:00 |
44 |
Dans cet exemple, la transformation calcule l’intervalle de temps en heures entre la « Date de Début » et la « Date de Fin » pour chaque commande. Le résultat est une nouvelle colonne « Intervalle (Heures) » ajoutée au jeu de données, indiquant une durée de 24 heures pour la première commande et de 44 heures pour la seconde. Cette transformation permet de visualiser de manière claire et immédiate les intervalles de temps associés à chaque enregistrement.
7.12.7. Reconnaissance de date
Sur un champ de type date, le système va essayer de déchiffrer toutes les cellules non reconnues comme date lors de l’importation en essayant des formats variés et de différents pays (e.g. 2nd March 2015, 2015.03.02, etc.). Les formats retenus sont soumis à la validation de l’utilisateur.
Le premier champ de type date du jeu de données est automatiquement sélectionné
(une fois le champ traité, sélectionnez manuellement le suivant).
Le système essaie de trouver le format (e.g. YYY-MM-dd)
qui permet de reconnaître le plus grand nombre de dates dans le champ (ce nombre ainsi que le pourcentage associé sont indiqués sous la liste déroulante). Si le format n’est pas reconnu ou si la reconnaissance automatique ne vous convient pas, vous pouvez saisir votre propre format dans la zone
.
Prévisualisation du résultat
: en vert, les cellules pour lesquelles le format spécifié dans la zone
reconnaît la cellule comme une date (la colonne de gauche contient la valeur brute non reconnue à l’importation, celle de droite la date telle que reconnue par le format spécifié dans la zone
).
Note
Répéter les étapes 1 à 5 jusqu’à ce que la zone soit entièrement vide (i.e. toutes les cellules sont reconnues).
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Reconnaissance de date
Avant Transformation :
ID |
Entrée Date |
---|---|
1 |
2023/03/15 |
2 |
March 15, 2023 |
3 |
15-03-2023 14:00 |
4 |
2023/03/16 |
Configuration de la Transformation :
Colonne Cible : Entrée Date Tale of Data suggérera successivement les modèles de date suivants :
Le modèle
yyyy/MM/dd
sera appliqué aux lignes #1 et #4.Le modèle
MMMM d, yyyy
sera appliqué à la ligne #2.Le modèle
dd-MM-yyyy HH:mm
sera appliqué à la ligne #3.
Après Transformation :
ID |
Entrée Date |
---|---|
1 |
2023-03-15 00:00:00 |
2 |
2023-03-15 00:00:00 |
3 |
2023-03-15 00:00:00 |
4 |
2023-03-16 00:00:00 |
Dans cet exemple, la Transformation de Reconnaissance de Date parvient à interpréter correctement des formats de dates non standardisés, améliorant ainsi la cohérence et l’utilisabilité du jeu de données pour des analyses et des rapports ultérieurs.
Indication
Pour les formats personnalisés, la très grande majorité du temps il faut utiliser un yyyy si l’on veut désigner une année sur quatre chiffres, plutôt qu’avec des majuscules. En effet: * y représente l’année calendaire (celle que l’on utilise très fréquemment, en pratique) * Y représente l’année « basée sur la semaine » ( »Week Year » en anglais) : les derniers jours de l’année peuvent être, selon que le changement de semaine soit à cheval sur le changement d’année ou non, rattachés à l’année suivante.
Voir ici pour plus de détails : https://en.wikipedia.org/wiki/ISO_8601#Week_dates
7.13. Transformations de regroupement (clustering)
Regrouper des mots / textes ayant une orthographe proche dans un champ donné. Ces regroupements sont créés par des algorithmes mais la décision d’uniformiser le texte des cellules regroupées est laissée à la discrétion de l’utilisateur.
Choix du champ
sur lequel on souhaite explorer les regroupements possibles.
Lancer la prévisualisation
: les regroupements (clusters) sont calculés pour permettre à l’utilisateur de trancher.
La zone
affiche les regroupements trouvés : 1 ligne = 1 regroupement ou « cluster » (e.g. sur la fig. ci-dessus le système indique qu’il a trouvé 3 orthographes voisines pour MONOSPACE et que ce regroupement concerne 48 lignes).
Le bouton Afficher le détail des regroupements
(ou un double-clic sur la zone
) permet de passer à la vue Détails qui est celle utilisée pour prendre une décision pour chaque regroupement.
Regroupement de mots d’orthographes voisines
. Décocher une ou plusieurs options pour ne pas les inclure dans le regroupement finalisé (= faux-positif).
En sélectionnant une option dans la zone
, le système affiche dans la zone
les enregistrements correspondants (cela facilite par exemple l’identification de faux-positifs).
Choisir le texte de remplacement pour l’ensemble des orthographes voisines (ou double-cliquer sur une option de la zone
pour automatiquement la choisir comme texte de remplacement).
Cliquer sur Accepter puis Suivant
permet en une seule opération de confirmer les choix effectués pour le regroupement en cours (i.e. les modalités choisies dans la zone
+ le texte de remplacement dans la zone
) et de passer au regroupement suivant. Le bouton Suivant permet de passer au regroupement suivant sans valider le regroupement en cours (il n’y aura donc pas de remplacement).
Bouton Appliquer : appliquer un remplacement sur l’ensemble des regroupements validés lors des 4 étapes décrites ci-dessus.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.13.1. Clustering Phonétique
Regroupement de cellules basées sur une prononciation similaire, par exemple téléphone et téléphones seront regroupés.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.13.2. Fingerprint Consonne-d’abord
Regroupement de chaînes de caractères basées sur la séquence des consonnes dans le texte.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.13.3. Fingerprint “Exact Match”
Regroupement par égalité de valeurs.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.13.4. Fingerprint Universel
Apparier des textes similaires en combinant plusieurs stratégies :
Elimination des mots non signifiants (articles, pronoms, conjonctions de coordination, …).
Elimination des doubles voyelles et des doubles consonnes.
Elimination des abréviations courantes.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.13.5. Fingerprint Voyelles-d’abord
Regroupement de chaînes de caractères basées sur la séquence des voyelles dans le texte.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.13.6. N-Gram Clustering
Regroupement de cellules basés sur les couples de lettres en commun (ou triplets, ou quadruplets, etc. selon la valeur de N).
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.14. Transformations de Dédoublonnage : dédoublonnage multi-algorithmes
Tale of Data permet d’effectuer des dédoublonnages multi-champs (l’utilisateur choisit les champs à utiliser pour décider du rapprochement de deux lignes) et multi-algorithmes (l’utilisateur choisit l’algorithme de rapprochement pour chaque champ : phonétique, N-Gram, …) :
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : dédoublonnage multi-algorithmes
Avant Transformation :
Considérons le jeu de données suivant :
ID |
Nom |
Adresse |
Ville |
Pays |
---|---|---|---|---|
1 |
John Doe |
123 Soul Street |
New York |
USA |
2 |
Jane Smith |
456 Oak Avenue |
Londres |
UK |
3 |
John Doe |
123 Sole Street |
New York |
USA |
4 |
Alice Brown |
789 Pine Road |
Sydney |
Australie |
5 |
Doe, John |
123 Soul Street |
New York |
USA |
Configuration de la Transformation :
Type de Déduplication Multi-Algorithme : Fusionner et Supprimer les Lignes Duplicates
Correspondance Exacte sur Toutes les Colonnes :
false
Configuration des Colonnes : Correspondance sur les colonnes « Nom » et « Adresse » avec Correspondance Exacte Non Ordonnée pour « Nom » et Correspondance Phonétique Anglaise pour « Adresse ».
Filtres : Aucun (toutes les lignes sont prises en compte)
Après Transformation :
Le jeu de données après application de la transformation :
ID |
Nom |
Adresse |
Ville |
Pays |
---|---|---|---|---|
1 |
John Doe |
123 Soul Street |
New York |
USA |
2 |
Jane Smith |
456 Oak Avenue |
Londres |
UK |
4 |
Alice Brown |
789 Pine Road |
Sydney |
Australie |
Explication :
La ligne 3 est considérée comme un doublon de la ligne 1, d’abord parce que le « Nom » est identique, et ensuite parce que « Soul Street » et « Sole Street » ont la même prononciation en anglais, et que la configuration de la transformation spécifie une Correspondance Phonétique Anglaise pour la colonne « Adresse ». En conséquence, ces deux lignes sont fusionnées et l’une est supprimée.
La ligne 5 est également considérée comme un doublon de la ligne 1 car « John Doe » et « Doe, John » sont considérés comme identiques grâce à la correspondance Exacte Non Ordonnée définie pour la colonne « Nom ». Les adresses étant strictement identiques, la ligne 5 est supprimée également.
Cette transformation permet de maintenir un jeu de données propre en supprimant les données redondantes et en ne conservant que les lignes uniques, selon les règles de déduplication spécifiées.
7.15. Transformations sur les Natures
7.15.1. Attribuer une Nature à un champ
Changer ou forcer la Nature d’un champ (e.g. forcer la nature « n° de téléphone » pour une colonne numérique).
La transformation s’applique sur un ou plusieurs champs.
La transformation n’utilise pas le ou les filtres actifs.
Note
Exemple pratique : Attribuer une Nature à un champ
Avant Transformation :
ID |
Nom |
Statut |
Revenu |
---|---|---|---|
1 |
Alpha |
Actif |
1500 |
2 |
Bêta |
Inactif |
1200 |
3 |
John Smith |
Actif |
1800 |
Configuration de la Transformation :
Colonne à laquelle attribuer une nature : « Nom »
Nouvelle Nature : Nom Complet
Après Transformation :
ID |
Nom |
Statut |
Revenu |
---|---|---|---|
1 |
Alpha |
Actif |
1500 |
2 |
Bêta |
Inactif |
1200 |
3 |
John Smith |
Actif |
1800 |
Après application de la transformation, pour la colonne « Nom », seule la ligne n°3 contient une valeur reconnue comme Nom Complet (« John Smith »).
7.15.2. Supprimer la Nature d’un champ
Supprimer la Nature présente sur un ou plusieurs champs.
La transformation s’applique sur un ou plusieurs champs.
La transformation n’utilise pas le ou les filtres actifs.
Note
Exemple pratique : Supprimer la Nature d’un champ
Avant Transformation :
ID |
Nom (Nature = Prénom) |
Âge |
Salaire |
---|---|---|---|
1 |
John |
30 |
50000 |
2 |
Jane |
27 |
60000 |
3 |
Doe (nature invalide) |
22 |
55000 |
La colonne “Nom” est de nature Prénom, ce qui rend « Doe » une valeur invalide :
Configuration de la Transformation :
Colonnes Cibles :
Nom
Après Transformation :
ID |
Nom |
Âge |
Salaire |
---|---|---|---|
1 |
John |
30 |
50000 |
2 |
Jane |
27 |
60000 |
3 |
Doe |
22 |
55000 |
La colonne « Nom » n’a maintenant plus de nature associée. Cela signifie qu’il n’y a plus d’invalidité de nature dans les données.
7.15.3. Découper une URL
Extraire depuis une URL, au choix : le Protocole (http, ftp, …), le Nom de domaine (www.taleofdata.com, www.google.fr, …), le Port, le Chemin ou les Paramètres depuis les URLs du champ sélectionné vers un ou plusieurs nouveaux champs.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Découper une URL
Avant Transformation :
ID |
URL du Site Web |
---|---|
1 |
|
2 |
|
3 |
Configuration de la Transformation :
Colonne URL : “URL du Site Web”
Parties Extraites :
Domaine
Chemin
Requête
Après Transformation :
ID |
URL du Site Web | Domaine URL du Site Web |
Chemin URL du Site Web |
Requête URL du Site Web |
|
---|---|---|---|---|
1 |
https://example.com/products?item=book | example.com |
/products |
item=book |
|
2 |
https://blog.example.com/about | blog.example.com |
/about |
||
3 |
http://www.example.net/search?q=hello+world| example.net |
/search |
q=hello+world |
Dans cet exemple, la transformation prend chaque URL de la colonne “URL du Site Web”, l’analyse et extrait les composants du domaine, du chemin et de la requête. Ces composants sont ensuite stockés dans de nouvelles colonnes au sein de la même table, fournissant ainsi une décomposition structurée des données URL originales. Cela rend le jeu de données plus informatif et plus facile à analyser pour des composants spécifiques des URL.
7.15.4. Décoder les URLs
Décoder chaque URL du champ sélectionné depuis le format application/x-www-form-urlencoded. Par exemple :
http%3A%2F%2Fwww.taleofdata.com
devienthttp://www.taleofdata.com
.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Décoder les URLs
Avant Transformation :
ID |
URLCodée |
---|---|
1 |
https%3A%2F%2Fexample.com%2Fpath%3Fq%3Dtest |
2 |
https%3A%2F%2Fanother.com%2Fpath%3Fq%3Dabc |
Configuration de la Transformation :
Colonne Cible : URLCodée
Après Transformation :
ID |
URLCodée |
---|---|
1 |
|
2 |
Dans cet exemple, la transformation prend un tableau contenant des URLs encodées et les convertit en un format lisible par l’homme, rendant les données plus accessibles et faciles à comprendre pour des analyses ou des rapports ultérieurs.
7.15.5. Encoder les URLs
Encoder chaque URL du champ sélectionné dans le format application/x-www-form-urlencoded. Par exemple :
http://www.taleofdata.com
devienthttp%3A%2F%2Fwww.taleofdata.com
.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Encoder les URLs
Avant Transformation :
ID |
Nom |
Site Web |
---|---|---|
1 |
John Doe |
|
2 |
Jane Smith |
Configuration de la Transformation :
Colonnes Cibles :
Site Web
Après Transformation :
ID |
Nom |
Site Web |
---|---|---|
1 |
John Doe |
|
2 |
Jane Smith |
Dans cet exemple, les données de la colonne Site Web
sont transformées pour s’assurer que les espaces sont correctement encodés sous la forme %20
, rendant ainsi les URLs sûres et utilisables dans un navigateur web.
7.15.6. Mettre en forme les prénoms
Mettre en forme les prénoms (normalisation des espaces, capitalisation) du champ sélectionné.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Mettre en forme les prénoms
Avant Transformation :
ID |
Prénom |
Nom |
---|---|---|
1 |
john |
Doe |
2 |
MARY |
Smith |
3 |
aLiCe |
Johnson |
Configuration de la Transformation :
Colonne Cible : Prénom
Après Transformation :
ID |
Prénom |
Nom |
---|---|---|
1 |
John |
Doe |
2 |
Mary |
Smith |
3 |
Alice |
Johnson |
7.15.7. Extraire nom, prénom, civilité / genre des noms complets
Extraire au choix : les Prénoms, les Noms ou les Civilités depuis un champ comportant des noms complets. Permet également de déduire les Civilités et les Genres.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Extraire nom, prénom, civilité / genre des noms complets
Avant Transformation :
ID |
Nom Complet |
---|---|
1 |
|
2 |
Mme. Jane Smith |
3 |
Dr. Alice Johnson |
Configuration de la Transformation :
Colonne Source : Nom Complet
Parts à extraire :
Civilité
Prénom
Nom de famille
Genre
Après Transformation :
ID |
Nom Complet |
Nom Complet.civilité |
Nom Complet.prénom |
Nom Complet.nom de famille |
Nom Complet.genre |
---|---|---|---|---|---|
1 |
John Doe |
John |
Doe |
Homme |
|
2 |
Jane Smith |
Mme. |
Jane |
Smith |
Femme |
3 |
Alice Johnson |
Mme. |
Alice |
Johnson |
Femme |
Cette transformation permet une décomposition structurée et détaillée des noms, ce qui peut être particulièrement utile pour des communications personnalisées, le tri des données et l’analyse basée sur des segments démographiques.
7.15.8. Mettre en forme les noms propres
Mettre en forme les noms propres pour le champ sélectionné.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Mettre en forme les noms propres
Avant Transformation :
Nom Employé |
Département |
---|---|
john doe |
Marketing |
JANE DOE |
Ressources Humaines |
Configuration de la Transformation :
Colonnes Cibles : Nom Employé
Après Transformation :
Nom Employé |
Département |
---|---|
John Doe |
Marketing |
Jane Doe |
Ressources Humaines |
7.15.9. Mettre en forme les genres
Mettre en forme les genres selon une Locale (pays / langue) et un Format (Court, Long).
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Mettre en forme les genres
Avant Transformation :
ID |
Nom |
Genre |
---|---|---|
1 |
Alice |
Female |
2 |
Bob |
male |
3 |
Charlie |
M |
4 |
Dana |
FEMALE |
Configuration de la Transformation :
Colonne Cible : « Genre »
Région :
Anglais (Royaume-Uni)
Format :
Court
Après Transformation :
ID |
Nom |
Genre |
---|---|---|
1 |
Alice |
F |
2 |
Bob |
M |
3 |
Charlie |
M |
4 |
Dana |
F |
7.15.10. Mettre en forme les civilités
Mettre en forme les civilités selon une Locale (pays / langue) et un Format (Court, Long).
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Mettre en forme les civilités
Avant Transformation :
ID |
Nom |
Civilité |
---|---|---|
1 |
Alice |
Ms |
2 |
Bob |
mr |
3 |
Clara |
Mistress |
Configuration de la Transformation :
Colonne Cible : « Civilité »
Région :
Anglais (Royaume-Uni)
Format :
Long
Après Transformation :
ID |
Nom |
Civilité |
---|---|---|
1 |
Alice |
Miss |
2 |
Bob |
Mister |
3 |
Clara |
Mrs |
7.15.11. Mettre en forme les nationalités
Mettre en forme les nationalités (normalisation des espaces, capitalisation) du champ sélectionné.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Mettre en forme les nationalités
Avant Transformation :
ID |
Nationalité |
---|---|
1 |
american |
2 |
BRITISH |
3 |
CanADian |
Configuration de la Transformation :
Colonne Cible : Nationalité
Après Transformation :
ID |
Nationalité |
---|---|
1 |
American |
2 |
British |
3 |
Canadian |
7.15.12. Extraire le code SIREN
Extraire le code SIREN (Système d”Identification du Répertoire des ENtreprises) d’un champ comportant des SIRET (Système d”Identification du Répertoire des ETablissements) vers un nouveau champ. L’extraction fonctionne uniquement avec des codes SIRET valides.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Extraire le code SIREN
Avant Transformation :
ID |
Nom de l’Entreprise |
Numéro SIRET |
---|---|---|
1 |
Alpha Inc. |
12345678901234 |
2 |
Beta LLC |
98765432109876 |
3 |
Gamma Corp. |
55555555555555 |
Configuration de la Transformation :
Colonne Cible : « Numéro SIRET »
Après Transformation :
ID |
Nom de l’Entreprise |
Numéro SIRET |
Numéro SIRET.siren |
---|---|---|---|
1 |
Alpha Inc. |
12345678901234 |
123456789 |
2 |
Beta LLC |
98765432109876 |
987654321 |
3 |
Gamma Corp. |
55555555555555 |
555555555 |
Dans cet exemple, la transformation prend les numéros SIRET de la colonne spécifiée, les valide, et extrait les 9 premiers chiffres pour les enregistrer sous forme de numéros SIREN dans le jeu de données de sortie. Cela permet de simplifier le jeu de données et de se concentrer uniquement sur les numéros d’identification du siège social de l’entreprise.
7.16. Transformations Géographiques
7.16.1. Analyser une adresse
Analyse un à plusieurs champs contenant des adresses puis extrait chaque partie dans de nouveaux champs. Si l’adresse est répartie sur plusieurs champs, vous devez les sélectionner dans l’ordre.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Analyser une adresse
Avant Transformation :
ID |
AdresseBrute |
---|---|
1 |
30 bis rue de Lisbonne, 75008 Paris |
2 |
12 rue de Chazelles 75017 Paris |
Configuration de la Transformation :
Colonnes Cibles : “AdresseBrute”
Région : « France »
Après Transformation :
AdresseBrute |
Pays |
AdresseBrute.numero |
AdresseBrute.complementNum |
AdresseBrute.typeVoie |
AdresseBrute.nomVoie |
AdresseBrute.CP |
AdresseBrute.Ville |
AdresseBrute.lieuDit |
AdresseBrute.servicePostal |
AdresseBrute.ilot |
AdresseBrute.batiment |
AdresseBrute.etage |
---|---|---|---|---|---|---|---|---|---|---|---|---|
30 bis rue de Lisbonne, 75008 Paris |
France |
30 |
bis |
rue |
de Lisbonne |
75008 |
Paris |
|||||
12 rue de Chazelles 75017 Paris |
France |
12 |
rue |
de Chazelles |
75017 |
Paris |
Dans cet exemple, la colonne “AdresseBrute” est analysée et décomposée automatiquement en plusieurs sous-champs normalisés comme le numéro de rue, complément de numéro, type et nom de voie, code postal et ville, selon les conventions postales françaises. Cela facilite les traitements d’adresses et les rapprochements géographiques.
7.16.2. Convertir des codes pays
Convertir, dans le champ sélectionné, des codes pays depuis / vers la norme ISO 3166-1 [13] dans les formats suivants :
Code à 2 lettres : ISO 3166-1 alpha-2.
Code à 3 lettres : ISO 3166-1 alpha-3.
Nom de pays.
Par exemple :
Pour un code sur 2 lettres tel que FR, la conversion dans le format ISO 3166-1 alpha-3 donnera FRA.
Pour un code sur 3 lettres tel que USA, la conversion dans le format Nom de pays avec la langue Français donnera États-Unis.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Convertir des codes pays
Avant la transformation :
ID |
Nom |
CodePays |
---|---|---|
1 |
John Doe |
USA |
2 |
Jane Doe |
DE |
Configuration de la transformation :
Colonne cible : CodePays
Standard souhaité : ISO 3166-1 alpha-3
Après la transformation :
ID |
Nom |
CodePays |
---|---|---|
1 |
John Doe |
USA |
2 |
Jane Doe |
DEU |
Dans cet exemple, la transformation a été configurée pour convertir les codes pays de la colonne CodePays
vers le standard ISO 3166-1 alpha-3. En conséquence, DE
a été converti en DEU
, tandis que USA
, déjà conforme, est resté inchangé.
7.16.3. Corriger les Codes Communes INSEE dépréciés (France)
Remplacer les codes communes INSEE dépréciés par leur nouvelle valeur. Un code commune INSEE peut être déprécié pour différentes raisons, dont :
Commune « associée ».
Commune périmée.
Commune déléguée.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Corriger les Codes Communes INSEE dépréciés (France)
Avant Transformation :
ID |
Code INSEE |
Nom |
---|---|---|
1 |
12345 |
CommuneA |
2 |
67890 |
CommuneB |
3 |
13579 |
CommuneC |
Note : Supposons que le code “67890” pour CommuneB soit obsolète.
Configuration de la Transformation :
Colonne Cible : Code de Commune
Après Transformation :
ID |
Code INSEE |
Nom |
|
---|---|---|---|
1 |
12345 |
CommuneA |
|
2 |
54321 |
CommuneB |
(Code mis à jour) |
3 |
13579 |
CommuneC |
Dans cet exemple, la transformation vérifie la colonne “Code de Commune” pour détecter les codes obsolètes. Elle constate que le code “67890” pour CommuneB est obsolète et le remplace par le code valide actuel “54321”. Le reste du jeu de données reste inchangé car aucun autre code obsolète n’a été trouvé.
7.16.4. Déduire des données géographiques depuis des Codes Postaux (France)
Enrichir le jeu de données courant avec des données géographiques (nom du département, code du département, nom de la région, code de la région) déduites du code postal présent dans le champ sélectionné.
Par exemple, en partant du code postal 75001, vous pouvez obtenir comme nouveaux champs :
Le code du département : 75.
Le nom du département : Paris.
Le code de la région : 11.
Le nom de la région : Île-de-France.
Note
Exemple pratique : Déduire des données géographiques depuis des Codes Postaux (France)
Avant Transformation :
ID |
Adresse |
CodePostal |
---|---|---|
1 |
123 Rue D’Amiens |
80090 |
2 |
456 Rue De Lyon |
69000 |
3 |
789 Rue De Nice |
Configuration de la Transformation :
Colonne Cible : CodePostal
Enrichir avec : Nom du Département
Après Transformation :
ID |
Adresse |
CodePostal |
Département |
---|---|---|---|
1 |
123 Rue D’Amiens |
80090 |
Somme |
2 |
456 Rue De Lyon |
69000 |
Rhône |
3 |
789 Rue De Nice |
Dans cet exemple, la transformation exploite la colonne « CodePostal » pour en déduire le « Département » correspondant au code postal fourni. Pour le premier enregistrement, le code postal « 80090 » correspond au département « Somme », et pour le second, « 69000 » correspond au département « Rhône ». Le troisième enregistrement n’ayant pas de code postal, le champ département reste vide.
Astuce
Un même code postal peut correspondre à plusieurs communes.
Certains codes postaux peuvent appartenir à un département différent de celui présent dans le code.
Pour un meilleur résultat, il est conseillé d’utiliser les codes communes INSEE ou bien la combinaison code postal et nom de la ville (libellé d’acheminement).
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.16.5. Enrichir depuis des Codes Communes INSEE (France)
Enrichir le jeu de données courant avec des données géographiques provenant du Code Officiel Géographique [14] (nom de la commune, nom du département, code du département, nom de la région, code de la région) en partant du code commune INSEE présent dans le champ sélectionné.
Par exemple, en partant du code commune INSEE 75056, vous pouvez obtenir comme nouveaux champs:
Le nom de la commune : Paris.
Le code du département : 75.
Le nom du département : Paris.
Le code de la région : 11.
Le nom de la région : Île-de-France.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Enrichir depuis des Codes Communes INSEE (France)
Avant Transformation :
ID |
Nom |
Code INSEE |
---|---|---|
1 |
Paris |
75056 |
2 |
Lyon |
69123 |
3 |
Marseille |
Configuration de la Transformation :
Colonne cible pour le Code INSEE : Code INSEE
Enrichir avec :
Nom Ville
,Département
,Région
Corriger les codes obsolètes : Oui
Après Transformation :
ID |
Nom |
Code INSEE |
Nom Ville |
Département |
Région |
---|---|---|---|---|---|
1 |
Paris |
75056 |
Paris |
Paris |
Île-de-France |
2 |
Lyon |
69123 |
Lyon |
Rhône |
Auvergne-Rhône-Alpes |
3 |
Marseille |
Dans cet exemple, le jeu de données contient initialement des informations de base comprenant un identifiant unique, le nom et le code INSEE des villes. Après application de la transformation avec la configuration indiquée, le jeu de données est enrichi avec des informations supplémentaires comme le nom de la ville, le département et la région à partir des codes INSEE fournis. Pour Marseille, où le code INSEE est manquant, aucune information supplémentaire n’est ajoutée.
7.16.6. Enrichir depuis des Codes Postaux (France)
Enrichir le jeu de données courant avec des données géographiques (code commune INSEE, nom de la commune, nom du département, code du département, nom de la région, code de la région) déduites du code postal et du nom de la ville (Libellé d’acheminement) présents dans les champs sélectionnés.
Par exemple, en partant du code postal 75001 et de la ville Paris, vous pouvez obtenir comme nouveaux champs :
Le code commune INSEE : 75056.
Le nom de la commune : Paris.
Le code du département : 75.
Le nom du département : Paris.
Le code de la région : 11.
Le nom de la région : Île-de-France.
La transformation s’applique sur deux champs.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Enrichir depuis des Codes Postaux (France)
Avant Transformation :
Code Postal |
Nom Ville |
---|---|
75001 |
Paris |
13001 |
Marseille |
Configuration de la Transformation :
Référence Colonne Code Postal : Colonne 1 (Code Postal)
Référence Colonne Ville : Colonne 2 (Nom Ville)
Enrichir avec :
Code INSEE
,Nom Région
Mettre à jour les codes communes obsolètes : Oui
Après Transformation :
Code Postal |
Nom Ville |
Code INSEE |
Nom Région |
---|---|---|---|
75001 |
Paris |
75101 |
Île-de-France |
13001 |
Marseille |
13201 |
Provence-Alpes-Côte d’Azur |
Dans cet exemple, la transformation enrichit le tableau initial en ajoutant le code INSEE et des informations géographiques supplémentaires (ici le nom de la région) pour chaque entrée à partir du code postal et du nom de la ville fournis.
7.16.7. Enrichir avec les codes pays / Nom de pays
Ajouter des codes pays ou nom de pays dans un nouveau champ en exploitant les codes pays ou nom de pays à la norme ISO 3166-1 [15] présents dans le champ sélectionné, aux formats suivants :
Code à 2 lettres : ISO 3166-1 alpha-2.
Code à 3 lettres : ISO 3166-1 alpha-3.
Nom de pays.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Enrichir avec les codes pays / Nom de pays
Avant Transformation :
ID |
CodePays |
---|---|
1 |
US |
2 |
DE |
3 |
FR |
Configuration de la Transformation :
Colonne Source : “CodePays”
Enrichir avec : “Nom du Pays”
Langue de sortie : Anglais.
Après Transformation :
ID |
CodePays |
nom_pays |
---|---|---|
1 |
US |
United States |
2 |
DE |
Germany |
3 |
FR |
France |
Dans cet exemple, la transformation prend les codes pays ISO à deux lettres de la colonne “CodePays” et les convertit en noms de pays complets selon les paramètres spécifiés. Les résultats sont stockés dans une nouvelle colonne “nom_pays”, enrichissant ainsi le jeu de données original avec des informations géographiques plus explicites.
7.16.8. Géocoder une adresse
Géocoder un ou plusieurs champs contenant des adresses. Deux champs seront ajoutés pour la latitude et la longitude. Si l’adresse est répartie sur plusieurs champs, vous devez les sélectionner dans l’ordre (i.e. numéro, rue, code postal puis ville).
Pour récupérer, en plus de la latitude et de la longitude, les champs d’adresse présents dans le référentiel (e.g. numéro, nom de la voie, code postal, …), vous devez sélectionner l’option « Normaliser les adresses ».
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Géocoder une adresse
Avant Transformation :
CustomerID |
AdresseLigne |
---|---|
1 |
8 R DU BEL AIR 5 OBSERVATOIRE 92190 MEUDON |
2 |
4 AV DES TUYAS 92600 ASNIERES |
Configuration de la Transformation :
Colonnes Ciblées : “AdresseLigne”
Pays : France
Normalisation : Oui
Après Transformation :
CustomerID |
AdresseLigne |
AdresseLigne.numéro |
AdresseLigne.complémentNuméro |
AdresseLigne.rue |
AdresseLigne.codePostal |
AdresseLigne.commune |
AdresseLigne.codeIris |
AdresseLigne.latitude |
AdresseLigne.longitude |
AdresseLigne.confiance |
---|---|---|---|---|---|---|---|---|---|---|
1 |
8 R DU BEL AIR 5 OBSERVATOIRE 92190 MEUDON |
8 |
Rue du Bel Air |
92190 |
MEUDON |
920480212 |
48.814713 |
2.225489 |
0.68 |
|
2 |
4 BIS AV DES TUYAS 92600 ASNIERES |
4 |
Bis |
Avenue des Tuyas |
92600 |
ASNIERES-SUR-SEINE |
920040603 |
48.921102 |
2.279063 |
0.74 |
Tale of Data ajoute une nouvelle colonne contenant le taux de confiance (suffixe .confiance) en fin de jeu de données. Ce taux est compris entre 0 et 1. 1 signifie que votre adresse possède une correspondance exacte dans le référentiel géographique. Plus cette correspondance est dégradée, plus le taux de confiance tend vers zéro.
7.16.9. Retrouver le pays à partir de la latitude et longitude
Cette transformation permet de retrouver le pays à partir de la latitude et de la longitude. Il est également possible d’enrichir le jeu de données avec la capitale du pays, sa zone géographique et le continent auquel il appartient.
Avertissement
Pour des raisons de performances, cette transformation utilise des polygones représentant les contours légèrement simplifiés des différents pays du monde. Il peut arriver que certains points très proches d’une frontière ne soient pas rattachés au bon pays. Le taux de réussite est de 98.9% sur le dataset GeoNames « All Countries » contenant la latitude, la longitude et le pays pour 1 552 935 lieux (fichier allCountries.zip téléchargeable ici: <https://download.geonames.org/export/zip/>).
La transformation s’applique sur un champ latitude et un champ longitude.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Retrouver le pays à partir de la latitude et longitude
Avant la transformation :
ID Fiche |
Latitude |
Longitude |
---|---|---|
1 |
48.858844 |
2.294351 |
2 |
51.507351 |
-0.127758 |
Configuration de la transformation :
Colonne Latitude : Latitude
Colonne Longitude : Longitude
Langue : Anglais
Champs additionnels :
Code ISO à 2 lettres
Capitale
Après la transformation :
ID Fiche |
Latitude |
Longitude |
Pays |
ISO2 |
Capitale |
---|---|---|---|---|---|
1 |
48.858844 |
2.294351 |
France |
FR |
Paris |
2 |
51.507351 |
-0.127758 |
Royaume-Uni |
GB |
Londres |
Dans cet exemple, la transformation utilise les coordonnées géographiques pour enrichir les données de chaque enregistrement avec le nom du pays, son code ISO à 2 lettres, ainsi que la capitale, conformément à la configuration spécifiée.
7.16.10. Normaliser les adresses postales françaises (AFNOR NF Z 10-011)
Normaliser des adresses postales françaises selon la norme AFNOR NF Z 10-011 du 19 janvier 2013, facilitant la distribution de courrier. Cette norme répartit les adresses postales françaises en 6 champs :
CIVILITÉ - TITRE ou QUALITÉ - PRÉNOM - NOM.
N°APP ou BAL - ÉTAGE - COULOIR - ESC.
ENTRÉE - BÂTIMENT - IMMEUBLE - RÉSIDENCE.
NUMÉRO - LIBELLÉ DE LA VOIE.
LIEU DIT ou SERVICE PARTICULIER DE DISTRIBUTION.
CODE POSTAL et LOCALITÉ DE DESTINATION ou CODE CEDEX et LIBELLÉ CEDEX.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Normaliser les adresses postales françaises (AFNOR NF Z 10-011)
Avant Transformation :
Civilité |
Prénom |
Nom |
Adresse |
Ville |
Code Postal |
---|---|---|---|---|---|
John |
Doe |
30 RUE DE MOSCOU Apt 45 |
Paris |
75008 |
Configuration de la Transformation :
Colonne Civilité : Civilité
Colonne Prénom : Prénom
Colonne Nom : Nom
Colonnes Adresse Postale : Adresse, Ville, Code Postal
Majuscules sur les lignes postales :
true
Après Transformation :
Civilité |
Prénom |
Nom |
Adresse |
Ville |
Code Postal |
adresse_postale_ligne1 |
adresse_postale_ligne2 |
adresse_postale_ligne3 |
adresse_postale_ligne4 |
adresse_postale_ligne5 |
adresse_postale_ligne6 |
---|---|---|---|---|---|---|---|---|---|---|---|
John |
Doe |
30 RUE DE MOSCOU Apt 45 |
Paris |
75008 |
MR. JOHN DOE |
30 RUE DE MOSCOU |
APT 45 |
75008 PARIS |
7.16.11. Normaliser les adresses postales françaises (S42)
Normaliser des adresses postales françaises selon la norme S42. Cette norme répartit les adresses postales françaises en 10 champs :
Given name.
Surname.
Street No.
Street Name.
Street type.
Floor.
Town.
Region.
Postcode.
Country.
La transformation s’applique sur plusieurs champs.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Normaliser les adresses postales françaises (S42)
Avant Transformation :
Prénom |
Nom |
Adresse |
Pays |
---|---|---|---|
Damien |
Desclozeaux |
30 RUE D ALSACE 92110 CLICHY |
France |
Configuration de la Transformation :
Colonne Prénom : Prénom
Colonne Nom : Nom
Colonnes Adresse Postale : Adresse
Colonne Pays : Pays
Après Transformation :
Prénom |
Nom |
Adresse |
Pays |
s42_givenName |
s42_surname |
s42_streetNo |
s42_streetName |
s42_streetType |
s42_floor |
s42_town |
s42_region |
s42_postcode |
s42_country |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Damien |
Desclozeaux |
30 RUE D ALSACE 92110 CLICHY |
France |
Damien |
DESCLOZEAUX |
30 |
d’Alsace |
Rue |
Clichy |
92110 |
France |
7.17. Transformations sur les numéros de téléphone
7.17.1. Extraire la zone géographique depuis un téléphone
Extraire le pays à partir des numéros de téléphone internationaux du champ sélectionné vers un nouveau champ.
Prérequis :
Un champ ayant une nature de type Numéro de téléphone international.
Seuls les numéros de téléphone internationaux valides pourront être exploités.
Format de sortie pour les pays :
Code à 2 lettres : ISO 3166-1 alpha-2.
Code à 3 lettres : ISO 3166-1 alpha-3.
Nom de pays (localisé).
Visual exemple :
Format |
Langue |
Téléphone (entrée) |
Pays (sortie) |
---|---|---|---|
Code à 2 lettres |
N/A |
+33 1 02 03 04 05 |
FR |
Code à 3 lettres |
N/A |
+32 2 333 44 55 |
BEL |
Nom du pays |
anglais |
+41 22 333 44 55 |
Switzerland |
Informations complémentaires :
Format International (E.123) sur Wikipédia.
ISO 3166-1 alpha-2 sur Wikipédia.
ISO 3166-1 alpha-3 sur Wikipédia.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Extraire la zone géographique depuis un téléphone
Avant Transformation :
ID |
Numéro de Téléphone |
---|---|
1 |
+1 408-555-1234 |
2 |
+44 20 7946 0958 |
3 |
+91 22 2888 8888 |
Configuration de la Transformation :
Colonne Cible : Numéro de Téléphone
Format Pays : NOM DU PAYS
Langue de Sortie : Anglais
Après Transformation :
ID |
Numéro de Téléphone |
Pays |
---|---|---|
1 |
+1 408-555-1234 |
États-Unis |
2 |
+44 20 7946 0958 |
Royaume-Uni |
3 |
+91 22 2888 8888 |
Inde |
Dans cet exemple, la transformation prend les numéros de téléphone internationaux de la colonne “Numéro de Téléphone”, identifie l’indicatif téléphonique et les convertit en noms complets de pays en fonction de la locale spécifiée (“Anglais”). Le résultat est l’ajout d’une nouvelle colonne “Pays” au jeu de données, avec le nom du pays correspondant à chaque numéro de téléphone.
7.17.2. Mettre en forme les numéros de téléphone
Mettre en forme les numéros de téléphone en se conformant à un patron :
Format International : +33 9 67 13 07 93.
Format National : 0967130793.
Format E.164 : +33967130793.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Mettre en forme les numéros de téléphone
Avant Transformation :
ID |
Nom |
Numéro de Téléphone |
---|---|---|
1 |
John Doe |
+1 650-555-1234 |
2 |
Jane Smith |
00442079460758 |
3 |
Alice Brown |
|
Configuration de la Transformation :
Colonnes Cibles : Numéro de Téléphone
Format du Numéro de Téléphone : INTERNATIONAL
Région : Anglais (US). Comme il ne s’agit que d’une indication, le numéro britannique de Jane Smith sera correctement formaté.
Après Transformation :
ID |
Nom |
Numéro de Téléphone |
---|---|---|
1 |
John Doe |
+1 650-555-1234 |
2 |
Jane Smith |
+44 20 7946 0758 |
3 |
Alice Brown |
+1 650-555-2345 |
7.17.3. Redresser les numéros de téléphone à l’international
Redresser les numéros de téléphone à l’international d’un champ avec des numéros de téléphone à l’aide d’un champ contenant des Code Pays (ISO 3166-1 alpha-2), Code Pays (ISO 3166-1 alpha-3) ou des Pays. Les numéros de téléphone sont redressés dans un nouveau champ.
Prérequis :
Un champ ayant une nature de type Numéro de téléphone.
Un champ ayant une nature parmi : Code Pays (ISO 3166-1 alpha-2, alpha-3) ou Nom de Pays.
Exemple visuel :
+33 (010) 203-0405 avec un code pays FR et un format de sortie International donnera +33 1 02 03 04 05 comme numéro de téléphone corrigé.
0102030405 avec un code pays FR et un format de sortie International donnera +33 1 02 03 04 05 comme numéro de téléphone corrigé.
+33 (010) 203-0405 avec un code pays FR et un format de sortie E.164 donnera +33102030405 comme numéro de téléphone corrigé.
Valeurs possibles de la colonne de diagnostic :
VALID : lorsque la correction s’est bien déroulée.
INVALID_FOR_REGION : lorsque le numéro de téléphone n’est pas valide pour le code pays.
INVALID_COUNTRY_CODE : lorsque le code pays est invalide.
INVALID_INPUT : lorsque ce n’est pas un numéro de téléphone.
Informations complémentaires :
Format International (E.123) sur Wikipédia.
Format E.164 sur Wikipédia.
ISO 3166-1 alpha-2 sur Wikipédia.
ISO 3166-1 alpha-3 sur Wikipédia.
La transformation s’applique sur deux champs.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Redresser les numéros de téléphone à l’international
Avant Transformation :
Numéro de téléphone |
Code pays |
---|---|
+33 1 40 90 38 00 |
FR |
+41134235000 |
CH |
Configuration de la Transformation :
Colonne Cible pour les Numéros de Téléphone : “Numéro de téléphone”
Colonne des Codes Pays : “Code pays”
Pays par Défaut : “Suisse”
Inclure une Colonne de Diagnostic : Oui
Après Transformation :
Numéro de téléphone |
Code pays |
Numéro de téléphone.formaté_international |
Numéro de téléphone.diagnostic_international |
---|---|---|---|
+33 1 40 90 38 00 |
FR |
+33 1 40 90 38 00 |
VALIDE |
+41134235000 |
CH |
INVALIDE_POUR_REGION |
Dans cet exemple, on voit que sur la première ligne, le numéro français était valide mais mal formaté. Il a été corrigé et son statut devient “VALIDE”. Sur la deuxième ligne, le numéro fourni n’est pas un numéro de téléphone valide pour la Suisse. Aucune correction n’est donc possible (la colonne Numéro de téléphone.formaté_international
reste vide, et le diagnostic est “INVALIDE_POUR_REGION”).
7.18. Transformations sur les adresses e-mail
7.18.1. Découper une adresse e-mail
Extraire depuis une adresse e-mail, au choix : le Domaine (contact@taleofdata.com, contact@gmail.com, …), la Partie locale (contact@taleofdata.com, contact@gmail.com, …) ou bien le Domaine et la Partie locale depuis les e-mails du champ sélectionné vers un ou plusieurs nouveaux champs.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Découper une adresse e-mail
Avant Transformation :
ID |
|
---|---|
1 |
|
2 |
Configuration de la Transformation :
Colonne Email : “Email”
Parts à extraire :
partie locale et partie domaine
Colonne Partie Domaine : “Domaine”
Extraire uniquement des e-mails valides :
true
Après Transformation :
ID |
Email.local |
Email.domain |
|
---|---|---|---|
1 |
john.doe |
example.com |
|
2 |
jane.smith |
abc.com |
Cette transformation permet aux utilisateurs de diviser efficacement les adresses e-mail en leurs composants de base, facilitant ainsi la gestion et l’analyse des données en fonction des différentes parties des adresses e-mail.
7.18.2. Mettre en forme les e-mails
Mettre en forme les e-mails (normalisation des espaces, suppression des accents, mise en minuscule des caractères) du champ sélectionné.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Mettre en forme les e-mails
Avant Transformation :
ID |
|
---|---|
1 |
|
2 |
|
3 |
Configuration de la Transformation :
Colonne Cible : Email
Après Transformation :
ID |
|
---|---|
1 |
|
2 |
|
3 |
7.18.3. Vérifier la cohérence des e-mails
Vérifier l’absence de fautes dans les adresses e-mails en utilisant les champs contenant les Prénoms et les Noms de famille comme références.
Prérequis :
Un champ contenant les adresses e-mails à vérifier.
Un champ contenant les prénoms de référence.
Un champ contenant les noms de famille de référence.
Exemple visuel :
nom |
prénom |
email_consistency |
|
---|---|---|---|
Nom |
Prénom |
OK |
|
penompenom.nom@domain.com |
Nom |
Prénom |
FIRST_NAME_MISSPELLED |
prenom-nam@domain.com |
Name |
Prénom |
LAST_NAME_MISSPELLED |
La transformation s’applique sur trois champs.
La transformation utilise le ou les filtres actifs.
Note
Exemple pratique : Vérifier la cohérence des e-mails
Avant la transformation :
Prénom |
Nom de famille |
|
---|---|---|
John |
Doe |
|
Jane |
Smith |
Configuration de la transformation :
Colonne cible (Email) : Email
Colonne Prénom : Prénom
Colonne Nom de famille : Nom de famille
Colonne de cohérence Email : Statut Email
Colonne de modèle Email : Modèle Email
Colonne Email corrigé : Email corrigé
Après la transformation :
Prénom |
Nom de famille |
Email.statut_cohérence |
Email.modèle |
Email.corrigé |
|
---|---|---|---|---|---|
John |
Doe |
OK |
PRENOM__SEPARATEUR__NOM |
||
Jane |
Smith |
PRENOM_MAUVAISE_ORTHOGRAPHE |
PRENOM__SEPARATEUR__NOM |
Dans cet exemple, la transformation vérifie la cohérence de chaque adresse email par rapport aux champs Prénom
et Nom de famille
. Le premier email est valide et correspond à un modèle standard. Le second est signalé comme invalide (PRENOM_MAUVAISE_ORTHOGRAPHE
) car le prénom contenu dans l’email ne correspond pas à l’orthographe du prénom dans la colonne Prénom
.