7.5. Configuration et utilisation d’une transformation

image402

  • Perspective « Transformations » image403.

  • Palette des transformations disponibles image404 : cliquer pour sélectionner une transformation.

Prudence

Lorsque des filtres sont positionnés lors de l’exécution d’une transformation, cette transformation s’applique uniquement sur les enregistrements du jeu de données qui sont acceptés par le filtre.

image405

  • Zone d’aide image406 décrivant ce que fait la transformation (elle peut être masquée en cliquant sur le bouton ‘-‘ en haut à gauche de cette zone).

  • Liste des champs image407 sur lesquels s’appliquera la transformation (il est possible de sélectionner plusieurs champs avec les touches Maj ou Ctrl) ainsi que l’ensemble des options disponibles pour la transformation courante.

  • Le bouton Appliquer image408 permet d’appliquer la transformation courante au jeu de données. Le bouton Prévisualiser image409 permet d’avoir un aperçu des modifications qu’apportera la transformation courante.

7.6. Accès rapide aux transformations

Le Navigateur de champs permet un accès rapide à certaines transformations couramment utilisées. Pour invoquer ces transformations, il suffit d’effectuer un clic droit sur le ou les champs sélectionnés dans le Navigateur de champs :

image410

Astuce

Le menu contextuel du Navigateur de champs permet également de positionner des filtres sur le ou les champs sélectionnés.

7.7. Visualisation des modifications apportées par une transformation

La Fenêtre de visualisation des modifications apportées par une transformation se présente comme suit :

image411

Les changements sont répartis selon 5 critères :

  • Champ d’entrée (en blanc).

  • Champ modifié (en beige).

  • Valeur modifiée (en jaune).

  • Champ créé (en bleu).

  • Champ supprimé (en gris).

La visualisation des modifications apportées par une transformation est disponible à 2 endroits :

  • Depuis la zone de configuration de n’importe quelle transformation, donc avant l’application de ladite transformation, à l’aide du bouton Prévisualiser :

    image412

  • Depuis la zone Historique des transformations, donc après l’application de transformation, à l’aide du bouton image413 :

    image414

7.8. Transformations sur les champs

7.8.1. Ajouter un champ

Créer un nouveau champ, vide par défaut. En renseignant la valeur par défaut, il est possible d’affecter une valeur commune à toutes les cellules.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Ajouter un champ

Avant la transformation :

ID

Nom

Âge

1

Alice

30

2

Bob

25

Configuration de la transformation :

  • Nom de la nouvelle colonne : « Localisation »

  • Type de colonne : « Texte »

  • Valeur par défaut : « Inconnue »

Après la transformation :

ID

Nom

Âge

Localisation

1

Alice

30

Inconnue

2

Bob

25

Inconnue

Dans cet exemple, la transformation ajoute une nouvelle colonne nommée « Localisation » au jeu de données. Chaque ligne est enrichie avec la valeur par défaut « Inconnue » dans cette nouvelle colonne.

7.8.2. Concaténer des champs

Créer un nouveau champ qui est le résultat de la concaténation de plusieurs champs existants.

  • La transformation s’applique sur plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Concaténer des champs

Avant la transformation :

Prénom

Nom

DateDeNaissance

John

Doe

1990-01-01

Jane

Smith

1985-05-23

Configuration de la transformation :

  • Colonnes cibles : Prénom, Nom, DateDeNaissance

  • Nom de la nouvelle colonne : NomComplet

  • Texte de jointure :  » « 

  • Concaténer les valeurs manquantes : true

  • Supprimer les colonnes concaténées : true

Après la transformation :

NomComplet

John Doe 1990-01-01

Jane Smith 1985-05-23

Dans cet exemple, la transformation prend les valeurs des colonnes Prénom, Nom et DateDeNaissance pour les fusionner dans une nouvelle colonne appelée NomComplet. Chaque élément est séparé par un espace, fournissant un format clair et lisible qui regroupe les informations essentielles dans une seule colonne. Comme prévu, les colonnes initiales ont été supprimées après la concaténation.

7.8.3. Copier un champ

Créer un nouveau champ qui est la copie d’un champ existant.

  • La transformation s’applique sur un unique champ.

  • La transformation n’utilise pas le ou les filtres actifs.

Note

Exemple pratique : Copier un champ

Avant la transformation :

ID

Nom

Âge

1

Alice

30

2

Bob

25

3

Carol

28

Configuration de la transformation :

  • Colonne source : Âge

  • Colonne cible : Copie_Âge

Après la transformation :

ID

Nom

Âge

Copie_Âge

1

Alice

30

30

2

Bob

25

25

3

Carol

28

28

Dans cet exemple, la transformation a permis de créer une nouvelle colonne nommée Copie_Âge contenant les mêmes données que la colonne Âge. Cela permet de manipuler ou d’analyser les âges sans altérer les données d’origine.

7.8.4. Diviser un champ

Scinder un champ en plusieurs champs en utilisant un ou plusieurs séparateur(s).

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Diviser un champ

Avant Transformation :

NomComplet

Jane Doe

John Smith Jr

Alice Johnson

Configuration de Transformation :

  • Colonne Cible : “NomComplet”

  • Motif de Séparation : Espace (” “)

  • Nombre Fixe de Colonnes de Sortie : 3

Après Transformation :

NomComplet

NomComplet.split

NomComplet.split_1

Jane

Doe

John

Smith

Jr

Alice

Johnson

7.8.5. Fusionner des champs

Compléter les valeurs manquantes du premier champ avec la première valeur rencontrée parmi les autres champs sélectionnés.

  • La transformation s’applique sur plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Fusionner des champs

Avant Transformation :

FirstName

MiddleName

John

Patrick

Audrey

Bob

Gerald

Configuration de la Transformation :

  • Colonnes Sources : « FirstName », « MiddleName »

  • Supprimer les Colonnes Fusionnées : true

Après Transformation :

FirstName

John

Audrey

Bob

Dans cet exemple, on peut observer que sur la deuxième ligne, puisque la colonne « FirstName » est vide, c’est la valeur « Audrey » provenant de la colonne « MiddleName » qui a été conservée et placée dans la colonne fusionnée (ici « FirstName »).

7.8.6. Modifier le type d’un champ

Changer ou forcer le type d’un champ (e.g. passer le type d’un champ de numérique à texte).

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation n’utilise pas le ou les filtres actifs.

Note

Exemple pratique : Modifier le type d’un champ

Avant la transformation :

ID

Nom

Date de Naissance

1

Alice

« 1985-04-12 »

2

Bob

« 1990-08-23 »

Configuration de la transformation :

  • Colonne ciblée : Date de Naissance

  • Nouveau type de données : Date (à partir de chaîne de caractères)

Après la transformation :

ID

Nom

Date de Naissance

1

Alice

1985-04-12T00:00:00

2

Bob

1990-08-23T00:00:00

Dans cet exemple, la colonne « Date de Naissance » était initialement stockée sous forme de chaînes de caractères. La configuration de la transformation précise que cette colonne doit être convertie en type Date. Après l’application de la transformation, la colonne affiche désormais des dates (au lieu de chaînes), avec un format conforme au type Date.

7.8.7. Remplir les valeurs vides

Remplir les valeurs manquantes d”un ou plusieurs champs avec la dernière valeur non vide rencontrée.

Exemple visuel :

Date

Forecast

11/05/2019

800

12/05/2019

13/05/2019

21/05/2019

950

22/05/2019

23/05/2019

Après application de la transformation, on obtient la table suivante :

Date

Forecast

11/05/2019

800

12/05/2019

800

13/05/2019

800

21/05/2019

950

22/05/2019

950

23/05/2019

950

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Remplir les valeurs vides

Avant Transformation :

Considérons le jeu de données suivant représentant les données de ventes. Le jeu de données contient des valeurs manquantes dans les colonnes « Montant des Ventes » et « Nom du Client ».

Date

Montant des Ventes

Nom du Client

Région

2024-01-01

100

John Doe

Nord

2024-01-02

Nord

2024-01-03

200

Jane Smith

Est

2024-01-04

Est

2024-01-05

Ouest

2024-01-06

300

Mike Johnson

Ouest

2024-01-07

Sud

Configuration de la Transformation :

  • Colonnes Cibles : « Montant des Ventes », « Nom du Client »

  • Filtres : Aucun (s’applique à toutes les lignes)

Après Transformation :

Le jeu de données transformé remplit les valeurs manquantes de « Montant des Ventes » et « Nom du Client » avec les dernières valeurs observées :

Date

Montant des Ventes

Nom du Client

Région

2024-01-02

100

John Doe

Nord

2024-01-01

100

John Doe

Nord

2024-01-03

200

Jane Smith

Est

2024-01-04

200

Jane Smith

Est

2024-01-05

200

Jane Smith

Ouest

2024-01-06

300

Mike Johnson

Ouest

2024-01-07

300

Mike Johnson

Sud

Dans cet exemple, les valeurs manquantes dans « Montant des Ventes » et « Nom du Client » ont été remplacées par les valeurs les plus récentes disponibles provenant des lignes précédentes. Cela permet de compléter le jeu de données sans valeurs manquantes ou vides, facilitant ainsi une meilleure analyse et prise de décision.

7.8.8. Renommer une colonne

Modifier le nom d’un champ.

  • La transformation s’applique sur un unique champs.

  • La transformation n’utilise pas le ou les filtres actifs.

Note

Exemple pratique : Renommer une colonne

Avant Transformation :

ProductID

ProductName

Price

Quantity

001

Apple

0.50

100

002

Banana

0.30

150

003

Cherry

1.20

200

Configuration de Transformation :

  • Colonne Cible : « ProductName »

  • Nouveau Nom de Champ : « ItemName »

Après Transformation :

ProductID

ItemName

Price

Quantity

001

Apple

0.50

100

002

Banana

0.30

150

003

Cherry

1.20

200

7.8.9. Renommer plusieurs colonnes

Modifier le nom de plusieurs champs différents.

Note

Exemple pratique : Renommer plusieurs colonnes

Avant Transformation

Considérons un jeu de données avec les colonnes et données suivantes :

ID

First_Name

Last_Name

Age

City

1

John

Doe

28

New York

2

Jane

Smith

34

Los Angeles

3

Alice

Johnson

45

Chicago

Configuration de Transformation

Pour cet exemple, la configuration suivante est choisie pour renommer les colonnes :

  • Renommage automatique : Ajouter un suffixe « _X »

Après Transformation

ID

First_Name_X

Last_Name_X

Age_X

City_X

1

John

Doe

28

New York

2

Jane

Smith

34

Los Angeles

3

Alice

Johnson

45

Chicago

7.8.10. Réordonner les champs

Réordonner les champs d’un jeu de données.

  • La transformation s’applique sur plusieurs champs.

  • La transformation n’utilise pas le ou les filtres actifs.

Note

Exemple pratique : Réordonner les champs

Avant Transformation :

CustomerID

OrderDate

ProductName

Quantity

Price

101

2024-01-01

Widget A

10

2.50

102

2024-01-02

Widget B

5

5.00

103

2024-01-03

Widget C

2

7.50

Configuration de Transformation :

  • Ordre des Colonnes Souhaité : ProductName, Quantity, Price, OrderDate, CustomerID

Après Transformation :

ProductName

Quantity

Price

OrderDate

CustomerID

Widget A

10

2.50

2024-01-01

101

Widget B

5

5.00

2024-01-02

102

Widget C

2

7.50

2024-01-03

103

7.8.11. Supprimer un champ

Supprimer un ou plusieurs champs.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation n’utilise pas le ou les filtres actifs.

Note

Exemple pratique : Supprimer un champ

Avant Transformation :

ID Employé

Nom

Âge

Département

001

Alice

30

RH

002

Bob

24

Marketing

003

Carol

29

Développement

Configuration de la Transformation :

  • Colonnes Cibles : « Âge », « Département »

Après Transformation :

ID Employé

Nom

001

Alice

002

Bob

003

Carol

7.8.12. Transposer des champs en enregistrements

Transposer les valeurs des champs sélectionnés en un enregistrement par champ. Par exemple, pour le jeu de données ci-après :

Country Name

1960

1961

Afghanistan

414.371

491.378

Angola

550.05

454.708

Albania

2024.184

2280.874

Avec les paramètres suivants pour la transformation :

  • Liste des champs : 1960 and 1961.

  • Champ cible pour les en-têtes : Year.

  • Champ cible pour les valeurs : Level.

On obtient le résultat suivant :

Country Name

Year

Level

Afghanistan

1960

414.371

Angola

1960

550.05

Albania

1960

2024.184

Afghanistan

1961

491.378

Angola

1961

454.708

Albania

1961

2280.874

  • La transformation s’applique sur plusieurs champs.

  • La transformation n’utilise pas le ou les filtres actifs.

Note

Exemple pratique : Transposer des champs en enregistrements

Avant Transformation

Considérons un jeu de données représentant les ventes sur différents trimestres pour divers produits :

ID Produit

Ventes T1

Ventes T2

Ventes T3

Ventes T4

101

1500

1800

2000

2100

102

1700

1600

1950

2000

103

1600

1700

1800

1900

Configuration de Transformation

  • Colonnes à dé-pivoter : Ventes T1, Ventes T2, Ventes T3, Ventes T4

  • Stratégie de dé-pivotage : Dé-pivoter les colonnes sélectionnées.

  • Colonne cible pour les en-têtes : Trimestre

  • Colonne cible pour les valeurs : Ventes

Remarque : Une autre option aurait été de sélectionner la colonne ID Produit et de choisir la stratégie Dé-pivoter toutes les colonnes sauf celles sélectionnées*. Le résultat aurait été identique, avec la possibilité supplémentaire d’ajouter des colonnes à transposer dynamiquement.*

Après Transformation

Le jeu de données après transformation ressemblerait à ceci :

ID Produit

Trimestre

Ventes

101

Ventes T1

1500

101

Ventes T2

1800

101

Ventes T3

2000

101

Ventes T4

2100

102

Ventes T1

1700

102

Ventes T2

1600

102

Ventes T3

1950

102

Ventes T4

2000

103

Ventes T1

1600

103

Ventes T2

1700

103

Ventes T3

1800

103

Ventes T4

1900

Après la transformation, les données de ventes sont mieux structurées pour une analyse temporelle ou une visualisation, où les ventes de chaque produit sont désormais associées à un trimestre spécifique dans une colonne unique, « Trimestre », et au montant des ventes correspondant dans la colonne « Ventes ».

7.8.13. Masquer les données sensibles

Masquer des données sensibles afin d’en préserver la confidentialité.

Plusieurs stratégies de masquage sont disponibles :

  • Masquage sémantique

  • Masquage déterministe

  • Masquer tout

  • Masquer les n premiers caractères

  • Préserver les n premiers caractères

  • Masquer les n derniers caractères

  • Masquer les caractères entre deux positions

  • Préserver les caractères entre deux positions

  • Masquer les chiffres

Il est possible d’utiliser la prévisualisation pour anticiper les résultats de masquage.

  • La transformation s’applique sur plusieurs champs de type texte.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Masquer les données sensibles

Avant Transformation :

Nom du Client

Adresse Email

Numéro de Téléphone

John Doe

john.doe@example.com

123-456-7890

Jane Smith

jane.smith@example.com

098-765-4321

Configuration de la Transformation :

  • Colonnes à Masquer : Adresse Email, Numéro de Téléphone

  • Stratégies de Masquage :

    • Adresse Email : Masquer tous les caractères

    • Numéro de Téléphone : Conserver les quatre derniers caractères, masquer le reste

Après Transformation :

Nom du Client

Adresse Email

Numéro de Téléphone

John Doe

xxxxxxxxxxxxxxxx

xxx-xxx-7890

Jane Smith

xxxxxxxxxxxxxxxx

xxx-xxx-4321

Dans cet exemple, la transformation masque tous les caractères des adresses email afin de protéger l’identité des utilisateurs, tandis que pour les numéros de téléphone, elle conserve les quatre derniers caractères pour maintenir un certain niveau d’information sans révéler le numéro complet. Cette approche est utile dans les scénarios où des données partielles suffisent pour les tests ou les analyses.

7.9. Transformations sur les enregistrements

7.9.1. Ajouter des identifiants de lignes numériques

Pour configurer la transformation « Ajouter des identifiants numériques de lignes », l’utilisateur doit spécifier plusieurs paramètres :

Nom de la colonne cible : Le nom de la nouvelle colonne à ajouter, qui contiendra la séquence de valeurs entières.

Filtres : Un ensemble de conditions qui déterminent quelles lignes du jeu de données recevront la séquence d’entiers. Les lignes qui ne remplissent pas ces conditions auront une valeur nulle dans la nouvelle colonne.

La transformation commence par créer un identifiant de ligne interne pour chaque ligne du jeu de données à l’aide d’un nombre unique et monotonement croissant. Ensuite, elle applique les filtres spécifiés pour déterminer quelles lignes doivent recevoir un numéro de séquence. Si une ligne satisfait aux conditions des filtres, un numéro de séquence unique lui est attribué dans la nouvelle colonne. Si une ligne ne satisfait pas aux conditions des filtres, la nouvelle colonne pour cette ligne est définie sur null.

Enfin, le jeu de données est trié selon l’identifiant de ligne interne afin de conserver l’ordre d’origine, et la colonne de séquence est ajoutée au jeu de données.

Note

Exemple pratique : Ajouter des identifiants de lignes numériques

Avant Transformation :

ID

Nom

Âge

Pays

1

John

28

USA

2

Maria

34

Canada

3

Lee

23

Chine

4

Anna

45

USA

Configuration de la Transformation :

  • Nom de la Colonne Cible : SequenceNumber

  • Filtres : Country = 'USA'

Après Transformation :

ID

Nom

Âge

Pays

SequenceNumber

1

John

28

USA

12

2

Maria

34

Canada

null

3

Lee

23

Chine

null

4

Anna

45

USA

21

Dans cet exemple, la transformation a ajouté une nouvelle colonne, SequenceNumber, au jeu de données. La séquence commence à 0 pour la première ligne qui répond à la condition de filtre (Country = 'USA'). Les lignes qui ne remplissent pas la condition de filtre ont la valeur null dans la colonne SequenceNumber. La transformation conserve l’ordre d’origine du jeu de données et ne modifie le contenu qu’en fonction des paramètres configurés.

7.9.2. Supprimer les lignes filtrées

Supprimer les enregistrements filtrés.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Supprimer les lignes filtrées

Avant Transformation :

Supposons que nous ayons le jeu de données suivant :

ID

Nom

Âge

Pays

1

Alice

30

USA

2

Bob

25

Canada

3

Charlie

35

USA

4

David

40

UK

5

Eve

28

Canada

Configuration de la Transformation :

L’utilisateur souhaite supprimer toutes les lignes où la colonne « Pays » a la valeur « USA ».

  • Condition de Filtrage : Country = « USA »

Après Transformation :

Après avoir appliqué la transformation Supprimer les Lignes Filtrées avec le filtre ci-dessus, le jeu de données résultant serait :

ID

Nom

Âge

Pays

2

Bob

25

Canada

4

David

40

UK

5

Eve

28

Canada

Dans cet exemple, la transformation a supprimé les lignes où la colonne « Pays » était « USA » (lignes avec les ID 1 et 3). Le jeu de données restant ne contient donc que les lignes où le « Pays » est différent de « USA ».

7.9.3. Supprimer des enregistrements vides

Supprimer les enregistrements vides. Un enregistrement vide est un enregistrement dont tous les champs sont vides.

  • La transformation n’utilise pas le ou les filtres actifs.

Note

Exemple pratique : Supprimer les lignes vides

Pour illustrer le fonctionnement de la transformation Supprimer les lignes vides, considérons l’exemple suivant :

Avant Transformation :

ID

Nom

Âge

Email

1

John

28

john@example.com

2

3

4

5

Robert

29

robert@example.com

Configuration de la Transformation :

  • Aucune configuration requise

Après Transformation :

ID

Nom

Âge

Email

1

John

28

john@example.com

5

Robert

29

robert@example.com

Explication :

  • Les lignes 2, 3 et 4 sont supprimées car elles sont vides.

Après la transformation, le jeu de données ne conserve que les lignes où toutes les colonnes sélectionnées possèdent des valeurs non vides et non nulles, garantissant ainsi que les données restantes sont complètes et valides.

7.10. Transformations de type Texte

7.10.1. Ajouter un préfixe

Ajouter un préfixe aux valeurs du champ sélectionné.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Ajouter un préfixe

Avant la transformation :

ID

Nom

Numéro de téléphone

1

John Doe

123456789

2

Jane Smith

3

Bob Brown

987654321

Configuration de la transformation :

  • Colonne cible : Numéro de téléphone

  • Préfixe : +1-

  • Ajouter aux valeurs manquantes : Oui

Après la transformation :

ID

Nom

Numéro de téléphone

1

John Doe

+1-123456789

2

Jane Smith

+1-

3

Bob Brown

+1-987654321

Dans cet exemple, la transformation ajoute le préfixe « +1- » à chaque numéro de téléphone. Pour Jane Smith, qui n’avait pas de numéro à l’origine, le préfixe est tout de même ajouté car l’option « Ajouter aux valeurs manquantes » est activée, ce qui donne « +1- ».

7.10.2. Ajouter un suffixe

Ajouter un suffixe aux valeurs du champ sélectionné.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Ajouter un suffixe

Avant la transformation :

ID

Nom

Ville

1

Alice

New York

2

Bob

3

Charlie

Los Angeles

Configuration de la transformation :

  • Colonne cible : Ville

  • Suffixe : « - USA »

  • Ajouter aux valeurs manquantes : Oui

Après la transformation :

ID

Nom

Ville

1

Alice

New York - USA

2

Bob

- USA

3

Charlie

Los Angeles - USA

Dans cet exemple, la transformation ajoute le suffixe « - USA » à chaque valeur de la colonne Ville. Remarquez que même l’entrée vide pour Bob a été modifiée pour inclure le suffixe, ce qui illustre l’effet de l’option activée Ajouter aux valeurs manquantes.

7.10.3. Attribuer une valeur aux cellules

Attribuer une même valeur à l’ensemble des cellules d’un champ. Si la nouvelle valeur est vide, le contenu des cellules est effacé.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Attribuer une valeur aux cellules

Avant Transformation :

ID

Nom

Statut

1

Alice

Actif

2

Bob

Inactif

3

Charlie

Actif

Configuration de la Transformation :

  • Colonne Cible : Statut

  • Nouvelle Valeur : En attente de révision

Après Transformation :

ID

Nom

Statut

1

Alice

En attente de révision

2

Bob

En attente de révision

3

Charlie

En attente de révision

Dans cet exemple, la transformation a été configurée pour mettre à jour la colonne « Statut » de tous les enregistrements avec la valeur « En attente de révision ». Cela peut être utile dans des cas où un processus de révision est requis pour tous les membres, indépendamment de leur statut initial. La transformation garantit que le statut de chaque enregistrement est mis à jour de manière uniforme, facilitant ainsi un processus de révision cohérent.

7.10.4. Capitalisation

Mettre en lettre capitale le premier caractère de chaque mot de chaque cellule du ou des champs sélectionnés. Peut s’appliquer uniquement sur le premier mot en utilisant l’option Premier mot uniquement.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Mettre une sélection en lettre capitale

Avant la transformation :

ID

Description

Catégorie

1

APPLE PIE FROM STORE

bakery items

2

fresh orange JUICE

beverages

3

chocolate Bar

confectionery

Configuration de la transformation :

  • Colonnes sélectionnées : Description, Catégorie

  • Type de mise en majuscule : Mettre la première lettre de chaque mot en majuscule

Après la transformation :

ID

Description

Catégorie

1

Apple Pie From Store

Bakery Items

2

Fresh Orange Juice

Beverages

3

Chocolate Bar

Confectionery

Dans cet exemple, la transformation est configurée pour mettre en majuscule la première lettre de chaque mot dans les colonnes “Description” et “Catégorie”. Après l’application de la transformation, tous les mots commencent par une majuscule, ce qui améliore l’apparence du texte et le rend plus formel et lisible.

7.10.5. Compléter à droite

Compléter à droite les cellules du champ sélectionné avec une chaîne de caractères donnée.

Exemple visuel :

  • Étant donné une cellule bcd, avec une chaîne de complétion a et une longueur de 4, donnera bcda.

  • Étant donné une cellule bcda, avec une chaîne de complétion a et une longueur de 4, donnera bcda.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Compléter à droite

Avant Transformation :

ID

Nom

Ville

1

Alice

New York

2

Bob

LA

3

Clara

San Diego

Configuration de Transformation :

  • Colonne ciblée : Ville

  • Caractère de remplissage : « * »

  • Taille du remplissage : 9

Après Transformation :

ID

Nom

Ville

1

Alice

New York*

2

Bob

LA*******

3

Clara

San Diego

7.10.6. Compléter à gauche

Compléter à gauche les cellules du champ sélectionné avec une chaîne de caractères donnée.

Exemple visuel :

  • Étant donné une cellule bcd, avec une chaîne de complétion a et une longueur de 4, donnera abcd.

  • Étant donné une cellule abcd, avec une chaîne de complétion a et une longueur de 4, donnera abcd.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Compléter à gauche

Avant Transformation :

ID

Name

Description

1

Alice

Manager

2

Bob

Assistant

3

Charlie

Regional Manager

Configuration de la Transformation :

  • Colonne Cible : Description

  • Caractère de Remplissage : « * »

  • Taille : 20

Après Transformation :

ID

Name

Description

1

Alice

*************Manager

2

Bob

***********Assistant

3

Charlie

****Regional Manager

Dans cet exemple, la colonne Description a été transformée pour garantir que chaque entrée fasse exactement 20 caractères, en utilisant des astérisques pour compléter les descriptions plus courtes. Ce formatage est particulièrement utile pour générer des rapports ou aligner les données dans des sorties lisibles.

7.10.7. Conversion en minuscule

Convertir tous les caractères de chaque cellule du champ sélectionné en lettres minuscules.

Exemple visuel : « CONTENU d’une Cellule » devient « contenu d’une cellule ».

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Conversion en minuscule

Avant Transformation :

ID

Name

Email

1

Alice

ALICE@EXAMPLE.COM

2

Bob

Bob@Example.com

3

Charlie

CHARLIE@example.COM

Configuration de la Transformation :

  • Colonnes Cibles : Name, Email

Après Transformation :

ID

Name

Email

1

alice

alice@example.com

2

bob

bob@example.com

3

charlie

charlie@example.com

7.10.8. Conversion en majuscule

Convertir tous les caractères de chaque cellule du champ sélectionné en lettres majuscules.

Exemple visuel : « CONTENU d’une Cellule » devient « CONTENU D’UNE CELLULE ».

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Conversion en majuscule

Avant Transformation :

ID

Nom

Ville

1

John Doe

new york

2

Jane Smith

los angeles

Configuration de Transformation :

  • Colonnes cibles : Nom, Ville

Après Transformation :

ID

Nom

Ville

1

JOHN DOE

NEW YORK

2

JANE SMITH

LOS ANGELES

7.10.9. Conversion depuis des entités HTML

Convertir les entités HTML de chaque cellule du champ sélectionné sous la forme d’un caractère.

Par exemple :

  • Entité HTML devient Entité HTML.

  • Entité HTML devient Entité HTML.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Conversion depuis des entités HTML

Avant Transformation :

ID

Description

1

<div>Hello World</div>

2

Welcome to 'My Site'

Configuration de Transformation :

  • Colonnes cibles : Description

Après Transformation :

ID

Description

1

<div>Hello World</div>

2

Welcome to 'My Site'

Dans cet exemple, la transformation décode les entités HTML dans la colonne « Description » pour restituer leur forme lisible. Par exemple, « &lt;div&gt; » devient « <div> » et « &amp;#x27; » devient l’apostrophe simple « “ ».

7.10.10. Conversion vers des entités HTML

Convertir les caractères éligibles de chaque cellule du champ sélectionné vers leur forme d’entité HTML.

Par exemple : Entité HTML devient Entit&eacute; HTML.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Conversion vers des entités HTML

Avant Transformation :

Nom

Description

John Doe

Developer <dev@example.com>

Jane Smith

Manager & Mentor

Configuration de la Transformation :

  • Colonnes cibles : Description

Après Transformation :

Nom

Description

John Doe

Developer &lt;dev@example.com&gt;

Jane Smith

Manager &amp; Mentor

Dans cet exemple, la colonne Description contient des caractères sensibles en HTML comme <, > et &. La transformation remplace ces caractères par leurs entités HTML équivalentes (&lt;, &gt; et &amp;) afin d’éviter qu’ils ne soient interprétés comme des balises ou entités HTML lorsqu’ils sont affichés dans un environnement web. Cela garantit que le texte s’affiche exactement tel qu’il a été saisi.

7.10.11. Convertir les points de code Unicode en caractères

Convertir les points de code Unicode [7] en caractères (glyphes) pour chacun des champs sélectionnés.

Exemple visuel :

  • Biblioth\\u00E8que deviendra Bibliothèque.

  • Mus\\  u00E9e deviendra Musée.

Informations complémentaires :

  • Unicode sur Wikipédia.

  • Point de code Unicode sur Wikipédia.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Convertir les points de code Unicode en caractères

Avant Transformation :

ID

Description

1

\u0048ello

2

World\u0021

3

\u0047ood \u004Dorning

Configuration de Transformation :

  • Colonnes cibles : [“Description”]

Après Transformation :

ID

Description

1

Hello

2

World!

3

Good Morning

Dans cet exemple, la transformation décode les séquences Unicode dans la colonne « Description » afin de les convertir en texte lisible. Par exemple, « \u0048 » devient « H » et « \u0021 » devient « ! ».

7.10.12. Normaliser les espaces

Supprimer les espaces consécutifs (ou tout caractère apparenté à un espace : tabulations, retour chariot, etc.) pour les remplacer par un seul espace (caractère ASCII n°10).

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Normaliser les espaces

Avant Transformation :

ID

Description

Prix

1

Pomme, fruit frais

$1.50

2

Banane, fruit tropical

$0.50

3

Carotte, légume

$0.30

Configuration de la Transformation :

  • Colonnes Cibles : Description

  • Supprimer les espaces en début et fin : true

Après Transformation :

ID

Description

Prix

1

Pomme, fruit frais

$1.50

2

Banane, fruit tropical

$0.50

3

Carotte, légume

$0.30

Dans cet exemple, la transformation a été appliquée à la colonne “Description”. Les espaces superflus en début et fin de chaîne ont été supprimés, assurant un contenu propre et homogène.

7.10.13. Rechercher / Remplacer

Effectuer une opération de rechercher / remplacer, soit en utilisant du texte simple, soit une expression régulière. Cette opération fonctionne pour tous les types de champs ainsi que pour les valeurs non reconnues.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Rechercher / Remplacer

Avant Transformation :

ID

Statut

1

Nouveau Fichier

2

En Revue

3

Approuvé

4

NouveauFichier

Configuration de la Transformation :

  • Colonne Cible : Statut

  • Trouver : « Nouveau »

  • Remplacer par : « Ouvert »

  • Mode de remplacement : Mot entier

  • Sensible à la casse : Oui

Après Transformation :

ID

Statut

1

Ouvert Fichier

2

En Revue

3

Approuvé

4

NouveauFichier

Dans cet exemple, la transformation cible la colonne « Statut ». La valeur « Nouveau » est remplacée par « Ouvert ». Notez que dans la quatrième ligne, NouveauFichier reste inchangé. Cela est dû au fait que le mode de remplacement est défini sur Mot entier et que le texte « Nouveau » est inclus dans le mot « NouveauFichier ».

7.10.14. Reconnaître la langue

Reconnaître la langue de chacune des cellules du champ sélectionné. La langue reconnue est stockée dans un nouveau champ. Les formats de la langue disponibles sont :

  • Code sur 2 lettres. Par exemple : en, fr, de, … [8]

  • Code sur 3 lettres (ISO 639-2). Par exemple : eng, fra, deu, … [9]

  • Nom localisé de la langue. Par exemple : français, anglais pour la Locale français; French, English pour la Locale anglais.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Reconnaître la langue

Avant Transformation :

Record ID

Description

1

Bonjour, comment ça va?

2

Good morning, how are you?

3

Guten Morgen, wie geht es?

Configuration de la Transformation :

  • Colonne Cible : Description

  • Format de Langue : Nom de la langue localisée

  • Localiser le nom de la langue en : Anglais

  • Ajouter la Confiance : Oui

Après Transformation :

Record ID

Description

Description.language

Description.confiance

1

Bonjour, comment ça va?

French

0.97

2

Good morning, how are you?

English

0.99

3

Guten Morgen, wie geht es?

German

0.99

Dans cet exemple, la transformation identifie avec précision la langue de chaque entrée textuelle et fournit un score de confiance reflétant la certitude de cette détection. Cela permet d’améliorer les analyses et traitements des données en fonction de critères spécifiques à chaque langue.

7.10.15. Supprimer le code HTML

Supprimer les balises HTML, remplace les entités HTML et les entités Unicode par leur équivalent texte pour les champs sélectionnés.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Supprimer le code HTML

Avant Transformation :

ID

Description

Price

1

<b>Special</b> offer on <i>shoes &amp; gloves</i>

$50

2

Buy <a href="link">this item</a> now!

$30

3

<p>New stock</p> available <br> in store

$20

Configuration de la Transformation :

  • Colonnes Cibles : Description

Après Transformation :

ID

Description

Price

1

Special offer on shoes & gloves

$50

2

Buy this item now!

$30

3

New stock available in store

$20

Dans cet exemple, la transformation est appliquée à la colonne Description de chaque ligne. Les balises HTML telles que <b>, <i>, <a href="...">, <p>, et <br> sont supprimées, ne laissant que le texte brut.

7.10.16. Supprimer les diacritiques

Supprimer tous les diacritiques [10] de chaque cellule du champ sélectionné. Les accents font partie des diacritiques.

Sont considérés comme diacritiques les caractères appartenant aux catégories Unicode :

  • LM LETTER, Modifier.

  • SK SYMBOL, Modifier.

  • MN MARK, Nonspacing.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Supprimer les diacritiques

Avant Transformation :

ID

Nom

Ville

1

José Álvarez

São Paulo

2

Zoë Kravitz

Zürich

3

François Père

Strasbourg

Configuration de la Transformation :

  • Colonnes Cibles : Nom, Ville

Après Transformation :

ID

Nom

Ville

1

Jose Alvarez

Sao Paulo

2

Zoe Kravitz

Zurich

3

Francois Pere

Strasbourg

7.10.17. Suppression des espaces en début et fin

Supprimer les espaces ou tout caractère apparenté (tabulations, retour chariot, etc.) au début et à la fin d’un texte.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Suppression des espaces en début et fin

Avant Transformation :

ID

Nom

Email

1

John Doe

johndoe@xyz.com

2

Jane Smith

janesmith@abc.com

3

Bob Lee

boblee@def.com

Configuration de Transformation :

  • Colonnes cibles : Nom, Email

Après Transformation :

ID

Nom

Email

1

John Doe

johndoe@xyz.com

2

Jane Smith

janesmith@abc.com

3

Bob Lee

boblee@def.com

Dans cet exemple, la transformation supprime les espaces supplémentaires éventuels au début et à la fin des valeurs des colonnes « Nom » et « Email », garantissant ainsi que les données soient propres et uniformément formatées dans l’ensemble du jeu de données.

7.10.18. Supprimer des caractères indésirables

L’objectif de la transformation Supprimer les caractères indésirables est de nettoyer et de normaliser les données au sein d’un jeu de données en supprimant ou en modifiant certains caractères selon des règles spécifiques. Cela permet de garantir que les données soient uniformes et exemptes de caractères indésirables.

Note

Exemple pratique : Supprimer des caractères indésirables

Avant Transformation :

ID

Nom

Adresse

1

Jöhn Döe

123 Sträßé Blvd

2

Jane Smith

456 Road St.

3

Alice O’Hara

789 Avénue Ct.

Configuration de Transformation :

  • Colonnes Ciblées : Name, Adresse

  • Supprimer les signes de ponctuation et symboles : Oui

  • Supprimer les diacritiques : Oui

  • Supprimer toutes les lettres : Non

  • Supprimer tous les chiffres : Non

  • Convertir les multiples espaces en un seul caractère espace : Oui

  • Supprimer les espaces en début et fin de chaîne : Oui

  • Supprimer tous les espaces : Non

Après Transformation :

ID

Nom

Adresse

1

John Doe

123 Strasse Blvd

2

Jane Smith

456 Road St

3

Alice OHara

789 Avenue Ct

7.11. Transformations de type Numérique

7.11.1. Arrondir un décimal

Arrondir un décimal :

  • Si la stratégie est A l’entier le plus proche, le décimal est arrondi à l’entier le plus proche (2,6 est remplacé par 3 et 2,4 est remplacé par 2).

  • Si la stratégie est A l’entier supérieur, le décimal est arrondi à l’entier supérieur (2,1 est remplacé par 3).

  • Si la stratégie est A l’entier inférieur, le décimal est arrondi à l’entier inférieur (2,6 est remplacé par 2).

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Arrondir un décimal

Avant Transformation :

ID

Prix

1

23.67

2

89.99

3

100.01

4

55.55

Configuration de Transformation :

  • Colonne ciblée : Prix

  • Stratégie d’arrondi : ROUND

Après Transformation :

ID

Prix

1

24

2

90

3

100

4

56

7.11.2. Créer des intervalles de taille fixe

Créer des intervalles de taille fixe à partir d’une colonne numérique.

Exemple visuel :

image415

Exemple :

  • [0, 10[

  • [10, 20[

  • [20, 30[ …

Cette transformation peut être utilisée pour créer, par exemple, des histogrammes (e.g. des diagrammes à barre) à partir de valeurs continues.

image416

  • image417 Choisir le nom de la colonne numérique à partir de laquelle les intervalles vont être créés.

  • image418 Choisir le nom de la nouvelle colonne qui contiendra les intervalles.

  • image419 Préciser la largeur (le « pas ») des intervalles.

  • image420 Spécifier une borne inférieure pour le premier intervalle et une borne supérieure pour le dernier intervalle. C’est une opération optionnelle. Si une borne inférieure B est précisée, toutes les valeurs inférieures à cette borne seront placées dans l’intervalle ]-∞, B[. Si une borne supérieure B” image421 est précisée, toutes les valeurs supérieures ou égales à cette borne seront placées dans l’intervalle [B”, +∞[.

  • image422 Cocher l’option pour obtenir une colonne de type texte contenant des intervalles de type [X, Y[ signifiant que la valeur est >= X et < Y.

  • image423 Cocher l’option pour obtenir deux colonnes de type numérique : la première contenant les bornes inférieures des intervalles (inclusives) et la seconde contenant les bornes supérieures des intervalles (exclusives).

Prévisualisation du résultat :

image424

Note

Exemple pratique : Créer des intervalles de taille fixe

Avant Transformation :

Âge

17

37

45

60

82

Configuration de la Transformation :

  • Colonne Cible : Âge

  • Nom de la nouvelle colonne

  • Pas (Stride) : 20

  • Valeur Minimale : 20

  • Valeur Maximale : 80

  • Générer des Intervalles : True

  • Générer deux colonnes (Bornes inférieure et supérieure) : True

Après Transformation :

Âge

Intervalles

Bornes_min_inclusive

Bornes_max_exclusive

17

]-∞, 20[

20

37

[20, 40[

20

40

45

[40, 60[

40

60

60

[60, 80[

60

80

82

[80, +∞[

80

Dans ce jeu de données transformé :

  • La colonne “Intervalles” indique la plage dans laquelle chaque âge se situe.

  • Les colonnes “Bornes_min_inclusive” et “Bornes_max_exclusive” fournissent les limites numériques précises de ces intervalles.

Cette transformation facilite la catégorisation et l’analyse des données d’âge, notamment à des fins statistiques ou de regroupement.

7.11.3. Convertir des unités de mesure

Convertir des valeurs d’une unité de mesure vers une autre (e.g. convertir des Kilomètres en Miles).

Il est également possible de détecter automatiquement l’unité de mesure source.

image425

La transformation supporte 2 modes de fonctionnement :

  • Conversion simple : d’un champ numérique vers un champ numérique, éventuellement la même.

  • Conversion avec reconnaissance automatique de l’unité : d’un champ texte vers un nouveau champ numérique.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Convertir des unités de mesure

Avant Transformation :

Product ID

Longueur (unité=pouces)

001

24

002

36

Configuration de Transformation :

  • Colonnes à convertir : « Longueur »

  • Unité source : pouces

  • Unité cible : centimètres

  • Convertir vers de nouvelles colonnes : true

  • Suffixe pour les colonnes créées : « « 

Après Transformation :

Product ID

Longueur (unité=pouces)

Longueur.cm

001

24

60.96

002

36

91.44

Dans cet exemple, la transformation convertit la longueur de pouces en centimètres.

Mode d’analyse et de conversion

Pour activer ce mode, vous devez sélectionner l’option Conversion avec reconnaissance automatique de l’unité de mesure.

  1. Colonnes à convertir : Identifiez les colonnes du jeu de données contenant les valeurs à analyser et à convertir. Ces colonnes doivent être de type texte.

  2. Catégorie source : Définissez la catégorie d’unité de mesure correspondant aux valeurs des colonnes (par exemple : Masse, Pression, Volume, Longueur, etc.). Les colonnes sélectionnées sont censées contenir des mesures du même type. Par exemple, vous ne pouvez pas avoir 5Kg (kilos) et 8l (litres) dans la même colonne.

  3. Unité cible : Définissez l’unité vers laquelle les données doivent être converties (cette unité doit être cohérente avec la catégorie source : si vous avez sélectionné la catégorie Pression pour votre colonne, une valeur de 5 kg sera considérée comme une erreur car il s’agit d’une unité de Masse et non de Pression).

  4. Séparateur décimal : Indiquez le séparateur décimal utilisé dans l’expression textuelle de la mesure. Les valeurs possibles sont le point (par défaut) et la virgule. Si vous choisissez la virgule, alors 10.5 kg sera interprété comme le décimal 10.5 avec, comme unité de mesure, le kilogramme.

  5. Ajouter une colonne de diagnostic : Facultativement, ajoutez des colonnes permettant de diagnostiquer et d’enregistrer les éventuelles erreurs ou problèmes survenus pendant le processus de conversion, comme les erreurs d’analyse.

  6. Suffixe pour les colonnes créées : Ajoutez un suffixe aux colonnes générées lors du processus d’analyse et de conversion.

Note

Exemple pratique : Parse and Convert Mode

Avant Transformation :

Product ID

Poids

001

5.3 kg

002

10.2 m²

Configuration de Transformation :

  • Colonnes à convertir : « Poids »

  • Catégorie source : Masse

  • Unité cible : Gramme

  • Séparateur décimal : point

  • Ajouter une colonne de diagnostic : true

  • Suffixe pour les colonnes créées : « Gramme »

Après Transformation :

Product ID

Poids

Poids.Gramme

Poids.Gramme_diagnostic

001

« 5 kg »

5000.0

null

002

« 10 m² »

“m²” n’est pas une unité de mesure de Masse

Dans cet exemple, sur la première ligne, la transformation convertit avec succès le poids de kilogrammes en grammes et enregistre le résultat dans de nouvelles colonnes. Sur la deuxième ligne, la valeur indique une unité de surface (« 10 m² ») et non une unité de masse. La transformation est donc impossible (la colonne « Poids.Gramme » reste vide) et un message d’erreur en précise la raison : 'm²' n'est pas une unité de mesure de Masse.

7.11.4. Extraire des nombres

Extraire des nombres d’un champ de type texte et les insère dans de nouveaux champs.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Extraire des nombres

Avant Transformation :

ID

Description

1

Total: $123,456.78

2

Amount: 98765.43 units

3

Count: 12,000 items

Configuration de la Transformation :

  1. Colonne Cible : “Description”

  2. Type de Colonnes de Sortie : “Décimal”

  3. Nombre Fixe de Colonnes de Sortie : 1

  4. Stratégie de Milliers : “Virgule”

  5. Stratégie Décimale : “Point”

Après Transformation :

ID

Description

Description.number

1

Total: $123,456.78

123456.78

2

Amount: 98765.43 units

98765.43

3

Count: 12,000 items

12000.00

Dans cet exemple, la transformation extrait avec succès la première valeur numérique de la colonne “Description”, interprète correctement les séparateurs de milliers et de décimales en fonction des séparateurs spécifiés, et remplit la nouvelle colonne “Description.number” avec la valeur décimale extraite. Cela permet une analyse plus claire et directe des données numériques précédemment intégrées dans le texte.

7.12. Transformations de type Date

7.12.1. Ajouter la date et l’heure actuelle

Le but de la transformation « Ajouter la date et l’heure actuelles » est d’ajouter une nouvelle colonne à un jeu de données qui enregistre la date et l’heure actuelles au moment de l’application de la transformation. Cela peut être particulièrement utile pour suivre quand les données ont été traitées ou mises à jour.

Fonctionnement :

Pour configurer cette transformation, vous devez spécifier le nom de la nouvelle colonne dans laquelle l’heure actuelle sera enregistrée. Cela se fait en définissant un paramètre qui détermine le nom de la colonne cible. La transformation ajoutera automatiquement cette nouvelle colonne à chaque ligne de votre jeu de données, en la remplissant avec la date et l’heure exactes de l’exécution de la transformation.

Note

Exemple pratique : Ajouter la date et l’heure actuelle

Avant la transformation :

IDCommande

NomClient

Produit

Quantité

001

John Doe

Laptop

1

002

Jane Smith

Tablet

2

Configuration de la transformation :

Vous décidez d’ajouter une colonne nommée « HeureTraitement » pour suivre la date et l’heure de traitement de chaque enregistrement.

Après la transformation :

IDCommande

NomClient

Produit

Quantité

HeureTraitement

001

John Doe

Laptop

1

07/12/2021 10:00 AM

002

Jane Smith

Tablet

2

07/12/2021 10:00 AM

Dans cet exemple, « 07/12/2021 10:00 AM » représente la date et l’heure d’exécution de la transformation. Cette valeur est ajoutée à chaque ligne dans la nouvelle colonne « HeureTraitement ». Important : après l’application de la transformation, toutes les lignes du jeu de données contiendront la même valeur dans la colonne HeureTraitement.

7.12.2. Convertir un nombre entier en date

Convertir un nombre entier en date.

Le nombre en entrée peut représenter la date de façon littérale (e.g. 20190715 = 15 juillet 2019) mais il peut aussi représenter un nombre de jours ou de millisecondes depuis une date d’origine. Par exemple, si vous indiquez que votre nombre vient de Microsoft Excel, 39448 sera converti à la date du 1er janvier 2008 car il y a exactement 39 448 jours entre le 1er janvier 1900 et le 1er janvier 2008.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Convertir un nombre entier en date

Avant Transformation :

ID Employé

Date de Début (Entier)

001

20210101

002

20210523

Configuration de la Transformation :

  • Colonnes Cibles : Date de Début (Numérique)

  • Stratégie de Conversion : yyyyMMdd

  • Modèle de Date Personnalisé : Non utilisé

Après Transformation :

ID Employé

Date de Début (Type Date)

001

2021-01-01

002

2021-05-23

Dans cet exemple, la colonne “Date de Début” qui était au format numérique (entier de type yyyyMMdd) a été convertie en un véritable format date (aaaa-MM-jj). Cela permet de normaliser les dates et de les rendre exploitables pour des opérations de tri, de filtrage ou de calculs temporels.

7.12.3. Extraire une partie d’une date

Extraire une partie d’un champ de type date (Année, Trimestre, Mois, Jour) et l’insère dans un nouveau champ.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Extraire une partie d’une date

Avant Transformation :

ID Employé

Date de Début

1

2023-01-15

2

2024-02-20

Configuration de la Transformation :

  • Colonne cible : Date de Début

  • Nom de la nouvelle colonne : Année de Début

  • Partie de la date à extraire : Année

Après Transformation :

ID Employé

Date de Début

Année de Début

1

2023-01-15

2023

2

2023-02-20

2024

Dans cet exemple, la transformation a été configurée pour extraire la partie “année” de la colonne “Date de Début”. En conséquence, une nouvelle colonne “Année de Début” a été ajoutée au jeu de données, montrant l’année extraite de chaque date de la colonne “Date de Début”. Cela permet une analyse plus facile des données en fonction de l’année.

7.12.4. Formater une date avec un format personnalisé

Formater la date d’un champ de type date en lui appliquant un format personnalisé et l’insère dans un nouveau champ.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Formater une date avec un format personnalisé

Avant Transformation :

ID Enregistrement

Date Originale (type:Date)

1

2023-01-01 13:45:00

2

2023-01-02 14:30:00

Configuration de la Transformation :

  • Colonne Source : Date Originale

  • Format de Date : « dd-MM-yyyy »

Après Transformation :

ID Enregistrement

Date Originale (type:Texte)

1

01-01-2023

2

02-01-2023

7.12.5. Formater une date avec un format prédéfini

Formater la date d’un champ de type date en lui appliquant un format prédéfini, et l’insère dans un nouveau champ.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Formater une date avec un format prédéfini

Avant Transformation :

ID Enregistrement

Date Originale (type:Date)

1

2023-01-01 13:45:00

2

2024-01-02 14:30:00

Configuration de la Transformation :

  • Colonne Source : Date Originale

  • Format de Date : « Année et trimestre »

Après Transformation :

ID Enregistrement

Date Originale (type:Texte)

1

2023 T1

2

2024 T1

7.12.6. Intervalle de dates

Calculer l’intervalle de dates entre deux champs de type date. Un nouveau champ est créé avec le résultat du calcul, exprimé au choix, en Semaines, Jours, Heures, Minutes, Secondes ou Millisecondes.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Intervalle de dates

Avant Transformation :

ID Commande

Date de Début

Date de Fin

1

2023-01-01 10:00:00

2023-01-02 10:00:00

2

2023-01-01 15:00:00

2023-01-03 11:00:00

Configuration de la Transformation :

  • Colonnes Cibles : Date de Début, Date de Fin

  • Unité d’Intervalle : Heures

Après Transformation :

ID Commande

Date de Début

Date de Fin

Intervalle (Heures)

1

2023-01-01 10:00:00

2023-01-02 10:00:00

24

2

2023-01-01 15:00:00

2023-01-03 11:00:00

44

Dans cet exemple, la transformation calcule l’intervalle de temps en heures entre la « Date de Début » et la « Date de Fin » pour chaque commande. Le résultat est une nouvelle colonne « Intervalle (Heures) » ajoutée au jeu de données, indiquant une durée de 24 heures pour la première commande et de 44 heures pour la seconde. Cette transformation permet de visualiser de manière claire et immédiate les intervalles de temps associés à chaque enregistrement.

7.12.7. Reconnaissance de date

Sur un champ de type date, le système va essayer de déchiffrer toutes les cellules non reconnues comme date lors de l’importation en essayant des formats variés et de différents pays (e.g. 2nd March 2015, 2015.03.02, etc.). Les formats retenus sont soumis à la validation de l’utilisateur.

image426

  1. Le premier champ de type date du jeu de données est automatiquement sélectionné image427 (une fois le champ traité, sélectionnez manuellement le suivant).

  2. Le système essaie de trouver le format (e.g. YYY-MM-dd) image428 qui permet de reconnaître le plus grand nombre de dates dans le champ (ce nombre ainsi que le pourcentage associé sont indiqués sous la liste déroulante). Si le format n’est pas reconnu ou si la reconnaissance automatique ne vous convient pas, vous pouvez saisir votre propre format dans la zone image429.

  3. Zone d’aide image430 pour construire vos propres formats de date.

  4. Prévisualisation du résultat image431 : en vert, les cellules pour lesquelles le format spécifié dans la zone image432 reconnaît la cellule comme une date (la colonne de gauche contient la valeur brute non reconnue à l’importation, celle de droite la date telle que reconnue par le format spécifié dans la zone image433).

  5. Bouton Appliquer image434.

Note

Répéter les étapes 1 à 5 jusqu’à ce que la zone image435 soit entièrement vide (i.e. toutes les cellules sont reconnues).

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Reconnaissance de date

Avant Transformation :

ID

Entrée Date

1

2023/03/15

2

March 15, 2023

3

15-03-2023 14:00

4

2023/03/16

Configuration de la Transformation :

  • Colonne Cible : Entrée Date Tale of Data suggérera successivement les modèles de date suivants :

  1. Le modèle yyyy/MM/dd sera appliqué aux lignes #1 et #4.

  2. Le modèle MMMM d, yyyy sera appliqué à la ligne #2.

  3. Le modèle dd-MM-yyyy HH:mm sera appliqué à la ligne #3.

Après Transformation :

ID

Entrée Date

1

2023-03-15 00:00:00

2

2023-03-15 00:00:00

3

2023-03-15 00:00:00

4

2023-03-16 00:00:00

Dans cet exemple, la Transformation de Reconnaissance de Date parvient à interpréter correctement des formats de dates non standardisés, améliorant ainsi la cohérence et l’utilisabilité du jeu de données pour des analyses et des rapports ultérieurs.

Indication

Pour les formats personnalisés, la très grande majorité du temps il faut utiliser un yyyy si l’on veut désigner une année sur quatre chiffres, plutôt qu’avec des majuscules. En effet: * y représente l’année calendaire (celle que l’on utilise très fréquemment, en pratique) * Y représente l’année « basée sur la semaine » ( »Week Year » en anglais) : les derniers jours de l’année peuvent être, selon que le changement de semaine soit à cheval sur le changement d’année ou non, rattachés à l’année suivante.

Voir ici pour plus de détails : https://en.wikipedia.org/wiki/ISO_8601#Week_dates

7.13. Transformations de regroupement (clustering)

Regrouper des mots / textes ayant une orthographe proche dans un champ donné. Ces regroupements sont créés par des algorithmes mais la décision d’uniformiser le texte des cellules regroupées est laissée à la discrétion de l’utilisateur.

image436

  • Choix du champ image437 sur lequel on souhaite explorer les regroupements possibles.

  • Lancer la prévisualisation image438 : les regroupements (clusters) sont calculés pour permettre à l’utilisateur de trancher.

  • La zone image439 affiche les regroupements trouvés : 1 ligne = 1 regroupement ou « cluster » (e.g. sur la fig. ci-dessus le système indique qu’il a trouvé 3 orthographes voisines pour MONOSPACE et que ce regroupement concerne 48 lignes).

  • Le bouton Afficher le détail des regroupements image440 (ou un double-clic sur la zone image441) permet de passer à la vue Détails qui est celle utilisée pour prendre une décision pour chaque regroupement.

image442

  • Regroupement de mots d’orthographes voisines image443. Décocher une ou plusieurs options pour ne pas les inclure dans le regroupement finalisé (= faux-positif).

  • En sélectionnant une option dans la zone image444, le système affiche dans la zone image445 les enregistrements correspondants (cela facilite par exemple l’identification de faux-positifs).

  • Choisir le texte de remplacement pour l’ensemble des orthographes voisines (ou double-cliquer sur une option de la zone image446 pour automatiquement la choisir comme texte de remplacement).

  • Cliquer sur Accepter puis Suivant image447 permet en une seule opération de confirmer les choix effectués pour le regroupement en cours (i.e. les modalités choisies dans la zone image448 + le texte de remplacement dans la zone image449) et de passer au regroupement suivant. Le bouton Suivant permet de passer au regroupement suivant sans valider le regroupement en cours (il n’y aura donc pas de remplacement).

Bouton Appliquer : appliquer un remplacement sur l’ensemble des regroupements validés lors des 4 étapes décrites ci-dessus.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.13.1. Clustering Phonétique

Regroupement de cellules basées sur une prononciation similaire, par exemple téléphone et téléphones seront regroupés.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.13.2. Fingerprint Consonne-d’abord

Regroupement de chaînes de caractères basées sur la séquence des consonnes dans le texte.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.13.3. Fingerprint “Exact Match”

Regroupement par égalité de valeurs.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.13.4. Fingerprint Universel

Apparier des textes similaires en combinant plusieurs stratégies :

  • Elimination des mots non signifiants (articles, pronoms, conjonctions de coordination, …).

  • Elimination des doubles voyelles et des doubles consonnes.

  • Elimination des abréviations courantes.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.13.5. Fingerprint Voyelles-d’abord

Regroupement de chaînes de caractères basées sur la séquence des voyelles dans le texte.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.13.6. N-Gram Clustering

Regroupement de cellules basés sur les couples de lettres en commun (ou triplets, ou quadruplets, etc. selon la valeur de N).

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.14. Transformations de Dédoublonnage : dédoublonnage multi-algorithmes

Tale of Data permet d’effectuer des dédoublonnages multi-champs (l’utilisateur choisit les champs à utiliser pour décider du rapprochement de deux lignes) et multi-algorithmes (l’utilisateur choisit l’algorithme de rapprochement pour chaque champ : phonétique, N-Gram, …) :

image450

  • Sélectionner les champs image451 à utiliser pour dédoublonner.

  • Sélectionner l’algorithme image452 à utiliser pour chacune des colonnes.

  • Cliquer sur le bouton Valider image453 pour démarrer le processus de dédoublonnage.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : dédoublonnage multi-algorithmes

Avant Transformation :

Considérons le jeu de données suivant :

ID

Nom

Adresse

Ville

Pays

1

John Doe

123 Soul Street

New York

USA

2

Jane Smith

456 Oak Avenue

Londres

UK

3

John Doe

123 Sole Street

New York

USA

4

Alice Brown

789 Pine Road

Sydney

Australie

5

Doe, John

123 Soul Street

New York

USA

Configuration de la Transformation :

  • Type de Déduplication Multi-Algorithme : Fusionner et Supprimer les Lignes Duplicates

  • Correspondance Exacte sur Toutes les Colonnes : false

  • Configuration des Colonnes : Correspondance sur les colonnes « Nom » et « Adresse » avec Correspondance Exacte Non Ordonnée pour « Nom » et Correspondance Phonétique Anglaise pour « Adresse ».

  • Filtres : Aucun (toutes les lignes sont prises en compte)

Après Transformation :

Le jeu de données après application de la transformation :

ID

Nom

Adresse

Ville

Pays

1

John Doe

123 Soul Street

New York

USA

2

Jane Smith

456 Oak Avenue

Londres

UK

4

Alice Brown

789 Pine Road

Sydney

Australie

Explication :

  • La ligne 3 est considérée comme un doublon de la ligne 1, d’abord parce que le « Nom » est identique, et ensuite parce que « Soul Street » et « Sole Street » ont la même prononciation en anglais, et que la configuration de la transformation spécifie une Correspondance Phonétique Anglaise pour la colonne « Adresse ». En conséquence, ces deux lignes sont fusionnées et l’une est supprimée.

  • La ligne 5 est également considérée comme un doublon de la ligne 1 car « John Doe » et « Doe, John » sont considérés comme identiques grâce à la correspondance Exacte Non Ordonnée définie pour la colonne « Nom ». Les adresses étant strictement identiques, la ligne 5 est supprimée également.

Cette transformation permet de maintenir un jeu de données propre en supprimant les données redondantes et en ne conservant que les lignes uniques, selon les règles de déduplication spécifiées.

7.15. Transformations sur les Natures

7.15.1. Attribuer une Nature à un champ

Changer ou forcer la Nature d’un champ (e.g. forcer la nature « n° de téléphone » pour une colonne numérique).

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation n’utilise pas le ou les filtres actifs.

Note

Exemple pratique : Attribuer une Nature à un champ

Avant Transformation :

ID

Nom

Statut

Revenu

1

Alpha

Actif

1500

2

Bêta

Inactif

1200

3

John Smith

Actif

1800

Configuration de la Transformation :

  • Colonne à laquelle attribuer une nature : « Nom »

  • Nouvelle Nature : Nom Complet

Après Transformation :

ID

Nom

Statut

Revenu

1

Alpha

Actif

1500

2

Bêta

Inactif

1200

3

John Smith

Actif

1800

Après application de la transformation, pour la colonne « Nom », seule la ligne n°3 contient une valeur reconnue comme Nom Complet (« John Smith »).

7.15.2. Supprimer la Nature d’un champ

Supprimer la Nature présente sur un ou plusieurs champs.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation n’utilise pas le ou les filtres actifs.

Note

Exemple pratique : Supprimer la Nature d’un champ

Avant Transformation :

ID

Nom (Nature = Prénom)

Âge

Salaire

1

John

30

50000

2

Jane

27

60000

3

Doe (nature invalide)

22

55000

La colonne “Nom” est de nature Prénom, ce qui rend « Doe » une valeur invalide :

Configuration de la Transformation :

  • Colonnes Cibles : Nom

Après Transformation :

ID

Nom

Âge

Salaire

1

John

30

50000

2

Jane

27

60000

3

Doe

22

55000

La colonne « Nom » n’a maintenant plus de nature associée. Cela signifie qu’il n’y a plus d’invalidité de nature dans les données.

7.15.3. Découper une URL

Extraire depuis une URL, au choix : le Protocole (http, ftp, …), le Nom de domaine (www.taleofdata.com, www.google.fr, …), le Port, le Chemin ou les Paramètres depuis les URLs du champ sélectionné vers un ou plusieurs nouveaux champs.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Découper une URL

Avant Transformation :

ID

URL du Site Web

1

https://example.com/products?item=book

2

https://blog.example.com/about

3

http://www.example.net/search?q=hello+world

Configuration de la Transformation :

  • Colonne URL : “URL du Site Web”

  • Parties Extraites :

    • Domaine

    • Chemin

    • Requête

Après Transformation :

ID

URL du Site Web | Domaine URL du Site Web

Chemin URL du Site Web

Requête URL du Site Web

1

https://example.com/products?item=book | example.com

/products

item=book

2

https://blog.example.com/about | blog.example.com

/about

3

http://www.example.net/search?q=hello+world| example.net

/search

q=hello+world

Dans cet exemple, la transformation prend chaque URL de la colonne “URL du Site Web”, l’analyse et extrait les composants du domaine, du chemin et de la requête. Ces composants sont ensuite stockés dans de nouvelles colonnes au sein de la même table, fournissant ainsi une décomposition structurée des données URL originales. Cela rend le jeu de données plus informatif et plus facile à analyser pour des composants spécifiques des URL.

7.15.4. Décoder les URLs

Décoder chaque URL du champ sélectionné depuis le format application/x-www-form-urlencoded. Par exemple :

  • http%3A%2F%2Fwww.taleofdata.com devient http://www.taleofdata.com.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Décoder les URLs

Avant Transformation :

ID

URLCodée

1

https%3A%2F%2Fexample.com%2Fpath%3Fq%3Dtest

2

https%3A%2F%2Fanother.com%2Fpath%3Fq%3Dabc

Configuration de la Transformation :

  • Colonne Cible : URLCodée

Après Transformation :

ID

URLCodée

1

https://example.com/path?q=test

2

https://another.com/path?q=abc

Dans cet exemple, la transformation prend un tableau contenant des URLs encodées et les convertit en un format lisible par l’homme, rendant les données plus accessibles et faciles à comprendre pour des analyses ou des rapports ultérieurs.

7.15.5. Encoder les URLs

Encoder chaque URL du champ sélectionné dans le format application/x-www-form-urlencoded. Par exemple :

  • http://www.taleofdata.com devient http%3A%2F%2Fwww.taleofdata.com.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Encoder les URLs

Avant Transformation :

ID

Nom

Site Web

1

John Doe

http://example.com/?q=hello world

2

Jane Smith

http://example.com/?q=good day

Configuration de la Transformation :

  • Colonnes Cibles : Site Web

Après Transformation :

ID

Nom

Site Web

1

John Doe

http://example.com/?q=hello%20world

2

Jane Smith

http://example.com/?q=good%20day

Dans cet exemple, les données de la colonne Site Web sont transformées pour s’assurer que les espaces sont correctement encodés sous la forme %20, rendant ainsi les URLs sûres et utilisables dans un navigateur web.

7.15.6. Mettre en forme les prénoms

Mettre en forme les prénoms (normalisation des espaces, capitalisation) du champ sélectionné.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Mettre en forme les prénoms

Avant Transformation :

ID

Prénom

Nom

1

john

Doe

2

MARY

Smith

3

aLiCe

Johnson

Configuration de la Transformation :

  • Colonne Cible : Prénom

Après Transformation :

ID

Prénom

Nom

1

John

Doe

2

Mary

Smith

3

Alice

Johnson

7.15.7. Extraire nom, prénom, civilité / genre des noms complets

Extraire au choix : les Prénoms, les Noms ou les Civilités depuis un champ comportant des noms complets. Permet également de déduire les Civilités et les Genres.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Extraire nom, prénom, civilité / genre des noms complets

Avant Transformation :

ID

Nom Complet

1

  1. John Doe

2

Mme. Jane Smith

3

Dr. Alice Johnson

Configuration de la Transformation :

  • Colonne Source : Nom Complet

  • Parts à extraire :

    • Civilité

    • Prénom

    • Nom de famille

    • Genre

Après Transformation :

ID

Nom Complet

Nom Complet.civilité

Nom Complet.prénom

Nom Complet.nom de famille

Nom Complet.genre

1

John Doe

John

Doe

Homme

2

Jane Smith

Mme.

Jane

Smith

Femme

3

Alice Johnson

Mme.

Alice

Johnson

Femme

Cette transformation permet une décomposition structurée et détaillée des noms, ce qui peut être particulièrement utile pour des communications personnalisées, le tri des données et l’analyse basée sur des segments démographiques.

7.15.8. Mettre en forme les noms propres

Mettre en forme les noms propres pour le champ sélectionné.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Mettre en forme les noms propres

Avant Transformation :

Nom Employé

Département

john doe

Marketing

JANE DOE

Ressources Humaines

Configuration de la Transformation :

  • Colonnes Cibles : Nom Employé

Après Transformation :

Nom Employé

Département

John Doe

Marketing

Jane Doe

Ressources Humaines

7.15.9. Mettre en forme les genres

Mettre en forme les genres selon une Locale (pays / langue) et un Format (Court, Long).

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Mettre en forme les genres

Avant Transformation :

ID

Nom

Genre

1

Alice

Female

2

Bob

male

3

Charlie

M

4

Dana

FEMALE

Configuration de la Transformation :

  • Colonne Cible : « Genre »

  • Région : Anglais (Royaume-Uni)

  • Format : Court

Après Transformation :

ID

Nom

Genre

1

Alice

F

2

Bob

M

3

Charlie

M

4

Dana

F

7.15.10. Mettre en forme les civilités

Mettre en forme les civilités selon une Locale (pays / langue) et un Format (Court, Long).

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Mettre en forme les civilités

Avant Transformation :

ID

Nom

Civilité

1

Alice

Ms

2

Bob

mr

3

Clara

Mistress

Configuration de la Transformation :

  • Colonne Cible : « Civilité »

  • Région : Anglais (Royaume-Uni)

  • Format : Long

Après Transformation :

ID

Nom

Civilité

1

Alice

Miss

2

Bob

Mister

3

Clara

Mrs

7.15.11. Mettre en forme les nationalités

Mettre en forme les nationalités (normalisation des espaces, capitalisation) du champ sélectionné.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Mettre en forme les nationalités

Avant Transformation :

ID

Nationalité

1

american

2

BRITISH

3

CanADian

Configuration de la Transformation :

  • Colonne Cible : Nationalité

Après Transformation :

ID

Nationalité

1

American

2

British

3

Canadian

7.15.12. Extraire le code SIREN

Extraire le code SIREN (Système d”Identification du Répertoire des ENtreprises) d’un champ comportant des SIRET (Système d”Identification du Répertoire des ETablissements) vers un nouveau champ. L’extraction fonctionne uniquement avec des codes SIRET valides.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Extraire le code SIREN

Avant Transformation :

ID

Nom de l’Entreprise

Numéro SIRET

1

Alpha Inc.

12345678901234

2

Beta LLC

98765432109876

3

Gamma Corp.

55555555555555

Configuration de la Transformation :

  • Colonne Cible : « Numéro SIRET »

Après Transformation :

ID

Nom de l’Entreprise

Numéro SIRET

Numéro SIRET.siren

1

Alpha Inc.

12345678901234

123456789

2

Beta LLC

98765432109876

987654321

3

Gamma Corp.

55555555555555

555555555

Dans cet exemple, la transformation prend les numéros SIRET de la colonne spécifiée, les valide, et extrait les 9 premiers chiffres pour les enregistrer sous forme de numéros SIREN dans le jeu de données de sortie. Cela permet de simplifier le jeu de données et de se concentrer uniquement sur les numéros d’identification du siège social de l’entreprise.

7.16. Transformations Géographiques

7.16.1. Analyser une adresse

Analyse un à plusieurs champs contenant des adresses puis extrait chaque partie dans de nouveaux champs. Si l’adresse est répartie sur plusieurs champs, vous devez les sélectionner dans l’ordre.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Analyser une adresse

Avant Transformation :

ID

AdresseBrute

1

30 bis rue de Lisbonne, 75008 Paris

2

12 rue de Chazelles 75017 Paris

Configuration de la Transformation :

  • Colonnes Cibles : “AdresseBrute”

  • Région : « France »

Après Transformation :

AdresseBrute

Pays

AdresseBrute.numero

AdresseBrute.complementNum

AdresseBrute.typeVoie

AdresseBrute.nomVoie

AdresseBrute.CP

AdresseBrute.Ville

AdresseBrute.lieuDit

AdresseBrute.servicePostal

AdresseBrute.ilot

AdresseBrute.batiment

AdresseBrute.etage

30 bis rue de Lisbonne, 75008 Paris

France

30

bis

rue

de Lisbonne

75008

Paris

12 rue de Chazelles 75017 Paris

France

12

rue

de Chazelles

75017

Paris

Dans cet exemple, la colonne “AdresseBrute” est analysée et décomposée automatiquement en plusieurs sous-champs normalisés comme le numéro de rue, complément de numéro, type et nom de voie, code postal et ville, selon les conventions postales françaises. Cela facilite les traitements d’adresses et les rapprochements géographiques.

7.16.2. Convertir des codes pays

Convertir, dans le champ sélectionné, des codes pays depuis / vers la norme ISO 3166-1 [13] dans les formats suivants :

  • Code à 2 lettres : ISO 3166-1 alpha-2.

  • Code à 3 lettres : ISO 3166-1 alpha-3.

  • Nom de pays.

Par exemple :

  • Pour un code sur 2 lettres tel que FR, la conversion dans le format ISO 3166-1 alpha-3 donnera FRA.

  • Pour un code sur 3 lettres tel que USA, la conversion dans le format Nom de pays avec la langue Français donnera États-Unis.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Convertir des codes pays

Avant la transformation :

ID

Nom

CodePays

1

John Doe

USA

2

Jane Doe

DE

Configuration de la transformation :

  • Colonne cible : CodePays

  • Standard souhaité : ISO 3166-1 alpha-3

Après la transformation :

ID

Nom

CodePays

1

John Doe

USA

2

Jane Doe

DEU

Dans cet exemple, la transformation a été configurée pour convertir les codes pays de la colonne CodePays vers le standard ISO 3166-1 alpha-3. En conséquence, DE a été converti en DEU, tandis que USA, déjà conforme, est resté inchangé.

7.16.3. Corriger les Codes Communes INSEE dépréciés (France)

Remplacer les codes communes INSEE dépréciés par leur nouvelle valeur. Un code commune INSEE peut être déprécié pour différentes raisons, dont :

  • Commune « associée ».

  • Commune périmée.

  • Commune déléguée.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Corriger les Codes Communes INSEE dépréciés (France)

Avant Transformation :

ID

Code INSEE

Nom

1

12345

CommuneA

2

67890

CommuneB

3

13579

CommuneC

Note : Supposons que le code “67890” pour CommuneB soit obsolète.

Configuration de la Transformation :

  • Colonne Cible : Code de Commune

Après Transformation :

ID

Code INSEE

Nom

1

12345

CommuneA

2

54321

CommuneB

(Code mis à jour)

3

13579

CommuneC

Dans cet exemple, la transformation vérifie la colonne “Code de Commune” pour détecter les codes obsolètes. Elle constate que le code “67890” pour CommuneB est obsolète et le remplace par le code valide actuel “54321”. Le reste du jeu de données reste inchangé car aucun autre code obsolète n’a été trouvé.

7.16.4. Déduire des données géographiques depuis des Codes Postaux (France)

Enrichir le jeu de données courant avec des données géographiques (nom du département, code du département, nom de la région, code de la région) déduites du code postal présent dans le champ sélectionné.

Par exemple, en partant du code postal 75001, vous pouvez obtenir comme nouveaux champs :

  • Le code du département : 75.

  • Le nom du département : Paris.

  • Le code de la région : 11.

  • Le nom de la région : Île-de-France.

Note

Exemple pratique : Déduire des données géographiques depuis des Codes Postaux (France)

Avant Transformation :

ID

Adresse

CodePostal

1

123 Rue D’Amiens

80090

2

456 Rue De Lyon

69000

3

789 Rue De Nice

Configuration de la Transformation :

  • Colonne Cible : CodePostal

  • Enrichir avec : Nom du Département

Après Transformation :

ID

Adresse

CodePostal

Département

1

123 Rue D’Amiens

80090

Somme

2

456 Rue De Lyon

69000

Rhône

3

789 Rue De Nice

Dans cet exemple, la transformation exploite la colonne « CodePostal » pour en déduire le « Département » correspondant au code postal fourni. Pour le premier enregistrement, le code postal « 80090 » correspond au département « Somme », et pour le second, « 69000 » correspond au département « Rhône ». Le troisième enregistrement n’ayant pas de code postal, le champ département reste vide.

Astuce

Un même code postal peut correspondre à plusieurs communes.

Certains codes postaux peuvent appartenir à un département différent de celui présent dans le code.

Pour un meilleur résultat, il est conseillé d’utiliser les codes communes INSEE ou bien la combinaison code postal et nom de la ville (libellé d’acheminement).

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.16.5. Enrichir depuis des Codes Communes INSEE (France)

Enrichir le jeu de données courant avec des données géographiques provenant du Code Officiel Géographique [14] (nom de la commune, nom du département, code du département, nom de la région, code de la région) en partant du code commune INSEE présent dans le champ sélectionné.

Par exemple, en partant du code commune INSEE 75056, vous pouvez obtenir comme nouveaux champs:

  • Le nom de la commune : Paris.

  • Le code du département : 75.

  • Le nom du département : Paris.

  • Le code de la région : 11.

  • Le nom de la région : Île-de-France.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Enrichir depuis des Codes Communes INSEE (France)

Avant Transformation :

ID

Nom

Code INSEE

1

Paris

75056

2

Lyon

69123

3

Marseille

Configuration de la Transformation :

  • Colonne cible pour le Code INSEE : Code INSEE

  • Enrichir avec : Nom Ville, Département, Région

  • Corriger les codes obsolètes : Oui

Après Transformation :

ID

Nom

Code INSEE

Nom Ville

Département

Région

1

Paris

75056

Paris

Paris

Île-de-France

2

Lyon

69123

Lyon

Rhône

Auvergne-Rhône-Alpes

3

Marseille

Dans cet exemple, le jeu de données contient initialement des informations de base comprenant un identifiant unique, le nom et le code INSEE des villes. Après application de la transformation avec la configuration indiquée, le jeu de données est enrichi avec des informations supplémentaires comme le nom de la ville, le département et la région à partir des codes INSEE fournis. Pour Marseille, où le code INSEE est manquant, aucune information supplémentaire n’est ajoutée.

7.16.6. Enrichir depuis des Codes Postaux (France)

Enrichir le jeu de données courant avec des données géographiques (code commune INSEE, nom de la commune, nom du département, code du département, nom de la région, code de la région) déduites du code postal et du nom de la ville (Libellé d’acheminement) présents dans les champs sélectionnés.

Par exemple, en partant du code postal 75001 et de la ville Paris, vous pouvez obtenir comme nouveaux champs :

  • Le code commune INSEE : 75056.

  • Le nom de la commune : Paris.

  • Le code du département : 75.

  • Le nom du département : Paris.

  • Le code de la région : 11.

  • Le nom de la région : Île-de-France.

  • La transformation s’applique sur deux champs.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Enrichir depuis des Codes Postaux (France)

Avant Transformation :

Code Postal

Nom Ville

75001

Paris

13001

Marseille

Configuration de la Transformation :

  • Référence Colonne Code Postal : Colonne 1 (Code Postal)

  • Référence Colonne Ville : Colonne 2 (Nom Ville)

  • Enrichir avec : Code INSEE, Nom Région

  • Mettre à jour les codes communes obsolètes : Oui

Après Transformation :

Code Postal

Nom Ville

Code INSEE

Nom Région

75001

Paris

75101

Île-de-France

13001

Marseille

13201

Provence-Alpes-Côte d’Azur

Dans cet exemple, la transformation enrichit le tableau initial en ajoutant le code INSEE et des informations géographiques supplémentaires (ici le nom de la région) pour chaque entrée à partir du code postal et du nom de la ville fournis.

7.16.7. Enrichir avec les codes pays / Nom de pays

Ajouter des codes pays ou nom de pays dans un nouveau champ en exploitant les codes pays ou nom de pays à la norme ISO 3166-1 [15] présents dans le champ sélectionné, aux formats suivants :

  • Code à 2 lettres : ISO 3166-1 alpha-2.

  • Code à 3 lettres : ISO 3166-1 alpha-3.

  • Nom de pays.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Enrichir avec les codes pays / Nom de pays

Avant Transformation :

ID

CodePays

1

US

2

DE

3

FR

Configuration de la Transformation :

  • Colonne Source : “CodePays”

  • Enrichir avec : “Nom du Pays”

  • Langue de sortie : Anglais.

Après Transformation :

ID

CodePays

nom_pays

1

US

United States

2

DE

Germany

3

FR

France

Dans cet exemple, la transformation prend les codes pays ISO à deux lettres de la colonne “CodePays” et les convertit en noms de pays complets selon les paramètres spécifiés. Les résultats sont stockés dans une nouvelle colonne “nom_pays”, enrichissant ainsi le jeu de données original avec des informations géographiques plus explicites.

7.16.8. Géocoder une adresse

Géocoder un ou plusieurs champs contenant des adresses. Deux champs seront ajoutés pour la latitude et la longitude. Si l’adresse est répartie sur plusieurs champs, vous devez les sélectionner dans l’ordre (i.e. numéro, rue, code postal puis ville).

Pour récupérer, en plus de la latitude et de la longitude, les champs d’adresse présents dans le référentiel (e.g. numéro, nom de la voie, code postal, …), vous devez sélectionner l’option « Normaliser les adresses ».

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Géocoder une adresse

Avant Transformation :

CustomerID

AdresseLigne

1

8 R DU BEL AIR 5 OBSERVATOIRE 92190 MEUDON

2

4 AV DES TUYAS 92600 ASNIERES

Configuration de la Transformation :

  • Colonnes Ciblées : “AdresseLigne”

  • Pays : France

  • Normalisation : Oui

Après Transformation :

CustomerID

AdresseLigne

AdresseLigne.numéro

AdresseLigne.complémentNuméro

AdresseLigne.rue

AdresseLigne.codePostal

AdresseLigne.commune

AdresseLigne.codeIris

AdresseLigne.latitude

AdresseLigne.longitude

AdresseLigne.confiance

1

8 R DU BEL AIR 5 OBSERVATOIRE 92190 MEUDON

8

Rue du Bel Air

92190

MEUDON

920480212

48.814713

2.225489

0.68

2

4 BIS AV DES TUYAS 92600 ASNIERES

4

Bis

Avenue des Tuyas

92600

ASNIERES-SUR-SEINE

920040603

48.921102

2.279063

0.74

Tale of Data ajoute une nouvelle colonne contenant le taux de confiance (suffixe .confiance) en fin de jeu de données. Ce taux est compris entre 0 et 1. 1 signifie que votre adresse possède une correspondance exacte dans le référentiel géographique. Plus cette correspondance est dégradée, plus le taux de confiance tend vers zéro.

7.16.9. Retrouver le pays à partir de la latitude et longitude

Cette transformation permet de retrouver le pays à partir de la latitude et de la longitude. Il est également possible d’enrichir le jeu de données avec la capitale du pays, sa zone géographique et le continent auquel il appartient.

Avertissement

Pour des raisons de performances, cette transformation utilise des polygones représentant les contours légèrement simplifiés des différents pays du monde. Il peut arriver que certains points très proches d’une frontière ne soient pas rattachés au bon pays. Le taux de réussite est de 98.9% sur le dataset GeoNames « All Countries » contenant la latitude, la longitude et le pays pour 1 552 935 lieux (fichier allCountries.zip téléchargeable ici: <https://download.geonames.org/export/zip/>).

  • La transformation s’applique sur un champ latitude et un champ longitude.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Retrouver le pays à partir de la latitude et longitude

Avant la transformation :

ID Fiche

Latitude

Longitude

1

48.858844

2.294351

2

51.507351

-0.127758

Configuration de la transformation :

  • Colonne Latitude : Latitude

  • Colonne Longitude : Longitude

  • Langue : Anglais

  • Champs additionnels :

    • Code ISO à 2 lettres

    • Capitale

Après la transformation :

ID Fiche

Latitude

Longitude

Pays

ISO2

Capitale

1

48.858844

2.294351

France

FR

Paris

2

51.507351

-0.127758

Royaume-Uni

GB

Londres

Dans cet exemple, la transformation utilise les coordonnées géographiques pour enrichir les données de chaque enregistrement avec le nom du pays, son code ISO à 2 lettres, ainsi que la capitale, conformément à la configuration spécifiée.

7.16.10. Normaliser les adresses postales françaises (AFNOR NF Z 10-011)

Normaliser des adresses postales françaises selon la norme AFNOR NF Z 10-011 du 19 janvier 2013, facilitant la distribution de courrier. Cette norme répartit les adresses postales françaises en 6 champs :

  1. CIVILITÉ - TITRE ou QUALITÉ - PRÉNOM - NOM.

  2. N°APP ou BAL - ÉTAGE - COULOIR - ESC.

  3. ENTRÉE - BÂTIMENT - IMMEUBLE - RÉSIDENCE.

  4. NUMÉRO - LIBELLÉ DE LA VOIE.

  5. LIEU DIT ou SERVICE PARTICULIER DE DISTRIBUTION.

  6. CODE POSTAL et LOCALITÉ DE DESTINATION ou CODE CEDEX et LIBELLÉ CEDEX.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Normaliser les adresses postales françaises (AFNOR NF Z 10-011)

Avant Transformation :

Civilité

Prénom

Nom

Adresse

Ville

Code Postal

John

Doe

30 RUE DE MOSCOU Apt 45

Paris

75008

Configuration de la Transformation :

  • Colonne Civilité : Civilité

  • Colonne Prénom : Prénom

  • Colonne Nom : Nom

  • Colonnes Adresse Postale : Adresse, Ville, Code Postal

  • Majuscules sur les lignes postales : true

Après Transformation :

Civilité

Prénom

Nom

Adresse

Ville

Code Postal

adresse_postale_ligne1

adresse_postale_ligne2

adresse_postale_ligne3

adresse_postale_ligne4

adresse_postale_ligne5

adresse_postale_ligne6

John

Doe

30 RUE DE MOSCOU Apt 45

Paris

75008

MR. JOHN DOE

30 RUE DE MOSCOU

APT 45

75008 PARIS

7.16.11. Normaliser les adresses postales françaises (S42)

Normaliser des adresses postales françaises selon la norme S42. Cette norme répartit les adresses postales françaises en 10 champs :

  1. Given name.

  2. Surname.

  3. Street No.

  4. Street Name.

  5. Street type.

  6. Floor.

  7. Town.

  8. Region.

  9. Postcode.

  10. Country.

  • La transformation s’applique sur plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Normaliser les adresses postales françaises (S42)

Avant Transformation :

Prénom

Nom

Adresse

Pays

Damien

Desclozeaux

30 RUE D ALSACE 92110 CLICHY

France

Configuration de la Transformation :

  • Colonne Prénom : Prénom

  • Colonne Nom : Nom

  • Colonnes Adresse Postale : Adresse

  • Colonne Pays : Pays

Après Transformation :

Prénom

Nom

Adresse

Pays

s42_givenName

s42_surname

s42_streetNo

s42_streetName

s42_streetType

s42_floor

s42_town

s42_region

s42_postcode

s42_country

Damien

Desclozeaux

30 RUE D ALSACE 92110 CLICHY

France

Damien

DESCLOZEAUX

30

d’Alsace

Rue

Clichy

92110

France

7.17. Transformations sur les numéros de téléphone

7.17.1. Extraire la zone géographique depuis un téléphone

Extraire le pays à partir des numéros de téléphone internationaux du champ sélectionné vers un nouveau champ.

Prérequis :

  • Un champ ayant une nature de type Numéro de téléphone international.

  • Seuls les numéros de téléphone internationaux valides pourront être exploités.

Format de sortie pour les pays :

  • Code à 2 lettres : ISO 3166-1 alpha-2.

  • Code à 3 lettres : ISO 3166-1 alpha-3.

  • Nom de pays (localisé).

Visual exemple :

Format

Langue

Téléphone (entrée)

Pays (sortie)

Code à 2 lettres

N/A

+33 1 02 03 04 05

FR

Code à 3 lettres

N/A

+32 2 333 44 55

BEL

Nom du pays

anglais

+41 22 333 44 55

Switzerland

Informations complémentaires :

  • Format International (E.123) sur Wikipédia.

  • ISO 3166-1 alpha-2 sur Wikipédia.

  • ISO 3166-1 alpha-3 sur Wikipédia.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Extraire la zone géographique depuis un téléphone

Avant Transformation :

ID

Numéro de Téléphone

1

+1 408-555-1234

2

+44 20 7946 0958

3

+91 22 2888 8888

Configuration de la Transformation :

  • Colonne Cible : Numéro de Téléphone

  • Format Pays : NOM DU PAYS

  • Langue de Sortie : Anglais

Après Transformation :

ID

Numéro de Téléphone

Pays

1

+1 408-555-1234

États-Unis

2

+44 20 7946 0958

Royaume-Uni

3

+91 22 2888 8888

Inde

Dans cet exemple, la transformation prend les numéros de téléphone internationaux de la colonne “Numéro de Téléphone”, identifie l’indicatif téléphonique et les convertit en noms complets de pays en fonction de la locale spécifiée (“Anglais”). Le résultat est l’ajout d’une nouvelle colonne “Pays” au jeu de données, avec le nom du pays correspondant à chaque numéro de téléphone.

7.17.2. Mettre en forme les numéros de téléphone

Mettre en forme les numéros de téléphone en se conformant à un patron :

  • Format International : +33 9 67 13 07 93.

  • Format National : 0967130793.

  • Format E.164 : +33967130793.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Mettre en forme les numéros de téléphone

Avant Transformation :

ID

Nom

Numéro de Téléphone

1

John Doe

+1 650-555-1234

2

Jane Smith

00442079460758

3

Alice Brown

  1. 555-2345

Configuration de la Transformation :

  • Colonnes Cibles : Numéro de Téléphone

  • Format du Numéro de Téléphone : INTERNATIONAL

  • Région : Anglais (US). Comme il ne s’agit que d’une indication, le numéro britannique de Jane Smith sera correctement formaté.

Après Transformation :

ID

Nom

Numéro de Téléphone

1

John Doe

+1 650-555-1234

2

Jane Smith

+44 20 7946 0758

3

Alice Brown

+1 650-555-2345

7.17.3. Redresser les numéros de téléphone à l’international

Redresser les numéros de téléphone à l’international d’un champ avec des numéros de téléphone à l’aide d’un champ contenant des Code Pays (ISO 3166-1 alpha-2), Code Pays (ISO 3166-1 alpha-3) ou des Pays. Les numéros de téléphone sont redressés dans un nouveau champ.

Prérequis :

  • Un champ ayant une nature de type Numéro de téléphone.

  • Un champ ayant une nature parmi : Code Pays (ISO 3166-1 alpha-2, alpha-3) ou Nom de Pays.

Exemple visuel :

  • +33 (010) 203-0405 avec un code pays FR et un format de sortie International donnera +33 1 02 03 04 05 comme numéro de téléphone corrigé.

  • 0102030405 avec un code pays FR et un format de sortie International donnera +33 1 02 03 04 05 comme numéro de téléphone corrigé.

  • +33 (010) 203-0405 avec un code pays FR et un format de sortie E.164 donnera +33102030405 comme numéro de téléphone corrigé.

Valeurs possibles de la colonne de diagnostic :

  • VALID : lorsque la correction s’est bien déroulée.

  • INVALID_FOR_REGION : lorsque le numéro de téléphone n’est pas valide pour le code pays.

  • INVALID_COUNTRY_CODE : lorsque le code pays est invalide.

  • INVALID_INPUT : lorsque ce n’est pas un numéro de téléphone.

Informations complémentaires :

  • Format International (E.123) sur Wikipédia.

  • Format E.164 sur Wikipédia.

  • ISO 3166-1 alpha-2 sur Wikipédia.

  • ISO 3166-1 alpha-3 sur Wikipédia.

  • La transformation s’applique sur deux champs.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Redresser les numéros de téléphone à l’international

Avant Transformation :

Numéro de téléphone

Code pays

+33 1 40 90 38 00

FR

+41134235000

CH

Configuration de la Transformation :

  • Colonne Cible pour les Numéros de Téléphone : “Numéro de téléphone”

  • Colonne des Codes Pays : “Code pays”

  • Pays par Défaut : “Suisse”

  • Inclure une Colonne de Diagnostic : Oui

Après Transformation :

Numéro de téléphone

Code pays

Numéro de téléphone.formaté_international

Numéro de téléphone.diagnostic_international

+33 1 40 90 38 00

FR

+33 1 40 90 38 00

VALIDE

+41134235000

CH

INVALIDE_POUR_REGION

Dans cet exemple, on voit que sur la première ligne, le numéro français était valide mais mal formaté. Il a été corrigé et son statut devient “VALIDE”. Sur la deuxième ligne, le numéro fourni n’est pas un numéro de téléphone valide pour la Suisse. Aucune correction n’est donc possible (la colonne Numéro de téléphone.formaté_international reste vide, et le diagnostic est “INVALIDE_POUR_REGION”).

7.18. Transformations sur les adresses e-mail

7.18.1. Découper une adresse e-mail

Extraire depuis une adresse e-mail, au choix : le Domaine (contact@taleofdata.com, contact@gmail.com, …), la Partie locale (contact@taleofdata.com, contact@gmail.com, …) ou bien le Domaine et la Partie locale depuis les e-mails du champ sélectionné vers un ou plusieurs nouveaux champs.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Découper une adresse e-mail

Avant Transformation :

ID

Email

1

john.doe@example.com

2

jane.smith@abc.com

Configuration de la Transformation :

  • Colonne Email : “Email”

  • Parts à extraire : partie locale et partie domaine

  • Colonne Partie Domaine : “Domaine”

  • Extraire uniquement des e-mails valides : true

Après Transformation :

ID

Email

Email.local

Email.domain

1

john.doe@example.com

john.doe

example.com

2

jane.smith@abc.com

jane.smith

abc.com

Cette transformation permet aux utilisateurs de diviser efficacement les adresses e-mail en leurs composants de base, facilitant ainsi la gestion et l’analyse des données en fonction des différentes parties des adresses e-mail.

7.18.2. Mettre en forme les e-mails

Mettre en forme les e-mails (normalisation des espaces, suppression des accents, mise en minuscule des caractères) du champ sélectionné.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Mettre en forme les e-mails

Avant Transformation :

ID

Email

1

JOHN.DOE@Example.COM

2

jane_doe@Example.com

3

mike.Leary@Example.COM

Configuration de la Transformation :

  • Colonne Cible : Email

Après Transformation :

ID

Email

1

john.doe@example.com

2

jane_doe@example.com

3

mike.leary@example.com

7.18.3. Vérifier la cohérence des e-mails

Vérifier l’absence de fautes dans les adresses e-mails en utilisant les champs contenant les Prénoms et les Noms de famille comme références.

Prérequis :

  • Un champ contenant les adresses e-mails à vérifier.

  • Un champ contenant les prénoms de référence.

  • Un champ contenant les noms de famille de référence.

Exemple visuel :

email

nom

prénom

email_consistency

prenom.nom@domain.com

Nom

Prénom

OK

penompenom.nom@domain.com

Nom

Prénom

FIRST_NAME_MISSPELLED

prenom-nam@domain.com

Name

Prénom

LAST_NAME_MISSPELLED

  • La transformation s’applique sur trois champs.

  • La transformation utilise le ou les filtres actifs.

Note

Exemple pratique : Vérifier la cohérence des e-mails

Avant la transformation :

Email

Prénom

Nom de famille

john.doe@xyz.com

John

Doe

jan.smith@abc.co

Jane

Smith

Configuration de la transformation :

  • Colonne cible (Email) : Email

  • Colonne Prénom : Prénom

  • Colonne Nom de famille : Nom de famille

  • Colonne de cohérence Email : Statut Email

  • Colonne de modèle Email : Modèle Email

  • Colonne Email corrigé : Email corrigé

Après la transformation :

Email

Prénom

Nom de famille

Email.statut_cohérence

Email.modèle

Email.corrigé

john.doe@xyz.com

John

Doe

OK

PRENOM__SEPARATEUR__NOM

john.doe@xyz.com

jan.smith@abc.com

Jane

Smith

PRENOM_MAUVAISE_ORTHOGRAPHE

PRENOM__SEPARATEUR__NOM

jane.smith@abc.com

Dans cet exemple, la transformation vérifie la cohérence de chaque adresse email par rapport aux champs Prénom et Nom de famille. Le premier email est valide et correspond à un modèle standard. Le second est signalé comme invalide (PRENOM_MAUVAISE_ORTHOGRAPHE) car le prénom contenu dans l’email ne correspond pas à l’orthographe du prénom dans la colonne Prénom.