7.5. Configuration et utilisation d’une transformation

image402

  • Perspective « Transformations » image403.

  • Palette des transformations disponibles image404 : cliquer pour sélectionner une transformation.

Prudence

Lorsque des filtres sont positionnés lors de l’exécution d’une transformation, cette transformation s’applique uniquement sur les enregistrements du jeu de données qui sont acceptés par le filtre.

image405

  • Zone d’aide image406 décrivant ce que fait la transformation (elle peut être masquée en cliquant sur le bouton ‘-‘ en haut à gauche de cette zone).

  • Liste des champs image407 sur lesquels s’appliquera la transformation (il est possible de sélectionner plusieurs champs avec les touches Maj ou Ctrl) ainsi que l’ensemble des options disponibles pour la transformation courante.

  • Le bouton Appliquer image408 permet d’appliquer la transformation courante au jeu de données. Le bouton Prévisualiser image409 permet d’avoir un aperçu des modifications qu’apportera la transformation courante.

7.6. Accès rapide aux transformations

Le Navigateur de champs permet un accès rapide à certaines transformations couramment utilisées. Pour invoquer ces transformations, il suffit d’effectuer un clic droit sur le ou les champs sélectionnés dans le Navigateur de champs :

image410

Astuce

Le menu contextuel du Navigateur de champs permet également de positionner des filtres sur le ou les champs sélectionnés.

7.7. Visualisation des modifications apportées par une transformation

La Fenêtre de visualisation des modifications apportées par une transformation se présente comme suit :

image411

Les changements sont répartis selon 5 critères :

  • Champ d’entrée (en blanc).

  • Champ modifié (en beige).

  • Valeur modifiée (en jaune).

  • Champ créé (en bleu).

  • Champ supprimé (en gris).

La visualisation des modifications apportées par une transformation est disponible à 2 endroits :

  • Depuis la zone de configuration de n’importe quelle transformation, donc avant l’application de ladite transformation, à l’aide du bouton Prévisualiser :

    image412

  • Depuis la zone Historique des transformations, donc après l’application de transformation, à l’aide du bouton image413 :

    image414

7.8. Transformations sur les champs

7.8.1. Ajouter un champ

Créer un nouveau champ, vide par défaut. En renseignant la valeur par défaut, il est possible d’affecter une valeur commune à toutes les cellules.

  • La transformation utilise le ou les filtres actifs.

7.8.2. Concaténer des champs

Créer un nouveau champ qui est le résultat de la concaténation de plusieurs champs existants.

  • La transformation s’applique sur plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

7.8.3. Copier un champ

Créer un nouveau champ qui est la copie d’un champ existant.

  • La transformation s’applique sur un unique champ.

  • La transformation n’utilise pas le ou les filtres actifs.

7.8.4. Diviser un champ

Scinder un champ en plusieurs champs en utilisant un ou plusieurs séparateur(s).

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.8.5. Fusionner des champs

Compléter les valeurs manquantes du premier champ avec la première valeur rencontrée parmi les autres champs sélectionnés.

  • La transformation s’applique sur plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

7.8.6. Modifier le type d’un champ

Changer ou forcer le type d’un champ (e.g. passer le type d’un champ de numérique à texte).

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation n’utilise pas le ou les filtres actifs.

7.8.7. Remplir les valeurs vides

Remplir les valeurs manquantes d”un ou plusieurs champs avec la dernière valeur non vide rencontrée. Prenons par exemple la table suivante :

Date

Forecast

11/05/2019

800

12/05/2019

13/05/2019

21/05/2019

950

22/05/2019

23/05/2019

Après application de la transformation, on obtient la table suivante :

Date

Forecast

11/05/2019

800

12/05/2019

800

13/05/2019

800

21/05/2019

950

22/05/2019

950

23/05/2019

950

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

7.8.8. Renommer un champ

Modifier le nom d’un champ.

  • La transformation s’applique sur un unique champs.

  • La transformation n’utilise pas le ou les filtres actifs.

7.8.9. Réordonner les champs

Réordonner les champs d’un jeu de données.

  • La transformation s’applique sur plusieurs champs.

  • La transformation n’utilise pas le ou les filtres actifs.

7.8.10. Supprimer un champ

Supprimer un ou plusieurs champs.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation n’utilise pas le ou les filtres actifs.

7.8.11. Transposer des champs en enregistrements

Transposer les valeurs des champs sélectionnés en un enregistrement par champ. Par exemple, pour le jeu de données ci-après :

Country Name

1960

1961

Afghanistan

414.371

491.378

Angola

550.05

454.708

Albania

2024.184

2280.874

Avec les paramètres suivants pour la transformation :

  • Liste des champs : 1960 and 1961.

  • Champ cible pour les en-têtes : Year.

  • Champ cible pour les valeurs : Level.

On obtient le résultat suivant :

Country Name

Year

Level

Afghanistan

1960

414.371

Angola

1960

550.05

Albania

1960

2024.184

Afghanistan

1961

491.378

Angola

1961

454.708

Albania

1961

2280.874

  • La transformation s’applique sur plusieurs champs.

  • La transformation n’utilise pas le ou les filtres actifs.

7.8.12. Masquer les données sensibles

Masquer des données sensibles afin d’en préserver la confidentialité.

Plusieurs stratégies de masquage sont disponibles :

  • Masquage sémantique

  • Masquage déterministe

  • Masquer tout

  • Masquer les n premiers caractères

  • Préserver les n premiers caractères

  • Masquer les n derniers caractères

  • Masquer les caractères entre deux positions

  • Préserver les caractères entre deux positions

  • Masquer les chiffres

Il est possible d’utiliser la prévisualisation pour anticiper les résultats de masquage.

  • La transformation s’applique sur plusieurs champs de type texte.

  • La transformation utilise le ou les filtres actifs.

7.9. Transformations sur les enregistrements

7.9.1. Supprimer des enregistrements

Supprimer les enregistrements filtrés.

  • La transformation utilise le ou les filtres actifs.

7.9.2. Supprimer des enregistrements vides

Supprimer les enregistrements vides. Un enregistrement vide est un enregistrement dont tous les champs sont vides.

  • La transformation n’utilise pas le ou les filtres actifs.

7.10. Transformations de type Texte

7.10.1. Ajouter un préfixe

Ajouter un préfixe aux valeurs du champ sélectionné.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.10.2. Ajouter un suffixe

Ajouter un suffixe aux valeurs du champ sélectionné.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.10.3. Attribuer une valeur aux cellules

Attribuer une même valeur à l’ensemble des cellules d’un champ. Si la nouvelle valeur est vide, le contenu des cellules est effacé.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.10.4. Capitalisation

Mettre en lettre capitale le premier caractère de chaque mot de chaque cellule du ou des champs sélectionnés. Peut s’appliquer uniquement sur le premier mot en utilisant l’option Premier mot uniquement.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

7.10.5. Compléter à droite

Compléter à droite les cellules du champ sélectionné avec une chaîne de caractères donnée.

Par exemple :

  • Etant donné une cellule bcd, avec une chaîne de complétion a et une longueur de 4, donnera bcda.

  • Etant donné une cellule bcda, avec une chaîne de complétion a et une longueur de 4, donnera bcda.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.10.6. Compléter à gauche

Compléter à gauche les cellules du champ sélectionné avec une chaîne de caractères donnée.

Par exemple :

  • Etant donné une cellule bcd, avec une chaîne de complétion a et une longueur de 4, donnera abcd.

  • Etant donné une cellule abcd, avec une chaîne de complétion a et une longueur de 4, donnera abcd.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.10.7. Conversion en minuscule

Convertir tous les caractères de chaque cellule du champ sélectionné en lettres minuscules.

Par exemple : « CONTENU d’une Cellule » devient « contenu d’une cellule ».

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

7.10.8. Conversion en majuscule

Convertir tous les caractères de chaque cellule du champ sélectionné en lettres majuscules.

Par exemple : « CONTENU d’une Cellule » devient « CONTENU D’UNE CELLULE ».

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

7.10.9. Conversion depuis des entités HTML

Convertir les entités HTML de chaque cellule du champ sélectionné sous la forme d’un caractère.

Par exemple :

  • Entité HTML devient Entité HTML.

  • Entité HTML devient Entité HTML.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

7.10.10. Conversion vers des entités HTML

Convertir les caractères éligibles de chaque cellule du champ sélectionné vers leur forme d’entité HTML.

Par exemple : Entité HTML devient Entité HTML.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

7.10.11. Convertir les points de code Unicode en caractères

Convertir les points de code Unicode [7] en caractères (glyphes) pour chacun des champs sélectionnés.

Par exemple :

  • Biblioth\\u00E8que deviendra Bibliothèque.

  • Mus\\  u00E9e deviendra Musée.

Informations complémentaires :

  • Unicode sur Wikipédia.

  • Point de code Unicode sur Wikipédia.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

7.10.12. Normaliser les espaces

Supprimer les espaces consécutifs (ou tout caractère apparenté à un espace : tabulations, retour chariot, etc.) pour les remplacer par un seul espace (caractère ASCII n°10).

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

7.10.13. Rechercher / Remplacer

Effectuer une opération de rechercher / remplacer, soit en utilisant du texte simple, soit une expression régulière. Cette opération fonctionne pour tous les types de champs ainsi que pour les valeurs non reconnues.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.10.14. Reconnaître la langue

Reconnaître la langue de chacune des cellules du champ sélectionné. La langue reconnue est stockée dans un nouveau champ. Les formats de la langue disponibles sont :

  • Code sur 2 lettres. Par exemple : en, fr, de, … [8]

  • Code sur 3 lettres (ISO 639-2). Par exemple : eng, fra, deu, … [9]

  • Nom localisé de la langue. Par exemple : français, anglais pour la Locale français; French, English pour la Locale anglais.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.10.15. Supprimer le code HTML

Supprimer les balises HTML, remplace les entités HTML et les entités Unicode par leur équivalent texte pour les champs sélectionnés.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

7.10.16. Supprimer les diacritiques

Supprimer tous les diacritiques [10] de chaque cellule du champ sélectionné. Les accents font partie des diacritiques.

Sont considérés comme diacritiques les caractères appartenant aux catégories Unicode :

  • LM LETTER, Modifier.

  • SK SYMBOL, Modifier.

  • MN MARK, Nonspacing.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

7.10.17. Suppression des espaces en début et fin

Supprimer les espaces ou tout caractère apparenté (tabulations, retour chariot, etc.) au début et à la fin d’un texte.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

7.11. Transformations de type Numérique

7.11.1. Arrondir un décimal

Arrondir un décimal :

  • Si la stratégie est A l’entier le plus proche, le décimal est arrondi à l’entier le plus proche (2,6 est remplacé par 3 et 2,4 est remplacé par 2).

  • Si la stratégie est A l’entier supérieur, le décimal est arrondi à l’entier supérieur (2,1 est remplacé par 3).

  • Si la stratégie est A l’entier inférieur, le décimal est arrondi à l’entier inférieur (2,6 est remplacé par 2).

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.11.2. Créer des intervalles de taille fixe

Créer des intervalles de taille fixe à partir d’une colonne numérique.

image415

Exemple :

  • [0, 10[

  • [10, 20[

  • [20, 30[ …

Cette transformation peut être utilisée pour créer, par exemple, des histogrammes (e.g. des diagrammes à barre) à partir de valeurs continues.

image416

  • image417 Choisir le nom de la colonne numérique à partir de laquelle les intervalles vont être créés.

  • image418 Choisir le nom de la nouvelle colonne qui contiendra les intervalles.

  • image419 Préciser la largeur (le « pas ») des intervalles.

  • image420 Spécifier une borne inférieure pour le premier intervalle et une borne supérieure pour le dernier intervalle. C’est une opération optionnelle. Si une borne inférieure B est précisée, toutes les valeurs inférieures à cette borne seront placées dans l’intervalle ]-∞, B[. Si une borne supérieure B” image421 est précisée, toutes les valeurs supérieures ou égales à cette borne seront placées dans l’intervalle [B”, +∞[.

  • image422 Cocher l’option pour obtenir une colonne de type texte contenant des intervalles de type [X, Y[ signifiant que la valeur est >= X et < Y.

  • image423 Cocher l’option pour obtenir deux colonnes de type numérique : la première contenant les bornes inférieures des intervalles (inclusives) et la seconde contenant les bornes supérieures des intervalles (exclusives).

Prévisualisation du résultat :

image424

7.11.3. Convertir des unités de mesure

Convertir des valeurs d’une unité de mesure vers une autre (e.g. convertir des Kilomètres en Miles).

Il est également possible de détecter automatiquement l’unité de mesure source.

image425

La transformation supporte 2 modes de fonctionnement :

  • Conversion simple : d’un champ numérique vers un champ numérique, éventuellement la même.

  • Conversion avec reconnaissance automatique de l’unité : d’un champ texte vers un nouveau champ numérique.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

7.11.4. Extraire des nombres

Extraire des nombres d’un champ de type texte et les insère dans de nouveaux champs.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.12. Transformations de type Date

7.12.1. Convertir un nombre entier en date

Convertir un nombre entier en date.

Le nombre en entrée peut représenter la date de façon littérale (e.g. 20190715 = 15 juillet 2019) mais il peut aussi représenter un nombre de jours ou de millisecondes depuis une date d’origine. Par exemple, si vous indiquez que votre nombre vient de Microsoft Excel, 39448 sera converti à la date du 1er janvier 2008 car il y a exactement 39 448 jours entre le 1er janvier 1900 et le 1er janvier 2008.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

7.12.2. Extraire une partie d’une date

Extraire une partie d’un champ de type date (Année, Trimestre, Mois, Jour) et l’insère dans un nouveau champ.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.12.3. Formater une date avec un format personnalisé

Formater la date d’un champ de type date en lui appliquant un format personnalisé et l’insère dans un nouveau champ.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.12.4. Formater une date avec un format prédéfini

Formater la date d’un champ de type date en lui appliquant un format prédéfini, et l’insère dans un nouveau champ.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.12.5. Intervalle de dates

Calculer l’intervalle de dates entre deux champs de type date. Un nouveau champ est créé avec le résultat du calcul, exprimé au choix, en Semaines, Jours, Heures, Minutes, Secondes ou Millisecondes.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

7.12.6. Reconnaissance de date

Sur un champ de type date, le système va essayer de déchiffrer toutes les cellules non reconnues comme date lors de l’importation en essayant des formats variés et de différents pays (e.g. 2nd March 2015, 2015.03.02, etc.). Les formats retenus sont soumis à la validation de l’utilisateur.

image426

  1. Le premier champ de type date du jeu de données est automatiquement sélectionné image427 (une fois le champ traité, sélectionnez manuellement le suivant).

  2. Le système essaie de trouver le format (e.g. YYY-MM-dd) image428 qui permet de reconnaître le plus grand nombre de dates dans le champ (ce nombre ainsi que le pourcentage associé sont indiqués sous la liste déroulante). Si le format n’est pas reconnu ou si la reconnaissance automatique ne vous convient pas, vous pouvez saisir votre propre format dans la zone image429.

  3. Zone d’aide image430 pour construire vos propres formats de date.

  4. Prévisualisation du résultat image431 : en vert, les cellules pour lesquelles le format spécifié dans la zone image432 reconnaît la cellule comme une date (la colonne de gauche contient la valeur brute non reconnue à l’importation, celle de droite la date telle que reconnue par le format spécifié dans la zone image433).

  5. Bouton Appliquer image434.

Note

Répéter les étapes 1 à 5 jusqu’à ce que la zone image435 soit entièrement vide (i.e. toutes les cellules sont reconnues).

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

Indication

Pour les formats personnalisés, la très grande majorité du temps il faut utiliser un yyyy si l’on veut désigner une année sur quatre chiffres, plutôt qu’avec des majuscules. En effet: * y représente l’année calendaire (celle que l’on utilise très fréquemment, en pratique) * Y représente l’année « basée sur la semaine » ( »Week Year » en anglais) : les derniers jours de l’année peuvent être, selon que le changement de semaine soit à cheval sur le changement d’année ou non, rattachés à l’année suivante.

Voir ici pour plus de détails : https://en.wikipedia.org/wiki/ISO_8601#Week_dates

7.13. Transformations de regroupement (clustering)

Regrouper des mots / textes ayant une orthographe proche dans un champ donné. Ces regroupements sont créés par des algorithmes mais la décision d’uniformiser le texte des cellules regroupées est laissée à la discrétion de l’utilisateur.

image436

  • Choix du champ image437 sur lequel on souhaite explorer les regroupements possibles.

  • Lancer la prévisualisation image438 : les regroupements (clusters) sont calculés pour permettre à l’utilisateur de trancher.

  • La zone image439 affiche les regroupements trouvés : 1 ligne = 1 regroupement ou « cluster » (e.g. sur la fig. ci-dessus le système indique qu’il a trouvé 3 orthographes voisines pour MONOSPACE et que ce regroupement concerne 48 lignes).

  • Le bouton Afficher le détail des regroupements image440 (ou un double-clic sur la zone image441) permet de passer à la vue Détails qui est celle utilisée pour prendre une décision pour chaque regroupement.

image442

  • Regroupement de mots d’orthographes voisines image443. Décocher une ou plusieurs options pour ne pas les inclure dans le regroupement finalisé (= faux-positif).

  • En sélectionnant une option dans la zone image444, le système affiche dans la zone image445 les enregistrements correspondants (cela facilite par exemple l’identification de faux-positifs).

  • Choisir le texte de remplacement pour l’ensemble des orthographes voisines (ou double-cliquer sur une option de la zone image446 pour automatiquement la choisir comme texte de remplacement).

  • Cliquer sur Accepter puis Suivant image447 permet en une seule opération de confirmer les choix effectués pour le regroupement en cours (i.e. les modalités choisies dans la zone image448 + le texte de remplacement dans la zone image449) et de passer au regroupement suivant. Le bouton Suivant permet de passer au regroupement suivant sans valider le regroupement en cours (il n’y aura donc pas de remplacement).

Bouton Appliquer : appliquer un remplacement sur l’ensemble des regroupements validés lors des 4 étapes décrites ci-dessus.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.13.1. Clustering Phonétique

Regroupement de cellules basées sur une prononciation similaire, par exemple téléphone et téléphones seront regroupés.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.13.2. Fingerprint Consonne-d’abord

Regroupement de chaînes de caractères basées sur la séquence des consonnes dans le texte.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.13.3. Fingerprint “Exact Match”

Regroupement par égalité de valeurs.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.13.4. Fingerprint Universel

Apparier des textes similaires en combinant plusieurs stratégies :

  • Elimination des mots non signifiants (articles, pronoms, conjonctions de coordination, …).

  • Elimination des doubles voyelles et des doubles consonnes.

  • Elimination des abréviations courantes.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.13.5. Fingerprint Voyelles-d’abord

Regroupement de chaînes de caractères basées sur la séquence des voyelles dans le texte.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.13.6. N-Gram Clustering

Regroupement de cellules basés sur les couples de lettres en commun (ou triplets, ou quadruplets, etc. selon la valeur de N).

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.13.7. Transformations de Dédoublonnage : dédoublonnage multi-algorithmes

Tale of Data permet d’effectuer des dédoublonnages multi-champs (l’utilisateur choisit les champs à utiliser pour décider du rapprochement de deux lignes) et multi-algorithmes (l’utilisateur choisit l’algorithme de rapprochement pour chaque champ : phonétique, N-Gram, …) :

image450

  • Sélectionner les champs image451 à utiliser pour dédoublonner.

  • Sélectionner l’algorithme image452 à utiliser pour chacune des colonnes.

  • Cliquer sur le bouton Valider image453 pour démarrer le processus de dédoublonnage.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

7.14. Transformations sur les Natures

7.14.1. Attribuer une Nature à un champ

Changer ou forcer la Nature d’un champ (e.g. forcer la nature « n° de téléphone » pour une colonne numérique).

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation n’utilise pas le ou les filtres actifs.

7.14.2. Supprimer la Nature d’un champ

Supprimer la Nature présente sur un ou plusieurs champs.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation n’utilise pas le ou les filtres actifs.

7.14.3. Découper une URL

Extraire depuis une URL, au choix : le Protocole (http, ftp, …), le Nom de domaine (www.taleofdata.com, www.google.fr, …), le Port, le Chemin ou les Paramètres depuis les URLs du champ sélectionné vers un ou plusieurs nouveaux champs.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.14.4. Décoder les URLs

Décoder chaque URL du champ sélectionné depuis le format application/x-www-form-urlencoded. Par exemple :

  • http%3A%2F%2Fwww.taleofdata.com devient http://www.taleofdata.com.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

7.14.5. Encoder les URLs

Encoder chaque URL du champ sélectionné dans le format application/x-www-form-urlencoded. Par exemple :

  • http://www.taleofdata.com devient http%3A%2F%2Fwww.taleofdata.com.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

7.14.6. Mettre en forme les prénoms

Mettre en forme les prénoms (normalisation des espaces, capitalisation) du champ sélectionné.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.14.7. Extraire nom, prénom, civilité / genre des noms complets

Extraire au choix : les Prénoms, les Noms ou les Civilités depuis un champ comportant des noms complets. Permet également de déduire les Civilités et les Genres.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.14.8. Mettre en forme les noms propres

Mettre en forme les noms propres pour le champ sélectionné.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.14.9. Mettre en forme les genres

Mettre en forme les genres selon une Locale (pays / langue) et un Format (Court, Long).

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.14.10. Mettre en forme les civilités

Mettre en forme les civilités selon une Locale (pays / langue) et un Format (Court, Long).

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.14.11. Mettre en forme les nationalités

Mettre en forme les nationalités (normalisation des espaces, capitalisation) du champ sélectionné.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.14.12. Extraire le code SIREN

Extraire le code SIREN (Système d”Identification du Répertoire des ENtreprises) d’un champ comportant des SIRET (Système d”Identification du Répertoire des ETablissements) vers un nouveau champ. L’extraction fonctionne uniquement avec des codes SIRET valides.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.15. Transformations Géographiques

7.15.1. Analyser une adresse

Analyse un à plusieurs champs contenant des adresses puis extrait chaque partie dans de nouveaux champs. Si l’adresse est répartie sur plusieurs champs, vous devez les sélectionner dans l’ordre.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

7.15.2. Convertir des codes pays

Convertir, dans le champ sélectionné, des codes pays depuis / vers la norme ISO 3166-1 [13] dans les formats suivants :

  • Code à 2 lettres : ISO 3166-1 alpha-2.

  • Code à 3 lettres : ISO 3166-1 alpha-3.

  • Nom de pays.

Par exemple :

  • Pour un code sur 2 lettres tel que FR, la conversion dans le format ISO 3166-1 alpha-3 donnera FRA.

  • Pour un code sur 3 lettres tel que USA, la conversion dans le format Nom de pays avec la langue Français donnera États-Unis.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.15.3. Corriger les Codes Communes INSEE dépréciés (France)

Remplacer les codes communes INSEE dépréciés par leur nouvelle valeur. Un code commune INSEE peut être déprécié pour différentes raisons, dont :

  • Commune « associée ».

  • Commune périmée.

  • Commune déléguée.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.15.4. Déduire des données géographiques depuis des Codes Postaux (France)

Enrichir le jeu de données courant avec des données géographiques (nom du département, code du département, nom de la région, code de la région) déduites du code postal présent dans le champ sélectionné.

Par exemple, en partant du code postal 75001, vous pouvez obtenir comme nouveaux champs :

  • Le code du département : 75.

  • Le nom du département : Paris.

  • Le code de la région : 11.

  • Le nom de la région : Île-de-France.

Astuce

Un même code postal peut correspondre à plusieurs communes.

Certains codes postaux peuvent appartenir à un département différent de celui présent dans le code.

Pour un meilleur résultat, il est conseillé d’utiliser les codes communes INSEE ou bien la combinaison code postal et nom de la ville (libellé d’acheminement).

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.15.5. Enrichir depuis des Codes Communes INSEE (France)

Enrichir le jeu de données courant avec des données géographiques provenant du Code Officiel Géographique [14] (nom de la commune, nom du département, code du département, nom de la région, code de la région) en partant du code commune INSEE présent dans le champ sélectionné.

Par exemple, en partant du code commune INSEE 75056, vous pouvez obtenir comme nouveaux champs:

  • Le nom de la commune : Paris.

  • Le code du département : 75.

  • Le nom du département : Paris.

  • Le code de la région : 11.

  • Le nom de la région : Île-de-France.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.15.6. Enrichir depuis des Codes Postaux (France)

Enrichir le jeu de données courant avec des données géographiques (code commune INSEE, nom de la commune, nom du département, code du département, nom de la région, code de la région) déduites du code postal et du nom de la ville (Libellé d’acheminement) présents dans les champs sélectionnés.

Par exemple, en partant du code postal 75001 et de la ville Paris, vous pouvez obtenir comme nouveaux champs :

  • Le code commune INSEE : 75056.

  • Le nom de la commune : Paris.

  • Le code du département : 75.

  • Le nom du département : Paris.

  • Le code de la région : 11.

  • Le nom de la région : Île-de-France.

  • La transformation s’applique sur deux champs.

  • La transformation utilise le ou les filtres actifs.

7.15.7. Enrichir avec les codes pays / Nom de pays

Ajouter des codes pays ou nom de pays dans un nouveau champ en exploitant les codes pays ou nom de pays à la norme ISO 3166-1 [15] présents dans le champ sélectionné, aux formats suivants :

  • Code à 2 lettres : ISO 3166-1 alpha-2.

  • Code à 3 lettres : ISO 3166-1 alpha-3.

  • Nom de pays.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.15.8. Géocoder une adresse

Géocoder un ou plusieurs champs contenant des adresses. Deux champs seront ajoutés pour la latitude et la longitude. Si l’adresse est répartie sur plusieurs champs, vous devez les sélectionner dans l’ordre (i.e. numéro, rue, code postal puis ville).

Pour récupérer, en plus de la latitude et de la longitude, les champs d’adresse présents dans le référentiel (e.g. numéro, nom de la voie, code postal, …), vous devez sélectionner l’option « Normaliser les adresses ».

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

7.15.9. Retrouver le pays à partir de la latitude et longitude

Cette transformation permet de retrouver le pays à partir de la latitude et de la longitude. Il est également possible d’enrichir le jeu de données avec la capitale du pays, sa zone géographique et le continent auquel il appartient.

Avertissement

Pour des raisons de performances, cette transformation utilise des polygones représentant les contours légèrement simplifiés des différents pays du monde. Il peut arriver que certains points très proches d’une frontière ne soient pas rattachés au bon pays. Le taux de réussite est de 98.9% sur le dataset GeoNames « All Countries » contenant la latitude, la longitude et le pays pour 1 552 935 lieux (fichier allCountries.zip téléchargeable ici: <https://download.geonames.org/export/zip/>).

  • La transformation s’applique sur un champ latitude et un champ longitude.

  • La transformation utilise le ou les filtres actifs.

7.15.10. Normaliser les adresses postales françaises (AFNOR NF Z 10-011)

Normaliser des adresses postales françaises selon la norme AFNOR NF Z 10-011 du 19 janvier 2013, facilitant la distribution de courrier. Cette norme répartit les adresses postales françaises en 6 champs :

  1. CIVILITÉ - TITRE ou QUALITÉ - PRÉNOM - NOM.

  2. N°APP ou BAL - ÉTAGE - COULOIR - ESC.

  3. ENTRÉE - BÂTIMENT - IMMEUBLE - RÉSIDENCE.

  4. NUMÉRO - LIBELLÉ DE LA VOIE.

  5. LIEU DIT ou SERVICE PARTICULIER DE DISTRIBUTION.

  6. CODE POSTAL et LOCALITÉ DE DESTINATION ou CODE CEDEX et LIBELLÉ CEDEX.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

7.15.11. Normaliser les adresses postales françaises (S42)

Normaliser des adresses postales françaises selon la norme S42. Cette norme répartit les adresses postales françaises en 10 champs :

  1. Given name.

  2. Surname.

  3. Street No.

  4. Street Name.

  5. Street type.

  6. Floor.

  7. Town.

  8. Region.

  9. Postcode.

  10. Country.

  • La transformation s’applique sur plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

7.16. Transformations sur les numéros de téléphone

7.16.1. Extraire la zone géographique depuis un téléphone

Extraire le pays à partir des numéros de téléphone internationaux du champ sélectionné vers un nouveau champ.

Prérequis :

  • Un champ ayant une nature de type Numéro de téléphone international.

  • Seuls les numéros de téléphone internationaux valides pourront être exploités.

Format de sortie pour les pays :

  • Code à 2 lettres : ISO 3166-1 alpha-2.

  • Code à 3 lettres : ISO 3166-1 alpha-3.

  • Nom de pays (localisé).

Par exemple :

Format

Langue

Téléphone (entrée)

Pays (sortie)

Code à 2 lettres

N/A

+33 1 02 03 04 05

FR

Code à 3 lettres

N/A

+32 2 333 44 55

BEL

Nom du pays

anglais

+41 22 333 44 55

Switzerland

Informations complémentaires :

  • Format International (E.123) sur Wikipédia.

  • ISO 3166-1 alpha-2 sur Wikipédia.

  • ISO 3166-1 alpha-3 sur Wikipédia.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.16.2. Mettre en forme les numéros de téléphone

Mettre en forme les numéros de téléphone en se conformant à un patron :

  • Format International : +33 9 67 13 07 93.

  • Format National : 0967130793.

  • Format E.164 : +33967130793.

  • La transformation s’applique sur un ou plusieurs champs.

  • La transformation utilise le ou les filtres actifs.

7.16.3. Redresser les numéros de téléphone à l’international

Redresser les numéros de téléphone à l’international d’un champ avec des numéros de téléphone à l’aide d’un champ contenant des Code Pays (ISO 3166-1 alpha-2), Code Pays (ISO 3166-1 alpha-3) ou des Pays. Les numéros de téléphone sont redressés dans un nouveau champ.

Prérequis :

  • Un champ ayant une nature de type Numéro de téléphone.

  • Un champ ayant une nature parmi : Code Pays (ISO 3166-1 alpha-2, alpha-3) ou Nom de Pays.

Par exemple :

  • +33 (010) 203-0405 avec un code pays FR et un format de sortie International donnera +33 1 02 03 04 05 comme numéro de téléphone corrigé.

  • 0102030405 avec un code pays FR et un format de sortie International donnera +33 1 02 03 04 05 comme numéro de téléphone corrigé.

  • +33 (010) 203-0405 avec un code pays FR et un format de sortie E.164 donnera +33102030405 comme numéro de téléphone corrigé.

Valeurs possibles de la colonne de diagnostic :

  • VALID : lorsque la correction s’est bien déroulée.

  • INVALID_FOR_REGION : lorsque le numéro de téléphone n’est pas valide pour le code pays.

  • INVALID_COUNTRY_CODE : lorsque le code pays est invalide.

  • INVALID_INPUT : lorsque ce n’est pas un numéro de téléphone.

Informations complémentaires :

  • Format International (E.123) sur Wikipédia.

  • Format E.164 sur Wikipédia.

  • ISO 3166-1 alpha-2 sur Wikipédia.

  • ISO 3166-1 alpha-3 sur Wikipédia.

  • La transformation s’applique sur deux champs.

  • La transformation utilise le ou les filtres actifs.

7.17. Transformations sur les adresses e-mail

7.17.1. Découper une adresse e-mail

Extraire depuis une adresse e-mail, au choix : le Domaine (contact@taleofdata.com, contact@gmail.com, …), la Partie locale (contact@taleofdata.com, contact@gmail.com, …) ou bien le Domaine et la Partie locale depuis les e-mails du champ sélectionné vers un ou plusieurs nouveaux champs.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.17.2. Mettre en forme les e-mails

Mettre en forme les e-mails (normalisation des espaces, suppression des accents, mise en minuscule des caractères) du champ sélectionné.

  • La transformation s’applique sur un unique champ.

  • La transformation utilise le ou les filtres actifs.

7.17.3. Vérifier la cohérence des e-mails

Vérifier l’absence de fautes dans les adresses e-mails en utilisant les champs contenant les Prénoms et les Noms de famille comme références.

Prérequis :

  • Un champ contenant les adresses e-mails à vérifier.

  • Un champ contenant les prénoms de référence.

  • Un champ contenant les noms de famille de référence.

Par exemple :

email

nom

prénom

email_consistency

prenom.nom@domain.com

Nom

Prénom

OK

penompenom.nom@domain.com

Nom

Prénom

FIRST_NAME_MISSPELLED

prenom-nam@domain.com

Name

Prénom

LAST_NAME_MISSPELLED

  • La transformation s’applique sur trois champs.

  • La transformation utilise le ou les filtres actifs.