7.5. Configuration et utilisation d’une transformation
Prudence
Lorsque des filtres sont positionnés lors de l’exécution d’une transformation, cette transformation s’applique uniquement sur les enregistrements du jeu de données qui sont acceptés par le filtre.
Zone d’aide décrivant ce que fait la transformation (elle peut être masquée en cliquant sur le bouton ‘-‘ en haut à gauche de cette zone).
Liste des champs sur lesquels s’appliquera la transformation (il est possible de sélectionner plusieurs champs avec les touches Maj ou Ctrl) ainsi que l’ensemble des options disponibles pour la transformation courante.
Le bouton Appliquer permet d’appliquer la transformation courante au jeu de données. Le bouton Prévisualiser permet d’avoir un aperçu des modifications qu’apportera la transformation courante.
7.6. Accès rapide aux transformations
Le Navigateur de champs permet un accès rapide à certaines transformations couramment utilisées. Pour invoquer ces transformations, il suffit d’effectuer un clic droit sur le ou les champs sélectionnés dans le Navigateur de champs :
Astuce
Le menu contextuel du Navigateur de champs permet également de positionner des filtres sur le ou les champs sélectionnés.
7.7. Visualisation des modifications apportées par une transformation
La Fenêtre de visualisation des modifications apportées par une transformation se présente comme suit :
Les changements sont répartis selon 5 critères :
Champ d’entrée (en blanc).
Champ modifié (en beige).
Valeur modifiée (en jaune).
Champ créé (en bleu).
Champ supprimé (en gris).
La visualisation des modifications apportées par une transformation est disponible à 2 endroits :
7.8. Transformations sur les champs
7.8.1. Ajouter un champ
Créer un nouveau champ, vide par défaut. En renseignant la valeur par défaut, il est possible d’affecter une valeur commune à toutes les cellules.
La transformation utilise le ou les filtres actifs.
7.8.2. Concaténer des champs
Créer un nouveau champ qui est le résultat de la concaténation de plusieurs champs existants.
La transformation s’applique sur plusieurs champs.
La transformation utilise le ou les filtres actifs.
7.8.3. Copier un champ
Créer un nouveau champ qui est la copie d’un champ existant.
La transformation s’applique sur un unique champ.
La transformation n’utilise pas le ou les filtres actifs.
7.8.4. Diviser un champ
Scinder un champ en plusieurs champs en utilisant un ou plusieurs séparateur(s).
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.8.5. Fusionner des champs
Compléter les valeurs manquantes du premier champ avec la première valeur rencontrée parmi les autres champs sélectionnés.
La transformation s’applique sur plusieurs champs.
La transformation utilise le ou les filtres actifs.
7.8.6. Modifier le type d’un champ
Changer ou forcer le type d’un champ (e.g. passer le type d’un champ de numérique à texte).
La transformation s’applique sur un ou plusieurs champs.
La transformation n’utilise pas le ou les filtres actifs.
7.8.7. Remplir les valeurs vides
Remplir les valeurs manquantes d”un ou plusieurs champs avec la dernière valeur non vide rencontrée. Prenons par exemple la table suivante :
Date |
Forecast |
11/05/2019 |
800 |
12/05/2019 |
|
13/05/2019 |
|
21/05/2019 |
950 |
22/05/2019 |
|
23/05/2019 |
Après application de la transformation, on obtient la table suivante :
Date |
Forecast |
11/05/2019 |
800 |
12/05/2019 |
800 |
13/05/2019 |
800 |
21/05/2019 |
950 |
22/05/2019 |
950 |
23/05/2019 |
950 |
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
7.8.8. Renommer un champ
Modifier le nom d’un champ.
La transformation s’applique sur un unique champs.
La transformation n’utilise pas le ou les filtres actifs.
7.8.9. Réordonner les champs
Réordonner les champs d’un jeu de données.
La transformation s’applique sur plusieurs champs.
La transformation n’utilise pas le ou les filtres actifs.
7.8.10. Supprimer un champ
Supprimer un ou plusieurs champs.
La transformation s’applique sur un ou plusieurs champs.
La transformation n’utilise pas le ou les filtres actifs.
7.8.11. Transposer des champs en enregistrements
Transposer les valeurs des champs sélectionnés en un enregistrement par champ. Par exemple, pour le jeu de données ci-après :
Country Name |
1960 |
1961 |
Afghanistan |
414.371 |
491.378 |
Angola |
550.05 |
454.708 |
Albania |
2024.184 |
2280.874 |
Avec les paramètres suivants pour la transformation :
Liste des champs : 1960 and 1961.
Champ cible pour les en-têtes : Year.
Champ cible pour les valeurs : Level.
On obtient le résultat suivant :
Country Name |
Year |
Level |
Afghanistan |
1960 |
414.371 |
Angola |
1960 |
550.05 |
Albania |
1960 |
2024.184 |
Afghanistan |
1961 |
491.378 |
Angola |
1961 |
454.708 |
Albania |
1961 |
2280.874 |
La transformation s’applique sur plusieurs champs.
La transformation n’utilise pas le ou les filtres actifs.
7.8.12. Masquer les données sensibles
Masquer des données sensibles afin d’en préserver la confidentialité.
Plusieurs stratégies de masquage sont disponibles :
Masquage sémantique
Masquage déterministe
Masquer tout
Masquer les n premiers caractères
Préserver les n premiers caractères
Masquer les n derniers caractères
Masquer les caractères entre deux positions
Préserver les caractères entre deux positions
Masquer les chiffres
Il est possible d’utiliser la prévisualisation pour anticiper les résultats de masquage.
La transformation s’applique sur plusieurs champs de type texte.
La transformation utilise le ou les filtres actifs.
7.9. Transformations sur les enregistrements
7.9.1. Supprimer des enregistrements
Supprimer les enregistrements filtrés.
La transformation utilise le ou les filtres actifs.
7.9.2. Supprimer des enregistrements vides
Supprimer les enregistrements vides. Un enregistrement vide est un enregistrement dont tous les champs sont vides.
La transformation n’utilise pas le ou les filtres actifs.
7.10. Transformations de type Texte
7.10.1. Ajouter un préfixe
Ajouter un préfixe aux valeurs du champ sélectionné.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.10.2. Ajouter un suffixe
Ajouter un suffixe aux valeurs du champ sélectionné.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.10.3. Attribuer une valeur aux cellules
Attribuer une même valeur à l’ensemble des cellules d’un champ. Si la nouvelle valeur est vide, le contenu des cellules est effacé.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.10.4. Capitalisation
Mettre en lettre capitale le premier caractère de chaque mot de chaque cellule du ou des champs sélectionnés. Peut s’appliquer uniquement sur le premier mot en utilisant l’option Premier mot uniquement.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
7.10.5. Compléter à droite
Compléter à droite les cellules du champ sélectionné avec une chaîne de caractères donnée.
Par exemple :
Etant donné une cellule bcd, avec une chaîne de complétion a et une longueur de 4, donnera bcda.
Etant donné une cellule bcda, avec une chaîne de complétion a et une longueur de 4, donnera bcda.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.10.6. Compléter à gauche
Compléter à gauche les cellules du champ sélectionné avec une chaîne de caractères donnée.
Par exemple :
Etant donné une cellule bcd, avec une chaîne de complétion a et une longueur de 4, donnera abcd.
Etant donné une cellule abcd, avec une chaîne de complétion a et une longueur de 4, donnera abcd.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.10.7. Conversion en minuscule
Convertir tous les caractères de chaque cellule du champ sélectionné en lettres minuscules.
Par exemple : « CONTENU d’une Cellule » devient « contenu d’une cellule ».
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
7.10.8. Conversion en majuscule
Convertir tous les caractères de chaque cellule du champ sélectionné en lettres majuscules.
Par exemple : « CONTENU d’une Cellule » devient « CONTENU D’UNE CELLULE ».
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
7.10.9. Conversion depuis des entités HTML
Convertir les entités HTML de chaque cellule du champ sélectionné sous la forme d’un caractère.
Par exemple :
Entité HTML
devientEntité HTML
.
Entité HTML
devientEntité HTML
.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
7.10.10. Conversion vers des entités HTML
Convertir les caractères éligibles de chaque cellule du champ sélectionné vers leur forme d’entité HTML.
Par exemple : Entité HTML
devient Entité HTML
.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
7.10.11. Convertir les points de code Unicode en caractères
Convertir les points de code Unicode [7] en caractères (glyphes) pour chacun des champs sélectionnés.
Par exemple :
Biblioth\\u00E8que
deviendraBibliothèque
.
Mus\\ u00E9e
deviendraMusée
.
Informations complémentaires :
Unicode sur Wikipédia.
Point de code Unicode sur Wikipédia.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
7.10.12. Normaliser les espaces
Supprimer les espaces consécutifs (ou tout caractère apparenté à un espace : tabulations, retour chariot, etc.) pour les remplacer par un seul espace (caractère ASCII n°10).
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
7.10.13. Rechercher / Remplacer
Effectuer une opération de rechercher / remplacer, soit en utilisant du texte simple, soit une expression régulière. Cette opération fonctionne pour tous les types de champs ainsi que pour les valeurs non reconnues.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.10.14. Reconnaître la langue
Reconnaître la langue de chacune des cellules du champ sélectionné. La langue reconnue est stockée dans un nouveau champ. Les formats de la langue disponibles sont :
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.10.15. Supprimer le code HTML
Supprimer les balises HTML, remplace les entités HTML et les entités Unicode par leur équivalent texte pour les champs sélectionnés.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
7.10.16. Supprimer les diacritiques
Supprimer tous les diacritiques [10] de chaque cellule du champ sélectionné. Les accents font partie des diacritiques.
Sont considérés comme diacritiques les caractères appartenant aux catégories Unicode :
LM LETTER, Modifier.
SK SYMBOL, Modifier.
MN MARK, Nonspacing.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
7.10.17. Suppression des espaces en début et fin
Supprimer les espaces ou tout caractère apparenté (tabulations, retour chariot, etc.) au début et à la fin d’un texte.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
7.11. Transformations de type Numérique
7.11.1. Arrondir un décimal
Arrondir un décimal :
Si la stratégie est A l’entier le plus proche, le décimal est arrondi à l’entier le plus proche (2,6 est remplacé par 3 et 2,4 est remplacé par 2).
Si la stratégie est A l’entier supérieur, le décimal est arrondi à l’entier supérieur (2,1 est remplacé par 3).
Si la stratégie est A l’entier inférieur, le décimal est arrondi à l’entier inférieur (2,6 est remplacé par 2).
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.11.2. Créer des intervalles de taille fixe
Créer des intervalles de taille fixe à partir d’une colonne numérique.
Exemple :
[0, 10[
[10, 20[
[20, 30[ …
Cette transformation peut être utilisée pour créer, par exemple, des histogrammes (e.g. des diagrammes à barre) à partir de valeurs continues.
Choisir le nom de la colonne numérique à partir de laquelle les intervalles vont être créés.
Choisir le nom de la nouvelle colonne qui contiendra les intervalles.
Spécifier une borne inférieure pour le premier intervalle et une borne supérieure pour le dernier intervalle. C’est une opération optionnelle. Si une borne inférieure B est précisée, toutes les valeurs inférieures à cette borne seront placées dans l’intervalle ]-∞, B[. Si une borne supérieure B” est précisée, toutes les valeurs supérieures ou égales à cette borne seront placées dans l’intervalle [B”, +∞[.
Cocher l’option pour obtenir une colonne de type texte contenant des intervalles de type [X, Y[ signifiant que la valeur est >= X et < Y.
Cocher l’option pour obtenir deux colonnes de type numérique : la première contenant les bornes inférieures des intervalles (inclusives) et la seconde contenant les bornes supérieures des intervalles (exclusives).
Prévisualisation du résultat :
7.11.3. Convertir des unités de mesure
Convertir des valeurs d’une unité de mesure vers une autre (e.g. convertir des Kilomètres en Miles).
Il est également possible de détecter automatiquement l’unité de mesure source.
La transformation supporte 2 modes de fonctionnement :
Conversion simple : d’un champ numérique vers un champ numérique, éventuellement la même.
Conversion avec reconnaissance automatique de l’unité : d’un champ texte vers un nouveau champ numérique.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
7.11.4. Extraire des nombres
Extraire des nombres d’un champ de type texte et les insère dans de nouveaux champs.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.12. Transformations de type Date
7.12.1. Convertir un nombre entier en date
Convertir un nombre entier en date.
Le nombre en entrée peut représenter la date de façon littérale (e.g. 20190715 = 15 juillet 2019) mais il peut aussi représenter un nombre de jours ou de millisecondes depuis une date d’origine. Par exemple, si vous indiquez que votre nombre vient de Microsoft Excel, 39448 sera converti à la date du 1er janvier 2008 car il y a exactement 39 448 jours entre le 1er janvier 1900 et le 1er janvier 2008.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
7.12.2. Extraire une partie d’une date
Extraire une partie d’un champ de type date (Année, Trimestre, Mois, Jour) et l’insère dans un nouveau champ.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.12.3. Formater une date avec un format personnalisé
Formater la date d’un champ de type date en lui appliquant un format personnalisé et l’insère dans un nouveau champ.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.12.4. Formater une date avec un format prédéfini
Formater la date d’un champ de type date en lui appliquant un format prédéfini, et l’insère dans un nouveau champ.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.12.5. Intervalle de dates
Calculer l’intervalle de dates entre deux champs de type date. Un nouveau champ est créé avec le résultat du calcul, exprimé au choix, en Semaines, Jours, Heures, Minutes, Secondes ou Millisecondes.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
7.12.6. Reconnaissance de date
Sur un champ de type date, le système va essayer de déchiffrer toutes les cellules non reconnues comme date lors de l’importation en essayant des formats variés et de différents pays (e.g. 2nd March 2015, 2015.03.02, etc.). Les formats retenus sont soumis à la validation de l’utilisateur.
Le premier champ de type date du jeu de données est automatiquement sélectionné (une fois le champ traité, sélectionnez manuellement le suivant).
Le système essaie de trouver le format (e.g. YYY-MM-dd) qui permet de reconnaître le plus grand nombre de dates dans le champ (ce nombre ainsi que le pourcentage associé sont indiqués sous la liste déroulante). Si le format n’est pas reconnu ou si la reconnaissance automatique ne vous convient pas, vous pouvez saisir votre propre format dans la zone .
Prévisualisation du résultat : en vert, les cellules pour lesquelles le format spécifié dans la zone reconnaît la cellule comme une date (la colonne de gauche contient la valeur brute non reconnue à l’importation, celle de droite la date telle que reconnue par le format spécifié dans la zone ).
Note
Répéter les étapes 1 à 5 jusqu’à ce que la zone soit entièrement vide (i.e. toutes les cellules sont reconnues).
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
Indication
Pour les formats personnalisés, la très grande majorité du temps il faut utiliser un yyyy si l’on veut désigner une année sur quatre chiffres, plutôt qu’avec des majuscules. En effet: * y représente l’année calendaire (celle que l’on utilise très fréquemment, en pratique) * Y représente l’année « basée sur la semaine » ( »Week Year » en anglais) : les derniers jours de l’année peuvent être, selon que le changement de semaine soit à cheval sur le changement d’année ou non, rattachés à l’année suivante.
Voir ici pour plus de détails : https://en.wikipedia.org/wiki/ISO_8601#Week_dates
7.13. Transformations de regroupement (clustering)
Regrouper des mots / textes ayant une orthographe proche dans un champ donné. Ces regroupements sont créés par des algorithmes mais la décision d’uniformiser le texte des cellules regroupées est laissée à la discrétion de l’utilisateur.
Choix du champ sur lequel on souhaite explorer les regroupements possibles.
Lancer la prévisualisation : les regroupements (clusters) sont calculés pour permettre à l’utilisateur de trancher.
La zone affiche les regroupements trouvés : 1 ligne = 1 regroupement ou « cluster » (e.g. sur la fig. ci-dessus le système indique qu’il a trouvé 3 orthographes voisines pour MONOSPACE et que ce regroupement concerne 48 lignes).
Le bouton Afficher le détail des regroupements (ou un double-clic sur la zone ) permet de passer à la vue Détails qui est celle utilisée pour prendre une décision pour chaque regroupement.
Regroupement de mots d’orthographes voisines . Décocher une ou plusieurs options pour ne pas les inclure dans le regroupement finalisé (= faux-positif).
En sélectionnant une option dans la zone , le système affiche dans la zone les enregistrements correspondants (cela facilite par exemple l’identification de faux-positifs).
Choisir le texte de remplacement pour l’ensemble des orthographes voisines (ou double-cliquer sur une option de la zone pour automatiquement la choisir comme texte de remplacement).
Cliquer sur Accepter puis Suivant permet en une seule opération de confirmer les choix effectués pour le regroupement en cours (i.e. les modalités choisies dans la zone + le texte de remplacement dans la zone ) et de passer au regroupement suivant. Le bouton Suivant permet de passer au regroupement suivant sans valider le regroupement en cours (il n’y aura donc pas de remplacement).
Bouton Appliquer : appliquer un remplacement sur l’ensemble des regroupements validés lors des 4 étapes décrites ci-dessus.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.13.1. Clustering Phonétique
Regroupement de cellules basées sur une prononciation similaire, par exemple téléphone et téléphones seront regroupés.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.13.2. Fingerprint Consonne-d’abord
Regroupement de chaînes de caractères basées sur la séquence des consonnes dans le texte.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.13.3. Fingerprint “Exact Match”
Regroupement par égalité de valeurs.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.13.4. Fingerprint Universel
Apparier des textes similaires en combinant plusieurs stratégies :
Elimination des mots non signifiants (articles, pronoms, conjonctions de coordination, …).
Elimination des doubles voyelles et des doubles consonnes.
Elimination des abréviations courantes.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.13.5. Fingerprint Voyelles-d’abord
Regroupement de chaînes de caractères basées sur la séquence des voyelles dans le texte.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.13.6. N-Gram Clustering
Regroupement de cellules basés sur les couples de lettres en commun (ou triplets, ou quadruplets, etc. selon la valeur de N).
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.14. Transformations de Dédoublonnage : dédoublonnage multi-algorithmes
Tale of Data permet d’effectuer des dédoublonnages multi-champs (l’utilisateur choisit les champs à utiliser pour décider du rapprochement de deux lignes) et multi-algorithmes (l’utilisateur choisit l’algorithme de rapprochement pour chaque champ : phonétique, N-Gram, …) :
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
7.15. Transformations sur les Natures
7.15.1. Attribuer une Nature à un champ
Changer ou forcer la Nature d’un champ (e.g. forcer la nature « n° de téléphone » pour une colonne numérique).
La transformation s’applique sur un ou plusieurs champs.
La transformation n’utilise pas le ou les filtres actifs.
7.15.2. Supprimer la Nature d’un champ
Supprimer la Nature présente sur un ou plusieurs champs.
La transformation s’applique sur un ou plusieurs champs.
La transformation n’utilise pas le ou les filtres actifs.
7.15.3. Découper une URL
Extraire depuis une URL, au choix : le Protocole (http, ftp, …), le Nom de domaine (www.taleofdata.com, www.google.fr, …), le Port, le Chemin ou les Paramètres depuis les URLs du champ sélectionné vers un ou plusieurs nouveaux champs.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.15.4. Décoder les URLs
Décoder chaque URL du champ sélectionné depuis le format application/x-www-form-urlencoded. Par exemple :
http%3A%2F%2Fwww.taleofdata.com
devienthttp://www.taleofdata.com
.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
7.15.5. Encoder les URLs
Encoder chaque URL du champ sélectionné dans le format application/x-www-form-urlencoded. Par exemple :
http://www.taleofdata.com
devienthttp%3A%2F%2Fwww.taleofdata.com
.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
7.15.6. Mettre en forme les prénoms
Mettre en forme les prénoms (normalisation des espaces, capitalisation) du champ sélectionné.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.15.7. Extraire nom, prénom, civilité / genre des noms complets
Extraire au choix : les Prénoms, les Noms ou les Civilités depuis un champ comportant des noms complets. Permet également de déduire les Civilités et les Genres.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.15.8. Mettre en forme les noms propres
Mettre en forme les noms propres pour le champ sélectionné.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.15.9. Mettre en forme les genres
Mettre en forme les genres selon une Locale (pays / langue) et un Format (Court, Long).
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.15.10. Mettre en forme les civilités
Mettre en forme les civilités selon une Locale (pays / langue) et un Format (Court, Long).
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.15.11. Mettre en forme les nationalités
Mettre en forme les nationalités (normalisation des espaces, capitalisation) du champ sélectionné.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.15.12. Extraire le code SIREN
Extraire le code SIREN (Système d”Identification du Répertoire des ENtreprises) d’un champ comportant des SIRET (Système d”Identification du Répertoire des ETablissements) vers un nouveau champ. L’extraction fonctionne uniquement avec des codes SIRET valides.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.16. Transformations Géographiques
7.16.1. Analyser une adresse
Analyse un à plusieurs champs contenant des adresses puis extrait chaque partie dans de nouveaux champs. Si l’adresse est répartie sur plusieurs champs, vous devez les sélectionner dans l’ordre.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
7.16.2. Convertir des codes pays
Convertir, dans le champ sélectionné, des codes pays depuis / vers la norme ISO 3166-1 [13] dans les formats suivants :
Code à 2 lettres : ISO 3166-1 alpha-2.
Code à 3 lettres : ISO 3166-1 alpha-3.
Nom de pays.
Par exemple :
Pour un code sur 2 lettres tel que FR, la conversion dans le format ISO 3166-1 alpha-3 donnera FRA.
Pour un code sur 3 lettres tel que USA, la conversion dans le format Nom de pays avec la langue Français donnera États-Unis.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.16.3. Corriger les Codes Communes INSEE dépréciés (France)
Remplacer les codes communes INSEE dépréciés par leur nouvelle valeur. Un code commune INSEE peut être déprécié pour différentes raisons, dont :
Commune « associée ».
Commune périmée.
Commune déléguée.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.16.4. Déduire des données géographiques depuis des Codes Postaux (France)
Enrichir le jeu de données courant avec des données géographiques (nom du département, code du département, nom de la région, code de la région) déduites du code postal présent dans le champ sélectionné.
Par exemple, en partant du code postal 75001, vous pouvez obtenir comme nouveaux champs :
Le code du département : 75.
Le nom du département : Paris.
Le code de la région : 11.
Le nom de la région : Île-de-France.
Astuce
Un même code postal peut correspondre à plusieurs communes.
Certains codes postaux peuvent appartenir à un département différent de celui présent dans le code.
Pour un meilleur résultat, il est conseillé d’utiliser les codes communes INSEE ou bien la combinaison code postal et nom de la ville (libellé d’acheminement).
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.16.5. Enrichir depuis des Codes Communes INSEE (France)
Enrichir le jeu de données courant avec des données géographiques provenant du Code Officiel Géographique [14] (nom de la commune, nom du département, code du département, nom de la région, code de la région) en partant du code commune INSEE présent dans le champ sélectionné.
Par exemple, en partant du code commune INSEE 75056, vous pouvez obtenir comme nouveaux champs:
Le nom de la commune : Paris.
Le code du département : 75.
Le nom du département : Paris.
Le code de la région : 11.
Le nom de la région : Île-de-France.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.16.6. Enrichir depuis des Codes Postaux (France)
Enrichir le jeu de données courant avec des données géographiques (code commune INSEE, nom de la commune, nom du département, code du département, nom de la région, code de la région) déduites du code postal et du nom de la ville (Libellé d’acheminement) présents dans les champs sélectionnés.
Par exemple, en partant du code postal 75001 et de la ville Paris, vous pouvez obtenir comme nouveaux champs :
Le code commune INSEE : 75056.
Le nom de la commune : Paris.
Le code du département : 75.
Le nom du département : Paris.
Le code de la région : 11.
Le nom de la région : Île-de-France.
La transformation s’applique sur deux champs.
La transformation utilise le ou les filtres actifs.
7.16.7. Enrichir avec les codes pays / Nom de pays
Ajouter des codes pays ou nom de pays dans un nouveau champ en exploitant les codes pays ou nom de pays à la norme ISO 3166-1 [15] présents dans le champ sélectionné, aux formats suivants :
Code à 2 lettres : ISO 3166-1 alpha-2.
Code à 3 lettres : ISO 3166-1 alpha-3.
Nom de pays.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.16.8. Géocoder une adresse
Géocoder un ou plusieurs champs contenant des adresses. Deux champs seront ajoutés pour la latitude et la longitude. Si l’adresse est répartie sur plusieurs champs, vous devez les sélectionner dans l’ordre (i.e. numéro, rue, code postal puis ville).
Pour récupérer, en plus de la latitude et de la longitude, les champs d’adresse présents dans le référentiel (e.g. numéro, nom de la voie, code postal, …), vous devez sélectionner l’option « Normaliser les adresses ».
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
7.16.9. Retrouver le pays à partir de la latitude et longitude
Cette transformation permet de retrouver le pays à partir de la latitude et de la longitude. Il est également possible d’enrichir le jeu de données avec la capitale du pays, sa zone géographique et le continent auquel il appartient.
Avertissement
Pour des raisons de performances, cette transformation utilise des polygones représentant les contours légèrement simplifiés des différents pays du monde. Il peut arriver que certains points très proches d’une frontière ne soient pas rattachés au bon pays. Le taux de réussite est de 98.9% sur le dataset GeoNames « All Countries » contenant la latitude, la longitude et le pays pour 1 552 935 lieux (fichier allCountries.zip téléchargeable ici: <https://download.geonames.org/export/zip/>).
La transformation s’applique sur un champ latitude et un champ longitude.
La transformation utilise le ou les filtres actifs.
7.16.10. Normaliser les adresses postales françaises (AFNOR NF Z 10-011)
Normaliser des adresses postales françaises selon la norme AFNOR NF Z 10-011 du 19 janvier 2013, facilitant la distribution de courrier. Cette norme répartit les adresses postales françaises en 6 champs :
CIVILITÉ - TITRE ou QUALITÉ - PRÉNOM - NOM.
N°APP ou BAL - ÉTAGE - COULOIR - ESC.
ENTRÉE - BÂTIMENT - IMMEUBLE - RÉSIDENCE.
NUMÉRO - LIBELLÉ DE LA VOIE.
LIEU DIT ou SERVICE PARTICULIER DE DISTRIBUTION.
CODE POSTAL et LOCALITÉ DE DESTINATION ou CODE CEDEX et LIBELLÉ CEDEX.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
7.16.11. Normaliser les adresses postales françaises (S42)
Normaliser des adresses postales françaises selon la norme S42. Cette norme répartit les adresses postales françaises en 10 champs :
Given name.
Surname.
Street No.
Street Name.
Street type.
Floor.
Town.
Region.
Postcode.
Country.
La transformation s’applique sur plusieurs champs.
La transformation utilise le ou les filtres actifs.
7.17. Transformations sur les numéros de téléphone
7.17.1. Extraire la zone géographique depuis un téléphone
Extraire le pays à partir des numéros de téléphone internationaux du champ sélectionné vers un nouveau champ.
Prérequis :
Un champ ayant une nature de type Numéro de téléphone international.
Seuls les numéros de téléphone internationaux valides pourront être exploités.
Format de sortie pour les pays :
Code à 2 lettres : ISO 3166-1 alpha-2.
Code à 3 lettres : ISO 3166-1 alpha-3.
Nom de pays (localisé).
Par exemple :
Format |
Langue |
Téléphone (entrée) |
Pays (sortie) |
---|---|---|---|
Code à 2 lettres |
N/A |
+33 1 02 03 04 05 |
FR |
Code à 3 lettres |
N/A |
+32 2 333 44 55 |
BEL |
Nom du pays |
anglais |
+41 22 333 44 55 |
Switzerland |
Informations complémentaires :
Format International (E.123) sur Wikipédia.
ISO 3166-1 alpha-2 sur Wikipédia.
ISO 3166-1 alpha-3 sur Wikipédia.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.17.2. Mettre en forme les numéros de téléphone
Mettre en forme les numéros de téléphone en se conformant à un patron :
Format International : +33 9 67 13 07 93.
Format National : 0967130793.
Format E.164 : +33967130793.
La transformation s’applique sur un ou plusieurs champs.
La transformation utilise le ou les filtres actifs.
7.17.3. Redresser les numéros de téléphone à l’international
Redresser les numéros de téléphone à l’international d’un champ avec des numéros de téléphone à l’aide d’un champ contenant des Code Pays (ISO 3166-1 alpha-2), Code Pays (ISO 3166-1 alpha-3) ou des Pays. Les numéros de téléphone sont redressés dans un nouveau champ.
Prérequis :
Un champ ayant une nature de type Numéro de téléphone.
Un champ ayant une nature parmi : Code Pays (ISO 3166-1 alpha-2, alpha-3) ou Nom de Pays.
Par exemple :
+33 (010) 203-0405 avec un code pays FR et un format de sortie International donnera +33 1 02 03 04 05 comme numéro de téléphone corrigé.
0102030405 avec un code pays FR et un format de sortie International donnera +33 1 02 03 04 05 comme numéro de téléphone corrigé.
+33 (010) 203-0405 avec un code pays FR et un format de sortie E.164 donnera +33102030405 comme numéro de téléphone corrigé.
Valeurs possibles de la colonne de diagnostic :
VALID : lorsque la correction s’est bien déroulée.
INVALID_FOR_REGION : lorsque le numéro de téléphone n’est pas valide pour le code pays.
INVALID_COUNTRY_CODE : lorsque le code pays est invalide.
INVALID_INPUT : lorsque ce n’est pas un numéro de téléphone.
Informations complémentaires :
Format International (E.123) sur Wikipédia.
Format E.164 sur Wikipédia.
ISO 3166-1 alpha-2 sur Wikipédia.
ISO 3166-1 alpha-3 sur Wikipédia.
La transformation s’applique sur deux champs.
La transformation utilise le ou les filtres actifs.
7.18. Transformations sur les adresses e-mail
7.18.1. Découper une adresse e-mail
Extraire depuis une adresse e-mail, au choix : le Domaine (contact@taleofdata.com, contact@gmail.com, …), la Partie locale (contact@taleofdata.com, contact@gmail.com, …) ou bien le Domaine et la Partie locale depuis les e-mails du champ sélectionné vers un ou plusieurs nouveaux champs.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.18.2. Mettre en forme les e-mails
Mettre en forme les e-mails (normalisation des espaces, suppression des accents, mise en minuscule des caractères) du champ sélectionné.
La transformation s’applique sur un unique champ.
La transformation utilise le ou les filtres actifs.
7.18.3. Vérifier la cohérence des e-mails
Vérifier l’absence de fautes dans les adresses e-mails en utilisant les champs contenant les Prénoms et les Noms de famille comme références.
Prérequis :
Un champ contenant les adresses e-mails à vérifier.
Un champ contenant les prénoms de référence.
Un champ contenant les noms de famille de référence.
Par exemple :
nom |
prénom |
email_consistency |
|
---|---|---|---|
Nom |
Prénom |
OK |
|
penompenom.nom@domain.com |
Nom |
Prénom |
FIRST_NAME_MISSPELLED |
prenom-nam@domain.com |
Name |
Prénom |
LAST_NAME_MISSPELLED |
La transformation s’applique sur trois champs.
La transformation utilise le ou les filtres actifs.