7.20. Spécifications des natures standard de Tale of Data
Les natures disponibles en standard dans Tale of Data sont décrites ci-dessous. Leur usage apparaît principalement dans les sections suivantes de la plateforme:
dans le Mass Data Discovery (scan automatique de Data Discovery pour une collection de systèmes contenant des tables ou des fichiers de données). La nature est inférée automatiquement pour une colonne lorsqu’il apparaît plausible qu’elle contient des données d’une certaine nature (par exemple des adresses email ou des noms de pays). L’approche des mécanismes d’inférence sont décrits pour chaque nature dans les spécifications ci-dessous.
dans l”éditeur de préparation, qui permet:
de visualiser les natures qui ont été inférées par Tale of Data sur certaines colonnes
d’assigner des natures aux champs
de filtrer, d’explorer et de transformer les données sous conditions qu’elles soient valides ou non pour la nature portée par la ou les colonnes concernées
dans le paramétrage du nœud de validation, qui permet de séparer des autres lignes les données dont une ou plusieurs colonnes sont de nature valide ou non (au cas par cas).
7.20.1. Natures bancaires
7.20.1.1. IBAN
- Définition
 L’International Bank Account Number, généralement nommé sous l’acronyme IBAN, quelquefois connu dans les établissements travaillant en langue française sous les termes de Numéro international de compte bancaire, est un système international de numérotation de comptes bancaires complémentaire du BIC, acronyme de Bank Identifier Code, du réseau Swift1.
- Inférence et contrôle de validité
 Après un contrôle de longueur simple, les principes de validité décrits sur https://en.wikipedia.org/wiki/International_Bank_Account_Number. Les codes pays iso supportés sont FR et GB.
- Mot clé pour désigner cette nature dans les exports du MDD
 iban
7.20.1.2. RIB (Relevé d’Identité Bancaire)
- Définition
 Le Basic Bank Account Number (BBAN, litt. « numéro de compte bancaire basique ») ou relevé d’identité bancaire (RIB) est en France une suite de chiffres délivré par la banque et qui indique de manière unique un compte bancaire au niveau national. Il est remis à un débiteur ou un créancier dans le but d’opérer des virements bancaires ou des prélèvements bancaires à partir de ce compte.
- Inférence et contrôle de validité
 Le contrôle est réalisé sur le nombre de caractères et la nature des caractères qui composent le champ. Plus de détails sur le principe de validité sont disponibles sur https://fr.wikipedia.org/wiki/Basic_Bank_Account_Number
- Mot clé pour désigner cette nature dans les exports du MDD
 rib
7.20.2. Télécommunications
7.20.2.1. Email
- Définition
 Une adresse email comporte:
une partie locale, identifiant généralement une personne (lucas, Jean.Dupont, joe123) ou un nom de service (info, vente, postmaster) ;
le caractère séparateur
@(arobase), signifiant at (« à » ou « chez ») en anglais ;l’adresse du serveur, généralement un nom de domaine identifiant l’organisme (entreprise, association, mairie, université, voire individu) hébergeant la boîte électronique (exemple.net, exemple.com, exemple.org).
Plus de détails sont disponibles sur https://fr.wikipedia.org/wiki/Adresse_%C3%A9lectronique
- Inférence et contrôle de validité
 La validité de l’e-mail repose essentiellement sur :
la validité des caractères présents (minuscules et symboles) ainsi que l’atteinte d’une longueur de champ comprise entre la longueur minimale et la longueur maximale.
la séparation en deux parties à l’aide de l’arobase.
la validité a priori de l’adresse du serveur domaine, par exemple à travers son format d’ensemble, et aussi l’appartenance de son Top Level Domain à la liste de TLDs connus.
- Mot clé pour désigner cette nature dans les exports du MDD
 e_mail
7.20.2.2. Adresse IPv4
- Définition
 Adresse IP version 4. Une description complète de cette nature de données peut être trouvée ici: https://fr.wikipedia.org/wiki/Adresse_IP
- Inférence et contrôle de validité
 La validité de l’adresse IPv4 repose sur :
la longueur du champ.
la présence de quatre nombres entre 0 et 255 séparés par des points.
- Mot clé pour désigner cette nature dans les exports du MDD
 ipv4_address
7.20.2.3. Url
- Définition
 Une URL est une chaîne de caractères uniforme qui permet d’identifier une ressource du World Wide Web par son emplacement et de préciser le protocole internet pour la récupérer (par exemple http ou https). Une description complète de cette nature de données peut être trouvée ici: https://fr.wikipedia.org/wiki/Uniform_Resource_Locator .
- Inférence et contrôle de validité
 Le contrôle de validité repose sur la plausibilité de la longueur de la chaîne, ainsi que la présence du caractère
:vers le début de la chaîne.- Mot clé pour désigner cette nature dans les exports du MDD
 url
7.20.3. Administration française
7.20.3.2. Code INSEE de commune
- Définition
 Le code commune contient cinq chiffres ou lettres (concaténation du code département et de la codification sur trois chiffres de la commune ou de l’arrondissement municipal à Paris, Lyon et Marseille, ou sur deux chiffres pour les communes en outre-mer). Il est le plus employé dans les données statistiques de l’Insee, et est utilisé aussi dans les numéros d’identité et d’état-civil des personnes physiques (voir ci-dessus). Plus d’informations sont disponibles sur https://fr.wikipedia.org/wiki/Code_Insee .
- Inférence et contrôle de validité
 Un contrôle de longueur et de bonne appartenance à la liste des codes valides est effectué.
- Mot clé pour désigner cette nature dans les exports du MDD
 insee_commune_code
7.20.3.3. Identifiant Demandeur d’Emploi
- Définition
 Composé de 8 à 12 caractères, l’identifiant demandeur d’emploi est créé par France Travail et est propre à chaque demandeur d’emploi. Plus d’informations sont disponibles sur https://www.netpublic.fr/travail/retrouver-identifiant-pole-emploi/ .
- Inférence et contrôle de validité
 Le contrôle s’effectue à l’aide de la longueur de la chaîne, la validité de la clé régionale attendue dans les trois premiers caractères, ainsi que le type des caractères du reste de la chaîne.
- Mot clé pour désigner cette nature dans les exports du MDD
 pole_emploi_id
7.20.3.4. SIREN
- Définition
 En France, le Système d’Identification du Répertoire des ENtreprises, ou numéro SIREN est un code Insee unique qui sert à identifier une entreprise, un organisme public ou privé, une personne physique ayant une activité économique indépendante non salariée ou une association ayant des activités en France. Plus d’informations sont disponibles sur https://fr.wikipedia.org/wiki/Syst%C3%A8me_d%27identification_du_r%C3%A9pertoire_des_entreprises .
- Inférence et contrôle de validité
 Le contrôle s’appuie sur la longueur de la chaîne et la nature numérique de son contenu. Une vérification algorithmique est faite avec l’algorithme de Luhn.
- Mot clé pour désigner cette nature dans les exports du MDD
 siren
7.20.3.5. SIRET
- Définition
 Le Système d’Identification du Répertoire des ÉTablissements, ou numéro SIRET1 est un code Insee permettant l’identification d’un établissement ou d’une entreprise française. Plus d’informations sont disponibles sur https://fr.wikipedia.org/wiki/Syst%C3%A8me_d%27identification_du_r%C3%A9pertoire_des_%C3%A9tablissements .
- Inférence et contrôle de validité
 Le contrôle s’appuie sur la longueur de la chaîne et la nature numérique de son contenu. Une vérification algorithmique est faite avec l’algorithme de Luhn.
- Mot clé pour désigner cette nature dans les exports du MDD
 siret
7.20.4. Natures géographiques
7.20.4.1. Pays
- Définition
 Cette nature représente le nom usuel d’un pays. Il est très proche du standard ISO 31661-1 alpha-2. Plus de renseignements sont disponibles sur https://en.wikipedia.org/wiki/ISO_3166-1 .
- Inférence et contrôle de validité
 Un premier contrôle repose sur l’atteinte d’une longueur de chaîne valide. Ensuite, la forme candidate est rapprochée d’une liste de pays en provenance du standard ISO 31661-1 alpha-2, en omettant les diacritiques dans les noms de pays.
- Mot clé pour désigner cette nature dans les exports du MDD
 country_name
7.20.4.2. Supplément de numéro de voie française
- Définition
 Cette nature représente un supplément de numéro de voie française, par exemple « bis » ou « ter ».
- Inférence et contrôle de validité
 Les valeurs admises (en ignorant la casse) sont:
bis
ter
quater
quinquines
- Mot clé pour désigner cette nature dans les exports du MDD
 french_street_number_complement
7.20.4.3. Voie française
- Définition
 Cette nature représente un type de voie française, par exemple « rue » ou « avenue ».
- Inférence et contrôle de validité
 Un rapprochement est fait avec une base de données de types connus (par exemple « Terre-plein », au total une soixantaine) ainsi que de leurs abréviations usuellement constatées (typiquement 4 à 5 abbréviations par type).
- Mot clé pour désigner cette nature dans les exports du MDD
 french_street_type
7.20.4.4. Code postal français
- Définition
 Cette nature représente un code postal français.
- Inférence et contrôle de validité
 Un contrôle est fait sur la longueur, qui doit être de 5 caractères. Le champ est ensuite rapproché de la base de données des codes postaux valides.
- Mot clé pour désigner cette nature dans les exports du MDD
 french_zip_code
7.20.4.5. Code Pays (ISO 3166-1 alpha-2)
- Définition
 Cette nature représente un pays code pays suivant le standard ISO 31661-1 alpha-2. Plus de renseignements sont disponibles sur https://en.wikipedia.org/wiki/ISO_3166-1 .
- Inférence et contrôle de validité
 Un contrôle est fait sur la longueur, qui doit être de 2 caractères. Le champ est ensuite rapproché de la base de données de codes pays valides.
- Mot clé pour désigner cette nature dans les exports du MDD
 iso31661alpha2
7.20.4.6. Code Pays (ISO 3166-1 alpha-3)
- Définition
 Cette nature représente un pays code pays suivant le standard ISO 31661-1 alpha-3. Plus de renseignements sont disponibles sur https://en.wikipedia.org/wiki/ISO_3166-1 .
- Inférence et contrôle de validité
 Un contrôle est fait sur la longueur, qui doit être de 3 caractères. Le champ est ensuite rapproché de la base de données de codes pays valides.
- Mot clé pour désigner cette nature dans les exports du MDD
 iso31661alpha3
7.20.5. Codes GTIN et ISBN
7.20.5.1. GTIN-8
- Définition
 Global Trade Item Number de longueur 8. Le Global Trade Item Number (GTIN) ou code article international en français est un code identifiant toute unité commerciale (unité consommateur ou unité standard de regroupement…) de façon internationale et unique. Cette catégorie correspond par exemple à des codes présents sur des code à barres de produits de consommation courante. Plus d’informations sont disponibles sur https://en.wikipedia.org/wiki/Global_Trade_Item_Number .
- Inférence et contrôle de validité
 Le contrôle de validité suit les principes expliqués sur http://www.gtin.info
- Mot clé pour désigner cette nature dans les exports du MDD
 gtin.format.gtin_8
7.20.5.2. GTIN-12
- Définition
 Global Trade Item Number de longueur 12. Le Global Trade Item Number (GTIN) ou code article international en français est un code identifiant toute unité commerciale (unité consommateur ou unité standard de regroupement…) de façon internationale et unique. Cette catégorie correspond par exemple à des codes présents sur des code à barres de produits de consommation courante. Plus d’informations sont disponibles sur https://en.wikipedia.org/wiki/Global_Trade_Item_Number .
- Inférence et contrôle de validité
 Le contrôle de validité suit les principes expliqués sur http://www.gtin.info
- Mot clé pour désigner cette nature dans les exports du MDD
 gtin.format.gtin_12
7.20.5.3. GTIN-13
- Définition
 Global Trade Item Number de longueur 13. Le Global Trade Item Number (GTIN) ou code article international en français est un code identifiant toute unité commerciale (unité consommateur ou unité standard de regroupement…) de façon internationale et unique. Cette catégorie correspond par exemple à des codes présents sur des code à barres de produits de consommation courante. Plus d’informations sont disponibles sur https://en.wikipedia.org/wiki/Global_Trade_Item_Number .
- Inférence et contrôle de validité
 Le contrôle de validité suit les principes expliqués sur http://www.gtin.info
- Mot clé pour désigner cette nature dans les exports du MDD
 gtin.format.gtin_13
7.20.5.4. GTIN-14
- Définition
 Global Trade Item Number de longueur 14. Le Global Trade Item Number (GTIN) ou code article international en français est un code identifiant toute unité commerciale (unité consommateur ou unité standard de regroupement…) de façon internationale et unique. Cette catégorie correspond par exemple à des codes présents sur des code à barres de produits de consommation courante. Plus d’informations sont disponibles sur https://en.wikipedia.org/wiki/Global_Trade_Item_Number .
- Inférence et contrôle de validité
 Le contrôle de validité suit les principes expliqués sur http://www.gtin.info
- Mot clé pour désigner cette nature dans les exports du MDD
 gtin.format.gtin_14
7.20.5.5. ISBN-10
- Définition
 L’International Standard Book Number (ISBN) ou Numéro international normalisé du livre est un numéro internationalement reconnu, créé en 1970, identifiant de manière unique chaque édition de chaque livre publié, postérieurement à l’introduction de l’ISBN, quel que soit son support. En 2007, le numéro ISBN est passé de 10 à 13 chiffres pour compatibilité avec le code-produit GTIN-13. Plus d’informations sont disponibles sur http://fr.wikipedia.org/wiki/ISBN .
- Inférence et contrôle de validité
 Le contrôle de validité suit les principes posés dans http://fr.wikipedia.org/wiki/ISBN .
- Mot clé pour désigner cette nature dans les exports du MDD
 isbn
7.20.6. Données à caractère personnel
7.20.6.1. Civilité anglaise
- Définition
 Détection de civilités abrégées en langue anglaise.
- Inférence et contrôle de validité
 Comparaison par rapport aux références « Miss », « Ms » et « Mr ».
- Mot clé pour désigner cette nature dans les exports du MDD
 english_civility
7.20.6.2. Civilité anglaise longue
- Définition
 Détection de civilités en format long en langue anglaise.
- Inférence et contrôle de validité
 Comparaison par rapport aux références « Miss », « Mrs », « Mister », « Master » et « “Mistress ».
- Mot clé pour désigner cette nature dans les exports du MDD
 english_long_civility
7.20.6.3. Genre anglais long
- Définition
 Détection de genres en format long en langue anglaise.
- Inférence et contrôle de validité
 Comparaison par rapport aux références « Male », « Female » et « Undefined ».
- Mot clé pour désigner cette nature dans les exports du MDD
 english_long_gender
7.20.6.4. Nationalité en anglais
- Définition
 Détection des nationalités en langue anglaise.
- Inférence et contrôle de validité
 Comparaison par rapport à un dictionnaire de plus de 200 nationalités (par exemple « Dutch » ou « Sudanese »).
- Mot clé pour désigner cette nature dans les exports du MDD
 english_nationality
7.20.6.5. Genre anglais
- Définition
 Détection de genres en format abrégé en langue anglaise.
- Inférence et contrôle de validité
 Comparaison par rapport aux références « M », « F » et « U ».
- Mot clé pour désigner cette nature dans les exports du MDD
 english_short_gender
7.20.6.6. Prénom
- Définition
 Détection de prénoms et de leur genre(s) possible(s).
- Inférence et contrôle de validité
 Comparaison par rapport à un dictionnaire de prénoms anglais et français (totalisant plus de 35000 prénoms), classifiés par genre.
- Mot clé pour désigner cette nature dans les exports du MDD
 firstname
7.20.6.7. Civilité française longue
- Définition
 Détection de civilités en format long en langue française.
- Inférence et contrôle de validité
 Comparaison par rapport aux références « Madame », « Mademoiselle » et « Monsieur ».
- Mot clé pour désigner cette nature dans les exports du MDD
 french_long_civility
7.20.6.8. Genre français long
- Définition
 Détection de genres en format long en langue française.
- Inférence et contrôle de validité
 Comparaison (sans casse et sans accents) par rapport aux références « feminin », « masculin », « femme », « homme », « inconnu », « indefini », pour ce qui est de la détection. Pour le contrôle, un format capitalisé est vérifié.
- Mot clé pour désigner cette nature dans les exports du MDD
 french_long_gender
7.20.6.9. Nationalité en français
- Définition
 Détection des nationalités en langue française.
- Inférence et contrôle de validité
 Comparaison par rapport à un dictionnaire de plus de 400 nationalités genrées (par exemple « Émirienne » ou « Nicaraguayen »).
- Mot clé pour désigner cette nature dans les exports du MDD
 french_nationality
7.20.6.10. Civilité française
- Définition
 Détection de civilités abrégées en langue française.
- Inférence et contrôle de validité
 Comparaison par rapport aux références « Mme », « Mlle » et « M. ». Capacité de détecter des variantes lors de l’inférence de type.
- Mot clé pour désigner cette nature dans les exports du MDD
 french_short_civility
7.20.6.11. Genre français
- Définition
 Détection de genres en format abrégé en langue française.
- Inférence et contrôle de validité
 Comparaison par rapport aux références « H », « F » et « I ».
- Mot clé pour désigner cette nature dans les exports du MDD
 french_short_gender
7.20.6.12. Nom complet
- Définition
 Détection de noms complets (contenant un nom de famille et un prénom).
- Inférence et contrôle de validité
 Longueur comprise entre 6 et 69 caractères, uniquement des caractères alphabétiques. Un ou deux prénoms et de 1 à 5 mots significatifs.
- Mot clé pour désigner cette nature dans les exports du MDD
 fullname
7.20.6.13. Nom de famille
- Définition
 Détection de noms de famille.
- Inférence et contrôle de validité
 Comparaison avec des dictionnaires de référence de noms de famille et de termes à ne pas considérer comme un nom de famille.
- Mot clé pour désigner cette nature dans les exports du MDD
 lastname
7.20.6.14. Numéro de téléphone anglais international
- Définition
 Représente des numéros de téléphones britanniques codés en +44, en format international.
- Inférence et contrôle de validité
 Vérification de la chaîne de commencement +44 et la plausibilité de la longueur du champ.
- Mot clé pour désigner cette nature dans les exports du MDD
 british_international_phone_number
7.20.6.15. Numéro de téléphone français international
- Définition
 Représente des numéros de téléphones français codés en +33, en format international.
- Inférence et contrôle de validité
 Vérification de la chaîne de commencement +33 et la plausibilité de la longueur du champ.
- Mot clé pour désigner cette nature dans les exports du MDD
 french_international_phone_number
7.20.6.16. Numéro de téléphone français national
- Définition
 Représente des numéros de téléphones français, en format national (par exemple commençant par 06 et à 10 chiffres).
- Inférence et contrôle de validité
 Vérification que la structure correspond bien à celle d’un numéro de téléphone français en format national.
- Mot clé pour désigner cette nature dans les exports du MDD
 french_national_phone_number
7.20.6.17. Numéro de téléphone (format E.164)
- Définition
 Représente des numéros de téléphones dans un format international. La liste des indicatifs téléphoniques internationaux applicables est établie par l’Union internationale des télécommunications, dans sa recommandation UIT-T E.1641 et ses annexes, qui sont régulièrement mises à jour. Plus de renseignements sont disponibles sur https://en.wikipedia.org/wiki/E.164 .
- Inférence et contrôle de validité
 Vérification de la plausibilité de la longueur. Vérification de la présence et de la validité de l’indicatif.
- Mot clé pour désigner cette nature dans les exports du MDD
 e164_format_phone_number
7.20.6.18. Numéro de téléphone international des Etats-Unis
- Définition
 Représente des numéros de téléphones américains codés en +1, en format international.
- Inférence et contrôle de validité
 Vérification de la chaîne de commencement +1 et la plausibilité de la longueur du champ.
- Mot clé pour désigner cette nature dans les exports du MDD
 us_international_phone_number
7.20.6.19. Numéro de téléphone national des Etats-Unis
- Définition
 Représente des numéros de téléphones américains, en format national.
- Inférence et contrôle de validité
 Vérification que la structure correspond bien à celle d’un numéro de téléphone américain en format national, par exemple avec un area code et une longueur valide.
- Mot clé pour désigner cette nature dans les exports du MDD
 us_national_phone_number