7.20. Spécifications des natures standard de Tale of Data
Les natures disponibles en standard dans Tale of Data sont décrites ci-dessous. Leur usage apparaît principalement dans les sections suivantes de la plateforme:
dans le Mass Data Discovery (scan automatique de Data Discovery pour une collection de systèmes contenant des tables ou des fichiers de données). La nature est inférée automatiquement pour une colonne lorsqu’il apparaît plausible qu’elle contient des données d’une certaine nature (par exemple des adresses email ou des noms de pays). L’approche des mécanismes d’inférence sont décrits pour chaque nature dans les spécifications ci-dessous.
dans l”éditeur de préparation, qui permet:
de visualiser les natures qui ont été inférées par Tale of Data sur certaines colonnes
d’assigner des natures aux champs
de filtrer, d’explorer et de transformer les données sous conditions qu’elles soient valides ou non pour la nature portée par la ou les colonnes concernées
dans le paramétrage du nœud de validation, qui permet de séparer des autres lignes les données dont une ou plusieurs colonnes sont de nature valide ou non (au cas par cas).
7.20.1. Natures bancaires
7.20.1.1. IBAN
- Définition
L’International Bank Account Number, généralement nommé sous l’acronyme IBAN, quelquefois connu dans les établissements travaillant en langue française sous les termes de Numéro international de compte bancaire, est un système international de numérotation de comptes bancaires complémentaire du BIC, acronyme de Bank Identifier Code, du réseau Swift1.
- Inférence et contrôle de validité
Après un contrôle de longueur simple, les principes de validité décrits sur https://en.wikipedia.org/wiki/International_Bank_Account_Number. Les codes pays iso supportés sont FR et GB.
- Mot clé pour désigner cette nature dans les exports du MDD
iban
7.20.1.2. RIB (Relevé d’Identité Bancaire)
- Définition
Le Basic Bank Account Number (BBAN, litt. « numéro de compte bancaire basique ») ou relevé d’identité bancaire (RIB) est en France une suite de chiffres délivré par la banque et qui indique de manière unique un compte bancaire au niveau national. Il est remis à un débiteur ou un créancier dans le but d’opérer des virements bancaires ou des prélèvements bancaires à partir de ce compte.
- Inférence et contrôle de validité
Le contrôle est réalisé sur le nombre de caractères et la nature des caractères qui composent le champ. Plus de détails sur le principe de validité sont disponibles sur https://fr.wikipedia.org/wiki/Basic_Bank_Account_Number
- Mot clé pour désigner cette nature dans les exports du MDD
rib
7.20.2. Télécommunications
7.20.2.1. Email
- Définition
Une adresse email comporte:
une partie locale, identifiant généralement une personne (lucas, Jean.Dupont, joe123) ou un nom de service (info, vente, postmaster) ;
le caractère séparateur
@
(arobase), signifiant at (« à » ou « chez ») en anglais ;l’adresse du serveur, généralement un nom de domaine identifiant l’organisme (entreprise, association, mairie, université, voire individu) hébergeant la boîte électronique (exemple.net, exemple.com, exemple.org).
Plus de détails sont disponibles sur https://fr.wikipedia.org/wiki/Adresse_%C3%A9lectronique
- Inférence et contrôle de validité
La validité de l’e-mail repose essentiellement sur :
la validité des caractères présents (minuscules et symboles) ainsi que l’atteinte d’une longueur de champ comprise entre la longueur minimale et la longueur maximale.
la séparation en deux parties à l’aide de l’arobase.
la validité a priori de l’adresse du serveur domaine, par exemple à travers son format d’ensemble, et aussi l’appartenance de son Top Level Domain à la liste de TLDs connus.
- Mot clé pour désigner cette nature dans les exports du MDD
e_mail
7.20.2.2. Adresse IPv4
- Définition
Adresse IP version 4. Une description complète de cette nature de données peut être trouvée ici: https://fr.wikipedia.org/wiki/Adresse_IP
- Inférence et contrôle de validité
La validité de l’adresse IPv4 repose sur :
la longueur du champ.
la présence de quatre nombres entre 0 et 255 séparés par des points.
- Mot clé pour désigner cette nature dans les exports du MDD
ipv4_address
7.20.2.3. Url
- Définition
Une URL est une chaîne de caractères uniforme qui permet d’identifier une ressource du World Wide Web par son emplacement et de préciser le protocole internet pour la récupérer (par exemple http ou https). Une description complète de cette nature de données peut être trouvée ici: https://fr.wikipedia.org/wiki/Uniform_Resource_Locator .
- Inférence et contrôle de validité
Le contrôle de validité repose sur la plausibilité de la longueur de la chaîne, ainsi que la présence du caractère
:
vers le début de la chaîne.- Mot clé pour désigner cette nature dans les exports du MDD
url
7.20.3. Administration française
7.20.3.2. Code INSEE de commune
- Définition
Le code commune contient cinq chiffres ou lettres (concaténation du code département et de la codification sur trois chiffres de la commune ou de l’arrondissement municipal à Paris, Lyon et Marseille, ou sur deux chiffres pour les communes en outre-mer). Il est le plus employé dans les données statistiques de l’Insee, et est utilisé aussi dans les numéros d’identité et d’état-civil des personnes physiques (voir ci-dessus). Plus d’informations sont disponibles sur https://fr.wikipedia.org/wiki/Code_Insee .
- Inférence et contrôle de validité
Un contrôle de longueur et de bonne appartenance à la liste des codes valides est effectué.
- Mot clé pour désigner cette nature dans les exports du MDD
insee_commune_code
7.20.3.3. Identifiant Demandeur d’Emploi
- Définition
Composé de 8 à 12 caractères, l’identifiant demandeur d’emploi est créé par France Travail et est propre à chaque demandeur d’emploi. Plus d’informations sont disponibles sur https://www.netpublic.fr/travail/retrouver-identifiant-pole-emploi/ .
- Inférence et contrôle de validité
Le contrôle s’effectue à l’aide de la longueur de la chaîne, la validité de la clé régionale attendue dans les trois premiers caractères, ainsi que le type des caractères du reste de la chaîne.
- Mot clé pour désigner cette nature dans les exports du MDD
pole_emploi_id
7.20.3.4. SIREN
- Définition
En France, le Système d’Identification du Répertoire des ENtreprises, ou numéro SIREN est un code Insee unique qui sert à identifier une entreprise, un organisme public ou privé, une personne physique ayant une activité économique indépendante non salariée ou une association ayant des activités en France. Plus d’informations sont disponibles sur https://fr.wikipedia.org/wiki/Syst%C3%A8me_d%27identification_du_r%C3%A9pertoire_des_entreprises .
- Inférence et contrôle de validité
Le contrôle s’appuie sur la longueur de la chaîne et la nature numérique de son contenu. Une vérification algorithmique est faite avec l’algorithme de Luhn.
- Mot clé pour désigner cette nature dans les exports du MDD
siren
7.20.3.5. SIRET
- Définition
Le Système d’Identification du Répertoire des ÉTablissements, ou numéro SIRET1 est un code Insee permettant l’identification d’un établissement ou d’une entreprise française. Plus d’informations sont disponibles sur https://fr.wikipedia.org/wiki/Syst%C3%A8me_d%27identification_du_r%C3%A9pertoire_des_%C3%A9tablissements .
- Inférence et contrôle de validité
Le contrôle s’appuie sur la longueur de la chaîne et la nature numérique de son contenu. Une vérification algorithmique est faite avec l’algorithme de Luhn.
- Mot clé pour désigner cette nature dans les exports du MDD
siret
7.20.4. Natures géographiques
7.20.4.1. Pays
- Définition
Cette nature représente le nom usuel d’un pays. Il est très proche du standard ISO 31661-1 alpha-2. Plus de renseignements sont disponibles sur https://en.wikipedia.org/wiki/ISO_3166-1 .
- Inférence et contrôle de validité
Un premier contrôle repose sur l’atteinte d’une longueur de chaîne valide. Ensuite, la forme candidate est rapprochée d’une liste de pays en provenance du standard ISO 31661-1 alpha-2, en omettant les diacritiques dans les noms de pays.
- Mot clé pour désigner cette nature dans les exports du MDD
country_name
7.20.4.2. Supplément de numéro de voie française
- Définition
Cette nature représente un supplément de numéro de voie française, par exemple « bis » ou « ter ».
- Inférence et contrôle de validité
Les valeurs admises (en ignorant la casse) sont:
bis
ter
quater
quinquines
- Mot clé pour désigner cette nature dans les exports du MDD
french_street_number_complement
7.20.4.3. Voie française
- Définition
Cette nature représente un type de voie française, par exemple « rue » ou « avenue ».
- Inférence et contrôle de validité
Un rapprochement est fait avec une base de données de types connus (par exemple « Terre-plein », au total une soixantaine) ainsi que de leurs abréviations usuellement constatées (typiquement 4 à 5 abbréviations par type).
- Mot clé pour désigner cette nature dans les exports du MDD
french_street_type
7.20.4.4. Code postal français
- Définition
Cette nature représente un code postal français.
- Inférence et contrôle de validité
Un contrôle est fait sur la longueur, qui doit être de 5 caractères. Le champ est ensuite rapproché de la base de données des codes postaux valides.
- Mot clé pour désigner cette nature dans les exports du MDD
french_zip_code
7.20.4.5. Code Pays (ISO 3166-1 alpha-2)
- Définition
Cette nature représente un pays code pays suivant le standard ISO 31661-1 alpha-2. Plus de renseignements sont disponibles sur https://en.wikipedia.org/wiki/ISO_3166-1 .
- Inférence et contrôle de validité
Un contrôle est fait sur la longueur, qui doit être de 2 caractères. Le champ est ensuite rapproché de la base de données de codes pays valides.
- Mot clé pour désigner cette nature dans les exports du MDD
iso31661alpha2
7.20.4.6. Code Pays (ISO 3166-1 alpha-3)
- Définition
Cette nature représente un pays code pays suivant le standard ISO 31661-1 alpha-3. Plus de renseignements sont disponibles sur https://en.wikipedia.org/wiki/ISO_3166-1 .
- Inférence et contrôle de validité
Un contrôle est fait sur la longueur, qui doit être de 3 caractères. Le champ est ensuite rapproché de la base de données de codes pays valides.
- Mot clé pour désigner cette nature dans les exports du MDD
iso31661alpha3
7.20.5. Codes GTIN et ISBN
7.20.5.1. GTIN-8
- Définition
Global Trade Item Number de longueur 8. Le Global Trade Item Number (GTIN) ou code article international en français est un code identifiant toute unité commerciale (unité consommateur ou unité standard de regroupement…) de façon internationale et unique. Cette catégorie correspond par exemple à des codes présents sur des code à barres de produits de consommation courante. Plus d’informations sont disponibles sur https://en.wikipedia.org/wiki/Global_Trade_Item_Number .
- Inférence et contrôle de validité
Le contrôle de validité suit les principes expliqués sur http://www.gtin.info
- Mot clé pour désigner cette nature dans les exports du MDD
gtin.format.gtin_8
7.20.5.2. GTIN-12
- Définition
Global Trade Item Number de longueur 12. Le Global Trade Item Number (GTIN) ou code article international en français est un code identifiant toute unité commerciale (unité consommateur ou unité standard de regroupement…) de façon internationale et unique. Cette catégorie correspond par exemple à des codes présents sur des code à barres de produits de consommation courante. Plus d’informations sont disponibles sur https://en.wikipedia.org/wiki/Global_Trade_Item_Number .
- Inférence et contrôle de validité
Le contrôle de validité suit les principes expliqués sur http://www.gtin.info
- Mot clé pour désigner cette nature dans les exports du MDD
gtin.format.gtin_12
7.20.5.3. GTIN-13
- Définition
Global Trade Item Number de longueur 13. Le Global Trade Item Number (GTIN) ou code article international en français est un code identifiant toute unité commerciale (unité consommateur ou unité standard de regroupement…) de façon internationale et unique. Cette catégorie correspond par exemple à des codes présents sur des code à barres de produits de consommation courante. Plus d’informations sont disponibles sur https://en.wikipedia.org/wiki/Global_Trade_Item_Number .
- Inférence et contrôle de validité
Le contrôle de validité suit les principes expliqués sur http://www.gtin.info
- Mot clé pour désigner cette nature dans les exports du MDD
gtin.format.gtin_13
7.20.5.4. GTIN-14
- Définition
Global Trade Item Number de longueur 14. Le Global Trade Item Number (GTIN) ou code article international en français est un code identifiant toute unité commerciale (unité consommateur ou unité standard de regroupement…) de façon internationale et unique. Cette catégorie correspond par exemple à des codes présents sur des code à barres de produits de consommation courante. Plus d’informations sont disponibles sur https://en.wikipedia.org/wiki/Global_Trade_Item_Number .
- Inférence et contrôle de validité
Le contrôle de validité suit les principes expliqués sur http://www.gtin.info
- Mot clé pour désigner cette nature dans les exports du MDD
gtin.format.gtin_14
7.20.5.5. ISBN-10
- Définition
L’International Standard Book Number (ISBN) ou Numéro international normalisé du livre est un numéro internationalement reconnu, créé en 1970, identifiant de manière unique chaque édition de chaque livre publié, postérieurement à l’introduction de l’ISBN, quel que soit son support. En 2007, le numéro ISBN est passé de 10 à 13 chiffres pour compatibilité avec le code-produit GTIN-13. Plus d’informations sont disponibles sur http://fr.wikipedia.org/wiki/ISBN .
- Inférence et contrôle de validité
Le contrôle de validité suit les principes posés dans http://fr.wikipedia.org/wiki/ISBN .
- Mot clé pour désigner cette nature dans les exports du MDD
isbn
7.20.6. Données à caractère personnel
7.20.6.1. Civilité anglaise
- Définition
Détection de civilités abrégées en langue anglaise.
- Inférence et contrôle de validité
Comparaison par rapport aux références « Miss », « Ms » et « Mr ».
- Mot clé pour désigner cette nature dans les exports du MDD
english_civility
7.20.6.2. Civilité anglaise longue
- Définition
Détection de civilités en format long en langue anglaise.
- Inférence et contrôle de validité
Comparaison par rapport aux références « Miss », « Mrs », « Mister », « Master » et « “Mistress ».
- Mot clé pour désigner cette nature dans les exports du MDD
english_long_civility
7.20.6.3. Genre anglais long
- Définition
Détection de genres en format long en langue anglaise.
- Inférence et contrôle de validité
Comparaison par rapport aux références « Male », « Female » et « Undefined ».
- Mot clé pour désigner cette nature dans les exports du MDD
english_long_gender
7.20.6.4. Nationalité en anglais
- Définition
Détection des nationalités en langue anglaise.
- Inférence et contrôle de validité
Comparaison par rapport à un dictionnaire de plus de 200 nationalités (par exemple « Dutch » ou « Sudanese »).
- Mot clé pour désigner cette nature dans les exports du MDD
english_nationality
7.20.6.5. Genre anglais
- Définition
Détection de genres en format abrégé en langue anglaise.
- Inférence et contrôle de validité
Comparaison par rapport aux références « M », « F » et « U ».
- Mot clé pour désigner cette nature dans les exports du MDD
english_short_gender
7.20.6.6. Prénom
- Définition
Détection de prénoms et de leur genre(s) possible(s).
- Inférence et contrôle de validité
Comparaison par rapport à un dictionnaire de prénoms anglais et français (totalisant plus de 35000 prénoms), classifiés par genre.
- Mot clé pour désigner cette nature dans les exports du MDD
firstname
7.20.6.7. Civilité française longue
- Définition
Détection de civilités en format long en langue française.
- Inférence et contrôle de validité
Comparaison par rapport aux références « Madame », « Mademoiselle » et « Monsieur ».
- Mot clé pour désigner cette nature dans les exports du MDD
french_long_civility
7.20.6.8. Genre français long
- Définition
Détection de genres en format long en langue française.
- Inférence et contrôle de validité
Comparaison (sans casse et sans accents) par rapport aux références « feminin », « masculin », « femme », « homme », « inconnu », « indefini », pour ce qui est de la détection. Pour le contrôle, un format capitalisé est vérifié.
- Mot clé pour désigner cette nature dans les exports du MDD
french_long_gender
7.20.6.9. Nationalité en français
- Définition
Détection des nationalités en langue française.
- Inférence et contrôle de validité
Comparaison par rapport à un dictionnaire de plus de 400 nationalités genrées (par exemple « Émirienne » ou « Nicaraguayen »).
- Mot clé pour désigner cette nature dans les exports du MDD
french_nationality
7.20.6.10. Civilité française
- Définition
Détection de civilités abrégées en langue française.
- Inférence et contrôle de validité
Comparaison par rapport aux références « Mme », « Mlle » et « M. ». Capacité de détecter des variantes lors de l’inférence de type.
- Mot clé pour désigner cette nature dans les exports du MDD
french_short_civility
7.20.6.11. Genre français
- Définition
Détection de genres en format abrégé en langue française.
- Inférence et contrôle de validité
Comparaison par rapport aux références « H », « F » et « I ».
- Mot clé pour désigner cette nature dans les exports du MDD
french_short_gender
7.20.6.12. Nom complet
- Définition
Détection de noms complets (contenant un nom de famille et un prénom).
- Inférence et contrôle de validité
Longueur comprise entre 6 et 69 caractères, uniquement des caractères alphabétiques. Un ou deux prénoms et de 1 à 5 mots significatifs.
- Mot clé pour désigner cette nature dans les exports du MDD
fullname
7.20.6.13. Nom de famille
- Définition
Détection de noms de famille.
- Inférence et contrôle de validité
Comparaison avec des dictionnaires de référence de noms de famille et de termes à ne pas considérer comme un nom de famille.
- Mot clé pour désigner cette nature dans les exports du MDD
lastname
7.20.6.14. Numéro de téléphone anglais international
- Définition
Représente des numéros de téléphones britanniques codés en +44, en format international.
- Inférence et contrôle de validité
Vérification de la chaîne de commencement +44 et la plausibilité de la longueur du champ.
- Mot clé pour désigner cette nature dans les exports du MDD
british_international_phone_number
7.20.6.15. Numéro de téléphone français international
- Définition
Représente des numéros de téléphones français codés en +33, en format international.
- Inférence et contrôle de validité
Vérification de la chaîne de commencement +33 et la plausibilité de la longueur du champ.
- Mot clé pour désigner cette nature dans les exports du MDD
french_international_phone_number
7.20.6.16. Numéro de téléphone français national
- Définition
Représente des numéros de téléphones français, en format national (par exemple commençant par 06 et à 10 chiffres).
- Inférence et contrôle de validité
Vérification que la structure correspond bien à celle d’un numéro de téléphone français en format national.
- Mot clé pour désigner cette nature dans les exports du MDD
french_national_phone_number
7.20.6.17. Numéro de téléphone (format E.164)
- Définition
Représente des numéros de téléphones dans un format international. La liste des indicatifs téléphoniques internationaux applicables est établie par l’Union internationale des télécommunications, dans sa recommandation UIT-T E.1641 et ses annexes, qui sont régulièrement mises à jour. Plus de renseignements sont disponibles sur https://en.wikipedia.org/wiki/E.164 .
- Inférence et contrôle de validité
Vérification de la plausibilité de la longueur. Vérification de la présence et de la validité de l’indicatif.
- Mot clé pour désigner cette nature dans les exports du MDD
e164_format_phone_number
7.20.6.18. Numéro de téléphone international des Etats-Unis
- Définition
Représente des numéros de téléphones américains codés en +1, en format international.
- Inférence et contrôle de validité
Vérification de la chaîne de commencement +1 et la plausibilité de la longueur du champ.
- Mot clé pour désigner cette nature dans les exports du MDD
us_international_phone_number
7.20.6.19. Numéro de téléphone national des Etats-Unis
- Définition
Représente des numéros de téléphones américains, en format national.
- Inférence et contrôle de validité
Vérification que la structure correspond bien à celle d’un numéro de téléphone américain en format national, par exemple avec un area code et une longueur valide.
- Mot clé pour désigner cette nature dans les exports du MDD
us_national_phone_number