7.19. Spécifications des natures standard de Tale of Data

Les natures disponibles en standard dans Tale of Data sont décrites ci-dessous. Leur usage apparaît principalement dans les sections suivantes de la plateforme:

  • dans le Mass Data Discovery (scan automatique de Data Discovery pour une collection de systèmes contenant des tables ou des fichiers de données). La nature est inférée automatiquement pour une colonne lorsqu’il apparaît plausible qu’elle contient des données d’une certaine nature (par exemple des adresses email ou des noms de pays). L’approche des mécanismes d’inférence sont décrits pour chaque nature dans les spécifications ci-dessous.

  • dans l”éditeur de préparation, qui permet:

    • de visualiser les natures qui ont été inférées par Tale of Data sur certaines colonnes

    • d’assigner des natures aux champs

    • de filtrer, d’explorer et de transformer les données sous conditions qu’elles soient valides ou non pour la nature portée par la ou les colonnes concernées

  • dans le paramétrage du nœud de validation, qui permet de séparer des autres lignes les données dont une ou plusieurs colonnes sont de nature valide ou non (au cas par cas).

7.19.1. Natures bancaires

7.19.1.1. IBAN

Définition

L’International Bank Account Number, généralement nommé sous l’acronyme IBAN, quelquefois connu dans les établissements travaillant en langue française sous les termes de Numéro international de compte bancaire, est un système international de numérotation de comptes bancaires complémentaire du BIC, acronyme de Bank Identifier Code, du réseau Swift1.

Inférence et contrôle de validité

Après un contrôle de longueur simple, les principes de validité décrits sur https://en.wikipedia.org/wiki/International_Bank_Account_Number. Les codes pays iso supportés sont FR et GB.

Mot clé pour désigner cette nature dans les exports du MDD

iban

7.19.1.2. RIB (Relevé d’Identité Bancaire)

Définition

Le Basic Bank Account Number (BBAN, litt. « numéro de compte bancaire basique ») ou relevé d’identité bancaire (RIB) est en France une suite de chiffres délivré par la banque et qui indique de manière unique un compte bancaire au niveau national. Il est remis à un débiteur ou un créancier dans le but d’opérer des virements bancaires ou des prélèvements bancaires à partir de ce compte.

Inférence et contrôle de validité

Le contrôle est réalisé sur le nombre de caractères et la nature des caractères qui composent le champ. Plus de détails sur le principe de validité sont disponibles sur https://fr.wikipedia.org/wiki/Basic_Bank_Account_Number

Mot clé pour désigner cette nature dans les exports du MDD

rib

7.19.2. Télécommunications

7.19.2.1. Email

Définition

Une adresse email comporte:

  • une partie locale, identifiant généralement une personne (lucas, Jean.Dupont, joe123) ou un nom de service (info, vente, postmaster) ;

  • le caractère séparateur @ (arobase), signifiant at (« à » ou « chez ») en anglais ;

  • l’adresse du serveur, généralement un nom de domaine identifiant l’organisme (entreprise, association, mairie, université, voire individu) hébergeant la boîte électronique (exemple.net, exemple.com, exemple.org).

Plus de détails sont disponibles sur https://fr.wikipedia.org/wiki/Adresse_%C3%A9lectronique

Inférence et contrôle de validité

La validité de l’email repose essentiellement sur :

  • la validité des caractères présents (minuscules et symboles) ainsi que l’atteinte d’une longueur de champ comprise entre la longueur minimale et la longueur maximale.

  • la séparation en deux parties à l’aide de l’arobase.

  • la validité a priori de l’adresse du serveur domaine, par exemple à travers son format d’ensemble, et aussi l’appartenance de son Top Level Domain à la liste de TLDs connus.

Mot clé pour désigner cette nature dans les exports du MDD

e_mail

7.19.2.2. Adresse IPv4

Définition

Adresse IP version 4. Une description complète de cette nature de données peut être trouvée ici: https://fr.wikipedia.org/wiki/Adresse_IP

Inférence et contrôle de validité

La validité de l’adresse IPv4 repose sur :

  • la longueur du champ.

  • la présence de quatre nombres entre 0 et 255 séparés par des points.

Mot clé pour désigner cette nature dans les exports du MDD

ipv4_address

7.19.2.3. Url

Définition

Une URL est une chaîne de caractères uniforme qui permet d’identifier une ressource du World Wide Web par son emplacement et de préciser le protocole internet pour la récupérer (par exemple http ou https). Une description complète de cette nature de données peut être trouvée ici: https://fr.wikipedia.org/wiki/Uniform_Resource_Locator .

Inférence et contrôle de validité

Le contrôle de validité repose sur la plausibilité de la longueur de la chaîne, ainsi que la présence du caractère : vers le début de la chaîne.

Mot clé pour désigner cette nature dans les exports du MDD

url

7.19.3. Administration française

7.19.3.1. Numéro de Sécurité Sociale français

Définition

Le numéro de sécurité sociale en France, officiellement appelé numéro d’inscription au répertoire des personnes physiques (abrégé en NIRPP ou plus simplement NIR), est un code numérique servant à identifier de façon unique une personne dans le répertoire national d’identification des personnes physiques (RNIPP) géré par l’INSEE. Plus d’informations sont disponibles sur https://fr.wikipedia.org/wiki/Numéro_de_sécurité_sociale_en_France .

Inférence et contrôle de validité

Les contrôles suivants sont nécessaires :

  • longueur du champ

  • validité / plausibilité des sous-parties du numéro

  • validité algorithmique de la clé en fin de numéro

Mot clé pour désigner cette nature dans les exports du MDD

french_ssn

7.19.3.2. Code INSEE de commune

Définition

Le code commune contient cinq chiffres ou lettres (concaténation du code département et de la codification sur trois chiffres de la commune ou de l’arrondissement municipal à Paris, Lyon et Marseille, ou sur deux chiffres pour les communes en outre-mer). Il est le plus employé dans les données statistiques de l’Insee, et est utilisé aussi dans les numéros d’identité et d’état-civil des personnes physiques (voir ci-dessus). Plus d’informations sont disponibles sur https://fr.wikipedia.org/wiki/Code_Insee .

Inférence et contrôle de validité

Un contrôle de longueur et de bonne appartenance à la liste des codes valides est effectué.

Mot clé pour désigner cette nature dans les exports du MDD

insee_commune_code

7.19.3.3. Identifiant Demandeur d’Emploi

Définition

Composé de 8 à 12 caractères, l’identifiant demandeur d’emploi est créé par France Travail et est propre à chaque demandeur d’emploi. Plus d’informations sont disponibles sur https://www.netpublic.fr/travail/retrouver-identifiant-pole-emploi/ .

Inférence et contrôle de validité

Le contrôle s’effectue à l’aide de la longueur de la chaîne, la validité de la clé régionale attendue dans les trois premiers caractères, ainsi que le type des caractères du reste de la chaîne.

Mot clé pour désigner cette nature dans les exports du MDD

pole_emploi_id

7.19.3.4. SIREN

Définition

En France, le Système d’Identification du Répertoire des ENtreprises, ou numéro SIREN est un code Insee unique qui sert à identifier une entreprise, un organisme public ou privé, une personne physique ayant une activité économique indépendante non salariée ou une association ayant des activités en France. Plus d’informations sont disponibles sur https://fr.wikipedia.org/wiki/Syst%C3%A8me_d%27identification_du_r%C3%A9pertoire_des_entreprises .

Inférence et contrôle de validité

Le contrôle s’appuie sur la longueur de la chaîne et la nature numérique de son contenu. Une vérification algorithmique est faite avec l’algorithme de Luhn.

Mot clé pour désigner cette nature dans les exports du MDD

siren

7.19.3.5. SIRET

Définition

Le Système d’Identification du Répertoire des ÉTablissements, ou numéro SIRET1 est un code Insee permettant l’identification d’un établissement ou d’une entreprise française. Plus d’informations sont disponibles sur https://fr.wikipedia.org/wiki/Syst%C3%A8me_d%27identification_du_r%C3%A9pertoire_des_%C3%A9tablissements .

Inférence et contrôle de validité

Le contrôle s’appuie sur la longueur de la chaîne et la nature numérique de son contenu. Une vérification algorithmique est faite avec l’algorithme de Luhn.

Mot clé pour désigner cette nature dans les exports du MDD

siret

7.19.4. Natures géographiques

7.19.4.1. Pays

Définition

Cette nature représente le nom usuel d’un pays. Il est très proche du standard ISO 31661-1 alpha-2. Plus de renseignements sont disponibles sur https://en.wikipedia.org/wiki/ISO_3166-1 .

Inférence et contrôle de validité

Un premier contrôle repose sur l’atteinte d’une longueur de chaîne valide. Ensuite, la forme candidate est rapprochée d’une liste de pays en provenance du standard ISO 31661-1 alpha-2, en omettant les diacritiques dans les noms de pays.

Mot clé pour désigner cette nature dans les exports du MDD

country_name

7.19.4.2. Supplément de numéro de voie française

Définition

Cette nature représente un supplément de numéro de voie française, par exemple « bis » ou « ter ».

Inférence et contrôle de validité

Les valeurs admises (en ignorant la casse) sont:

  • bis

  • ter

  • quater

  • quinquines

Mot clé pour désigner cette nature dans les exports du MDD

french_street_number_complement

7.19.4.3. Voie française

Définition

Cette nature représente un type de voie française, par exemple « rue » ou « avenue ».

Inférence et contrôle de validité

Un rapprochement est fait avec une base de données de types connus (par exemple « Terre-plein », au total une soixantaine) ainsi que de leurs abréviations usuellement constatées (typiquement 4 à 5 abbréviations par type).

Mot clé pour désigner cette nature dans les exports du MDD

french_street_type

7.19.4.4. Code postal français

Définition

Cette nature représente un code postal français.

Inférence et contrôle de validité

Un contrôle est fait sur la longueur, qui doit être de 5 caractères. Le champ est ensuite rapproché de la base de données des codes postaux valides.

Mot clé pour désigner cette nature dans les exports du MDD

french_zip_code

7.19.4.5. Code Pays (ISO 3166-1 alpha-2)

Définition

Cette nature représente un pays code pays suivant le standard ISO 31661-1 alpha-2. Plus de renseignements sont disponibles sur https://en.wikipedia.org/wiki/ISO_3166-1 .

Inférence et contrôle de validité

Un contrôle est fait sur la longueur, qui doit être de 2 caractères. Le champ est ensuite rapproché de la base de données de codes pays valides.

Mot clé pour désigner cette nature dans les exports du MDD

iso31661alpha2

7.19.4.6. Code Pays (ISO 3166-1 alpha-3)

Définition

Cette nature représente un pays code pays suivant le standard ISO 31661-1 alpha-3. Plus de renseignements sont disponibles sur https://en.wikipedia.org/wiki/ISO_3166-1 .

Inférence et contrôle de validité

Un contrôle est fait sur la longueur, qui doit être de 3 caractères. Le champ est ensuite rapproché de la base de données de codes pays valides.

Mot clé pour désigner cette nature dans les exports du MDD

iso31661alpha3

7.19.5. Codes GTIN et ISBN

7.19.5.1. GTIN-8

Définition

Global Trade Item Number de longueur 8. Le Global Trade Item Number (GTIN) ou code article international en français est un code identifiant toute unité commerciale (unité consommateur ou unité standard de regroupement…) de façon internationale et unique. Cette catégorie correspond par exemple à des codes présents sur des code à barres de produits de consommation courante. Plus d’informations sont disponibles sur https://en.wikipedia.org/wiki/Global_Trade_Item_Number .

Inférence et contrôle de validité

Le contrôle de validité suit les principes expliqués sur http://www.gtin.info

Mot clé pour désigner cette nature dans les exports du MDD

gtin.format.gtin_8

7.19.5.2. GTIN-12

Définition

Global Trade Item Number de longueur 12. Le Global Trade Item Number (GTIN) ou code article international en français est un code identifiant toute unité commerciale (unité consommateur ou unité standard de regroupement…) de façon internationale et unique. Cette catégorie correspond par exemple à des codes présents sur des code à barres de produits de consommation courante. Plus d’informations sont disponibles sur https://en.wikipedia.org/wiki/Global_Trade_Item_Number .

Inférence et contrôle de validité

Le contrôle de validité suit les principes expliqués sur http://www.gtin.info

Mot clé pour désigner cette nature dans les exports du MDD

gtin.format.gtin_12

7.19.5.3. GTIN-13

Définition

Global Trade Item Number de longueur 13. Le Global Trade Item Number (GTIN) ou code article international en français est un code identifiant toute unité commerciale (unité consommateur ou unité standard de regroupement…) de façon internationale et unique. Cette catégorie correspond par exemple à des codes présents sur des code à barres de produits de consommation courante. Plus d’informations sont disponibles sur https://en.wikipedia.org/wiki/Global_Trade_Item_Number .

Inférence et contrôle de validité

Le contrôle de validité suit les principes expliqués sur http://www.gtin.info

Mot clé pour désigner cette nature dans les exports du MDD

gtin.format.gtin_13

7.19.5.4. GTIN-14

Définition

Global Trade Item Number de longueur 14. Le Global Trade Item Number (GTIN) ou code article international en français est un code identifiant toute unité commerciale (unité consommateur ou unité standard de regroupement…) de façon internationale et unique. Cette catégorie correspond par exemple à des codes présents sur des code à barres de produits de consommation courante. Plus d’informations sont disponibles sur https://en.wikipedia.org/wiki/Global_Trade_Item_Number .

Inférence et contrôle de validité

Le contrôle de validité suit les principes expliqués sur http://www.gtin.info

Mot clé pour désigner cette nature dans les exports du MDD

gtin.format.gtin_14

7.19.5.5. ISBN-10

Définition

L’International Standard Book Number (ISBN) ou Numéro international normalisé du livre est un numéro internationalement reconnu, créé en 1970, identifiant de manière unique chaque édition de chaque livre publié, postérieurement à l’introduction de l’ISBN, quel que soit son support. En 2007, le numéro ISBN est passé de 10 à 13 chiffres pour compatibilité avec le code-produit GTIN-13. Plus d’informations sont disponibles sur http://fr.wikipedia.org/wiki/ISBN .

Inférence et contrôle de validité

Le contrôle de validité suit les principes posés dans http://fr.wikipedia.org/wiki/ISBN .

Mot clé pour désigner cette nature dans les exports du MDD

isbn

7.19.6. Données à caractère personnel

7.19.6.1. Civilité anglaise

Définition

Détection de civilités abrégées en langue anglaise.

Inférence et contrôle de validité

Comparaison par rapport aux références « Miss », « Ms » et « Mr ».

Mot clé pour désigner cette nature dans les exports du MDD

english_civility

7.19.6.2. Civilité anglaise longue

Définition

Détection de civilités en format long en langue anglaise.

Inférence et contrôle de validité

Comparaison par rapport aux références « Miss », « Mrs », « Mister », « Master » et « “Mistress ».

Mot clé pour désigner cette nature dans les exports du MDD

english_long_civility

7.19.6.3. Genre anglais long

Définition

Détection de genres en format long en langue anglaise.

Inférence et contrôle de validité

Comparaison par rapport aux références « Male », « Female » et « Undefined ».

Mot clé pour désigner cette nature dans les exports du MDD

english_long_gender

7.19.6.4. Nationalité en anglais

Définition

Détection des nationalités en langue anglaise.

Inférence et contrôle de validité

Comparaison par rapport à un dictionnaire de plus de 200 nationalités (par exemple « Dutch » ou « Sudanese »).

Mot clé pour désigner cette nature dans les exports du MDD

english_nationality

7.19.6.5. Genre anglais

Définition

Détection de genres en format abrégé en langue anglaise.

Inférence et contrôle de validité

Comparaison par rapport aux références « M », « F » et « U ».

Mot clé pour désigner cette nature dans les exports du MDD

english_short_gender

7.19.6.6. Prénom

Définition

Détection de prénoms et de leur genre(s) possible(s).

Inférence et contrôle de validité

Comparaison par rapport à un dictionnaire de prénoms anglais et français (totalisant plus de 35000 prénoms), classifiés par genre.

Mot clé pour désigner cette nature dans les exports du MDD

firstname

7.19.6.7. Civilité française longue

Définition

Détection de civilités en format long en langue française.

Inférence et contrôle de validité

Comparaison par rapport aux références « Madame », « Mademoiselle » et « Monsieur ».

Mot clé pour désigner cette nature dans les exports du MDD

french_long_civility

7.19.6.8. Genre français long

Définition

Détection de genres en format long en langue française.

Inférence et contrôle de validité

Comparaison (sans casse et sans accents) par rapport aux références « feminin », « masculin », « femme », « homme », « inconnu », « indefini », pour ce qui est de la détection. Pour le contrôle, un format capitalisé est vérifié.

Mot clé pour désigner cette nature dans les exports du MDD

french_long_gender

7.19.6.9. Nationalité en français

Définition

Détection des nationalités en langue française.

Inférence et contrôle de validité

Comparaison par rapport à un dictionnaire de plus de 400 nationalités genrées (par exemple « Émirienne » ou « Nicaraguayen »).

Mot clé pour désigner cette nature dans les exports du MDD

french_nationality

7.19.6.10. Civilité française

Définition

Détection de civilités abrégées en langue française.

Inférence et contrôle de validité

Comparaison par rapport aux références « Mme », « Mlle » et « M. ». Capacité de détecter des variantes lors de l’inférence de type.

Mot clé pour désigner cette nature dans les exports du MDD

french_short_civility

7.19.6.11. Genre français

Définition

Détection de genres en format abrégé en langue française.

Inférence et contrôle de validité

Comparaison par rapport aux références « H », « F » et « I ».

Mot clé pour désigner cette nature dans les exports du MDD

french_short_gender

7.19.6.12. Nom complet

Définition

Détection de noms complets (contenant un nom de famille et un prénom).

Inférence et contrôle de validité

Longueur comprise entre 6 et 69 caractères, uniquement des caractères alphabétiques. Un ou deux prénoms et de 1 à 5 mots significatifs.

Mot clé pour désigner cette nature dans les exports du MDD

fullname

7.19.6.13. Nom de famille

Définition

Détection de noms de famille.

Inférence et contrôle de validité

Comparaison avec des dictionnaires de référence de noms de famille et de termes à ne pas considérer comme un nom de famille.

Mot clé pour désigner cette nature dans les exports du MDD

lastname

7.19.6.14. Numéro de téléphone anglais international

Définition

Représente des numéros de téléphones britanniques codés en +44, en format international.

Inférence et contrôle de validité

Vérification de la chaîne de commencement +44 et la plausibilité de la longueur du champ.

Mot clé pour désigner cette nature dans les exports du MDD

british_international_phone_number

7.19.6.15. Numéro de téléphone français international

Définition

Représente des numéros de téléphones français codés en +33, en format international.

Inférence et contrôle de validité

Vérification de la chaîne de commencement +33 et la plausibilité de la longueur du champ.

Mot clé pour désigner cette nature dans les exports du MDD

french_international_phone_number

7.19.6.16. Numéro de téléphone français national

Définition

Représente des numéros de téléphones français, en format national (par exemple commençant par 06 et à 10 chiffres).

Inférence et contrôle de validité

Vérification que la structure correspond bien à celle d’un numéro de téléphone français en format national.

Mot clé pour désigner cette nature dans les exports du MDD

french_national_phone_number

7.19.6.17. Numéro de téléphone (format E.164)

Définition

Représente des numéros de téléphones dans un format international. La liste des indicatifs téléphoniques internationaux applicables est établie par l’Union internationale des télécommunications, dans sa recommandation UIT-T E.1641 et ses annexes, qui sont régulièrement mises à jour. Plus de renseignements sont disponibles sur https://en.wikipedia.org/wiki/E.164 .

Inférence et contrôle de validité

Vérification de la plausibilité de la longueur. Vérification de la présence et de la validité de l’indicatif.

Mot clé pour désigner cette nature dans les exports du MDD

e164_format_phone_number

7.19.6.18. Numéro de téléphone international des Etats-Unis

Définition

Représente des numéros de téléphones américains codés en +1, en format international.

Inférence et contrôle de validité

Vérification de la chaîne de commencement +1 et la plausibilité de la longueur du champ.

Mot clé pour désigner cette nature dans les exports du MDD

us_international_phone_number

7.19.6.19. Numéro de téléphone national des Etats-Unis

Définition

Représente des numéros de téléphones américains, en format national.

Inférence et contrôle de validité

Vérification que la structure correspond bien à celle d’un numéro de téléphone américain en format national, par exemple avec un area code et une longueur valide.

Mot clé pour désigner cette nature dans les exports du MDD

us_national_phone_number