7.3. Qualité des données

image339

  • Zone de Qualité des données qui s’affiche après un double-clic sur un champ image340. Un autre double-clic masque la zone.

  • Zone de suggestion de transformations image341.

  • Panneau présentant les statistiques du champ sélectionné image342.

  • Panneau offrant un accès direct à la distribution des valeurs du champ sélectionné image343.

  • Panneau permettant de gérer la nature du champ sélectionné et de consulter ses statistiques de validité image344.

  • Panneau permettant de gérer les règles de validation de champs pour le champ sélectionné et de consulter ses statistiques de validité image345.

  • Zone dite « TNV » (Type – Nature – Validation Rules) image346 présentant sous forme de graphiques l’état de la qualité des données pour chaque champ du jeu de données.

Astuce

Chaque graphique de la zone Qualité des données est cliquable, permettant ainsi de filtrer le jeu de données.

7.3.1. Gestion des natures

Une nature est une donnée métier qui se conforme à des règles communes et connues de tous, comme par exemple les numéros de téléphone, les e-mails, etc.

image347

Si aucune nature n’est attribuée à un champ, cette vue sera disponible.

image348

Si une nature est déjà attribuée à un champ, cette vue sera disponible.

Il n’est possible d’attribuer qu’une seule nature par champ.

7.3.2. Natures disponibles

Les natures disponibles sont les suivantes :

  • Email.

  • Numéro de téléphone : FR / US (international et national) ; Formats : E164, International.

  • Code Postal, Code Commune INSEE.

  • GTIN : GTIN-8, GTIN-12, GTIN-13, GTIN-14.

  • ISBN-10.

  • IPv4.

  • SIREN, SIRET.

  • Genre, Civilité.

  • Nom, Prénom, Nom complet.

  • RIB, IBAN.

  • Numéro de Sécurité Sociale français.

  • Numéro d’identifiant Pôle-emploi.

  • URL.

  • Code Pays (ISO-3166-1 alpha2, ISO-3166-1 alpha3).

7.3.3. Règles de Validation de champs

Une règle de validation de champs est une contrainte métier, connue, généralement, uniquement des experts métiers, permettant de s’assurer de l’absence d’incohérences ou à défaut de les mesurer.

image349

Si aucune règle de validation de champs n’a été attribuée, le panneau ci-dessus sera disponible. Cliquer sur le bouton Ajouter une règle de validation pour ajouter une nouvelle règle de validation de champs sur le champ sélectionné.

image350

En fonction du type de données du champ sélectionné, la liste des règles de validation de champs disponibles varie :

  • Pour les champs de type texte :

    • Patron (Expressions régulières).

    • Longueur minimale.

    • Longueur maximale.

    • Longueur exacte.

    • Enumération par valeurs.

    • Non-vide.

  • Pour les champs de type numérique :

    • Plage de valeurs.

    • Non-vide.

  • Pour les champs de type date :

    • Plage de valeurs.

    • Non-vide.

Il n’est possible d’attribuer qu’un seul type de règle de validation de champ par champ. C’est-à-dire qu’il n’est, par exemple, pas possible de poser deux Règles de validation de champs de type « Longueur minimale » sur un même champ.

image351

  • Liste image352 des règles de validation de champs posées sur le champ sélectionné.

  • Edition image353 d’une règle de validation de champs.

  • Suppression image354 d’une règle de validation de champs.

  • Le V de la zone « TNV » image355 présente une moyenne de la validité des règles de validation de champs posées pour chaque champ.

7.3.4. Règles de validation d’enregistrements

Les règles de validation d’enregistrements permettent, sans écrire de code, d’effectuer des vérifications sur un enregistrement (autrement dit une ligne) donné. Ces vérifications peuvent impliquer des combinaisons de conditions sur plusieurs champs (ex : champA < champB).

Les règles de validation d’enregistrements ont la structure suivante :

  • IF : <Ajouter des conditions séparées par AND/OR>.

  • Then : cocher l’une des deux options : La ligne est valide si la condition IF est vraie ou bien La ligne est invalide si la condition IF est vraie.

Cliquez sur le bouton Ajouter pour créer une nouvelle règle de validation d’enregistrement :

image365

L’éditeur règles de validation d’enregistrements présente les zones suivantes :

image366

  • Zone de spécification du nom et de la description de la règle image367 .

  • Zone de définition de la condition IF image368 .

  • Zone de définition du mode d’évalutation de la règle image369. Deux options : La ligne est valide si la condition IF est vraie ou bien La ligne est invalide si la condition IF est vraie.

  • Zone de prévisualisation du résultat de l’évaluation de la règle image370 .

Pour ajouter une condition, cliquez sur le label « Add an Expression » dans la zone image371. Une fenêtre de dialogue s’ouvre :

image372

En partie gauche d’une condition, vous pouvez ajouter au choix :

  • Un champ image373. Il suffit de double-cliquer sur le nom du champ.

  • Une expression arithmétique image374, par exemple : champ1 + champ2 .

  • Une fonction image375, par exemple « contient », « commence par », …

Comme indiqué sur la capture d’écran ci-dessous, vous devez ensuite ajouter la partie droite de la condition en cliquant sur le label « Add an Expression » image376 à droite de l’opérateur :

image377

En partie droite d’une condition, vous pouvez spécifier au choix :

  • Un littéral (un nombre, un texte, une date, …).

  • La valeur d’un autre champ (e.g. IF champ1= champ2).

  • Le résultat d’une fonction.

La capture d’écran ci-après montre un exemple de création d’une règle:

SI Le type du Véhicule est soit BERLINE, soit TS TERRAINS/CHEMINS, soit COUPE

ET que la Quantité est strictement supérieure à 35

ALORS l'enregistrement est valide.

Une prévisualisation de l’évaluation est affichée dans la zone image378.

image379

Un fois la règle de validation d’enregistrements sauvegardée, elle apparaît dans l’onglet Règles de Validation :

image380

Il est alors possible d’utiliser les filtres (image381) sur les règles de validation d’enregistrements pour appliquer des transformations uniquement sur les lignes pour lesquelles la règles est valide ou invalide.

Note

Pour un enregistrement donné, trois états sont possibles pour une règle de validation d’enregistrements : valide, invalide ou en erreur. Ce dernier cas peut se produire si la règle n’a pas pu être évaluée en raison, par exemple, d’une donnée manquante ou mal formée.

Les règles de validation d’enregistrements peuvent être réutilisées dans le flow, avec un processeur de validation placé en aval de la préparation. Dans l’onglet « Règles de validation de lignes » image382 du configurateur du processeur de validation, il est possible de cocher l’option Vérifier la validité afin que les enregistrements non valides pour la règle en question soient envoyés sur la seconde sortie du processeur :

image383