7.3. Qualité des données

image339

  • Zone de Qualité des données qui s’affiche après un double-clic sur un champ image340. Un autre double-clic masque la zone.

  • Zone de suggestion de transformations image341.

  • Panneau présentant les statistiques du champ sélectionné image342.

  • Panneau offrant un accès direct à la distribution des valeurs du champ sélectionné image343.

  • Panneau permettant de gérer la nature du champ sélectionné et de consulter ses statistiques de validité image344.

  • Panneau permettant de gérer les règles de validation de champs pour le champ sélectionné et de consulter ses statistiques de validité image345.

  • Zone dite « TNV » (Type – Nature – Validation Rules) image346 présentant sous forme de graphiques l’état de la qualité des données pour chaque champ du jeu de données.

Astuce

Chaque graphique de la zone Qualité des données est cliquable, permettant ainsi de filtrer le jeu de données.

7.3.1. Gestion des natures

Une nature est une donnée métier qui se conforme à des règles communes et connues de tous, comme par exemple les numéros de téléphone, les e-mails, etc.

image347

Si aucune nature n’est attribuée à un champ, cette vue sera disponible.

image348

Si une nature est déjà attribuée à un champ, cette vue sera disponible.

Il n’est possible d’attribuer qu’une seule nature par champ.

7.3.2. Natures disponibles

Les natures disponibles sont les suivantes :

  • Email.

  • Numéro de téléphone : FR / US (international et national) ; Formats : E164, International.

  • Code Postal, Code Commune INSEE.

  • GTIN : GTIN-8, GTIN-12, GTIN-13, GTIN-14.

  • ISBN-10.

  • IPv4.

  • SIREN, SIRET.

  • Genre, Civilité.

  • Nom, Prénom, Nom complet.

  • RIB, IBAN.

  • Numéro de Sécurité Sociale français.

  • Numéro d’identifiant Pôle-emploi.

  • URL.

  • Code Pays (ISO-3166-1 alpha2, ISO-3166-1 alpha3).

7.3.3. Ajouter une règle de validation

Une règle de validation de champs est une contrainte métier, connue, généralement, uniquement des experts métiers, permettant de s’assurer de l’absence d’incohérences ou à défaut de les mesurer.

image349

Si aucune règle de validation de champs n’a été attribuée, le panneau ci-dessus sera disponible. Cliquer sur le bouton Ajouter une règle de validation pour ajouter une nouvelle règle de validation de champs sur le champ sélectionné.

image350

En fonction du type de données du champ sélectionné, la liste des règles de validation de champs disponibles varie :

  • Pour les champs de type texte :

    • Patron (Expressions régulières).

    • Longueur minimale.

    • Longueur maximale.

    • Longueur exacte.

    • Énumération par valeurs.

    • Non-vide.

  • Pour les champs de type numérique :

    • Plage de valeurs.

    • Non-vide.

  • Pour les champs de type date :

    • Plage de valeurs.

    • Non-vide.

Il n’est possible d’attribuer qu’un seul type de règle de validation de champ par champ. C’est-à-dire qu’il n’est, par exemple, pas possible de poser deux Règles de validation de champs de type « Longueur minimale » sur un même champ.

image351

  • Liste image352 des règles de validation de champs posées sur le champ sélectionné.

  • Edition image353 d’une règle de validation de champs.

  • Suppression image354 d’une règle de validation de champs.

  • Le V de la zone « TNV » image355 présente une moyenne de la validité des règles de validation de champs posées pour chaque champ.

Note

Exemple pratique : Ajouter une règle de validation

Avant la transformation :

ID

Nom

Email

Statut

1

Alice

alice@email.com

Actif

2

Bob

bob@email.com

En attente

3

Carol

carol@email.com

Annulé

Configuration de la transformation :

Règle : ajouter une contrainte Énumération par valeur au champ Statut. Les valeurs autorisées sont : Actif, En attente.

Après la transformation :

ID

Nom

Email

Statut

1

Alice

alice@email.com

Actif

2

Bob

bob@email.com

En attente

3

Carol

carol@email.com

Annulé*

*Cet exemple montre qu’après avoir ajouté la règle de validation de champ, la valeur Annulé sera considérée comme invalide (dans l’éditeur de préparation, une barre violette apparaîtra à droite de la cellule).

7.3.4. Mettre à jour une règle de validation

Une règle de validation de champ est une contrainte métier appliquée à une seule colonne. La transformation Mettre à jour la règle de validation de champ est automatiquement ajoutée à l’historique des transformations lorsqu’une règle de validation de champ est mise à jour dans l’éditeur de préparation.

Il est important de noter que la mise à jour d’une règle de validation de champ ne modifie en rien le jeu de données. La notion de règle de validation de champ est un marqueur géré par Tale of Data, qui peut être utilisé par la suite pour, par exemple, séparer les lignes valides des lignes invalides.

Note

Exemple pratique : Mettre à jour une règle de validation

Supposons qu’une règle de validation de champ soit définie sur la colonne Âge, indiquant que l’âge doit être supérieur ou égal à 30.

Avant Transformation :

ID

Nom

Âge

1

Alice

30

2

Bob

27 (violation de règle)

3

Charlie

35

Selon notre règle, l’âge de Bob est invalide.

Configuration de Transformation :

Pas de configuration : il suffit de modifier, dans l’éditeur de préparation, la règle du champ. Par exemple, la mettre à : L'âge doit être supérieur ou égal à 32

Après Transformation :

ID

Nom

Âge

1

Alice

30 (violation de règle)

2

Bob

27 (violation de règle)

3

Charlie

35

Une fois la règle mise à jour, la seule ligne valide est la #3. C’est la seule pour laquelle l’âge est supérieur ou égal à 32.

7.3.5. Supprimer une règle de validation

Une règle de validation de champ est une contrainte métier appliquée à une seule colonne (le terme « champ » est implicite). La transformation Supprimer la règle de validation (le terme « champ » est implicite) est automatiquement ajoutée à l’historique des transformations lorsqu’une règle de validation de champ est supprimée dans l’éditeur de préparation.

Il est important de noter que la suppression d’une règle de validation de champ ne modifie en rien le jeu de données. La notion de règle de validation de champ est un marqueur géré par Tale of Data, qui peut être utilisé par la suite pour, par exemple, distinguer les lignes valides des lignes invalides.

Note

Exemple pratique : Supprimer une règle de validation

On suppose qu’une règle de validation est définie sur la colonne Age, indiquant que l’âge doit être supérieur ou égal à 30.

Avant Transformation :

ID

Nom

Age

1

Alice

30

2

Bob

27 (violation de règle)

3

Charlie

35

Selon la règle, l’âge de Bob est invalide.

Configuration de la Transformation :

Aucune configuration : il suffit de supprimer dans l’éditeur de préparation la règle de champ Age must be greater than or equal to 30

Après Transformation :

ID

Nom

Age

1

Alice

30

2

Bob

27

3

Charlie

35

Une fois la règle supprimée, toutes les valeurs de la colonne Age sont considérées comme valides.

7.3.6. Ajouter une règle de validation d’enregistrements

Les règles de validation d’enregistrements permettent, sans écrire de code, d’effectuer des vérifications sur un enregistrement (autrement dit une ligne) donné. Ces vérifications peuvent impliquer des combinaisons de conditions sur plusieurs champs (ex : champA < champB).

Les règles de validation d’enregistrements ont la structure suivante :

  • IF : <Ajouter des conditions séparées par AND/OR>.

  • Then : cocher l’une des deux options : La ligne est valide si la condition IF est vraie ou bien La ligne est invalide si la condition IF est vraie.

Cliquez sur le bouton Ajouter pour créer une nouvelle règle de validation d’enregistrement :

image365

L’éditeur règles de validation d’enregistrements présente les zones suivantes :

image366

  • Zone de spécification du nom et de la description de la règle image367 .

  • Zone de définition de la condition IF image368 .

  • Zone de définition du mode d’évaluation de la règle image369. Deux options : La ligne est valide si la condition IF est vraie ou bien La ligne est invalide si la condition IF est vraie.

  • Zone de prévisualisation du résultat de l’évaluation de la règle image370 .

Pour ajouter une condition, cliquez sur le label « Add an Expression » dans la zone image371. Une fenêtre de dialogue s’ouvre :

image372

En partie gauche d’une condition, vous pouvez ajouter au choix :

  • Un champ image373. Il suffit de double-cliquer sur le nom du champ.

  • Une expression arithmétique image374, par exemple : champ1 + champ2 .

  • Une fonction image375, par exemple « contient », « commence par », …

Comme indiqué sur la capture d’écran ci-dessous, vous devez ensuite ajouter la partie droite de la condition en cliquant sur le label « Add an Expression » image376 à droite de l’opérateur :

image377

En partie droite d’une condition, vous pouvez spécifier au choix :

  • Un littéral (un nombre, un texte, une date, …).

  • La valeur d’un autre champ (e.g. IF champ1= champ2).

  • Le résultat d’une fonction.

La capture d’écran ci-après montre un exemple de création d’une règle:

SI le type du Véhicule est soit BERLINE, soit TS TERRAINS/CHEMINS, soit COUPE

ET que la Quantité est strictement supérieure à 35

ALORS l'enregistrement est valide.

Une prévisualisation de l’évaluation est affichée dans la zone image378.

image379

Un fois la règle de validation d’enregistrements sauvegardée, elle apparaît dans l’onglet Règles de Validation :

image380

Il est alors possible d’utiliser les filtres (image381) sur les règles de validation d’enregistrements pour appliquer des transformations uniquement sur les lignes pour lesquelles la règles est valide ou invalide.

Note

Pour un enregistrement donné, trois états sont possibles pour une règle de validation d’enregistrements : valide, invalide ou en erreur. Ce dernier cas peut se produire si la règle n’a pas pu être évaluée en raison, par exemple, d’une donnée manquante ou mal formée.

Les règles de validation d’enregistrements peuvent être réutilisées dans le flow, avec un processeur de validation placé en aval de la préparation. Dans l’onglet « Règles de validation de lignes » image382 du configurateur du processeur de validation, il est possible de cocher l’option Vérifier la validité afin que les enregistrements non valides pour la règle en question soient envoyés sur la seconde sortie du processeur :

image383

Note

Exemple pratique : Ajouter une règle de validation d’enregistrements

Avant la transformation :

ID

Commande

Date Cmd

Date Livraison

Mode Livraison

1

Cmd #1

15/09/2024

18/09/2024

Express

2

Cmd #2

17/09/2024

21/09/2024

Normal

Configuration de la transformation :

Règle : Si le mode de livraison est Express, alors le délai entre la date de commande et la date de livraison ne doit pas dépasser un jour

Après la transformation :

ID

Commande

Date Cmd

Date Livraison

Mode Livraison

1

Cmd #1

15/09/2024

18/09/2024

Express

2

Cmd #2

17/09/2024

21/09/2024

Normal

Dans l’exemple ci-dessus, la commande avec l’ID 1 recevra un indicateur invalide car 3 jours se sont écoulés entre la date de commande et la date de livraison. Cet indicateur pourra ensuite être utilisé pour isoler les lignes où le service de livraison n’a pas respecté la règle prévue.