7.3. Qualité des données
Zone de Qualité des données qui s’affiche après un double-clic sur un champ
. Un autre double-clic masque la zone.
Panneau offrant un accès direct à la distribution des valeurs du champ sélectionné
.
Panneau permettant de gérer la nature du champ sélectionné et de consulter ses statistiques de validité
.
Panneau permettant de gérer les règles de validation de champs pour le champ sélectionné et de consulter ses statistiques de validité
.
Zone dite « TNV » (Type – Nature – Validation Rules)
présentant sous forme de graphiques l’état de la qualité des données pour chaque champ du jeu de données.
Astuce
Chaque graphique de la zone Qualité des données est cliquable, permettant ainsi de filtrer le jeu de données.
7.3.1. Gestion des natures
Une nature est une donnée métier qui se conforme à des règles communes et connues de tous, comme par exemple les numéros de téléphone, les e-mails, etc.
Si aucune nature n’est attribuée à un champ, cette vue sera disponible.
Si une nature est déjà attribuée à un champ, cette vue sera disponible.
Il n’est possible d’attribuer qu’une seule nature par champ.
7.3.2. Natures disponibles
Les natures disponibles sont les suivantes :
Email.
Numéro de téléphone : FR / US (international et national) ; Formats : E164, International.
Code Postal, Code Commune INSEE.
GTIN : GTIN-8, GTIN-12, GTIN-13, GTIN-14.
ISBN-10.
IPv4.
SIREN, SIRET.
Genre, Civilité.
Nom, Prénom, Nom complet.
RIB, IBAN.
Numéro de Sécurité Sociale français.
Numéro d’identifiant Pôle-emploi.
URL.
Code Pays (ISO-3166-1 alpha2, ISO-3166-1 alpha3).
7.3.3. Ajouter une règle de validation
Une règle de validation de champs est une contrainte métier, connue, généralement, uniquement des experts métiers, permettant de s’assurer de l’absence d’incohérences ou à défaut de les mesurer.
Si aucune règle de validation de champs n’a été attribuée, le panneau ci-dessus sera disponible. Cliquer sur le bouton Ajouter une règle de validation pour ajouter une nouvelle règle de validation de champs sur le champ sélectionné.
En fonction du type de données du champ sélectionné, la liste des règles de validation de champs disponibles varie :
Pour les champs de type texte :
Patron (Expressions régulières).
Longueur minimale.
Longueur maximale.
Longueur exacte.
Énumération par valeurs.
Non-vide.
Pour les champs de type numérique :
Plage de valeurs.
Non-vide.
Pour les champs de type date :
Plage de valeurs.
Non-vide.
Il n’est possible d’attribuer qu’un seul type de règle de validation de champ par champ. C’est-à-dire qu’il n’est, par exemple, pas possible de poser deux Règles de validation de champs de type « Longueur minimale » sur un même champ.
Liste
des règles de validation de champs posées sur le champ sélectionné.
Le V de la zone « TNV »
présente une moyenne de la validité des règles de validation de champs posées pour chaque champ.
Note
Exemple pratique : Ajouter une règle de validation
Avant la transformation :
ID |
Nom |
Statut |
|
---|---|---|---|
1 |
Alice |
Actif |
|
2 |
Bob |
En attente |
|
3 |
Carol |
Annulé |
Configuration de la transformation :
Règle : ajouter une contrainte Énumération par valeur
au champ Statut. Les valeurs autorisées sont : Actif
, En attente
.
Après la transformation :
ID |
Nom |
Statut |
|
---|---|---|---|
1 |
Alice |
Actif |
|
2 |
Bob |
En attente |
|
3 |
Carol |
Annulé* |
*Cet exemple montre qu’après avoir ajouté la règle de validation de champ, la valeur Annulé
sera considérée comme invalide (dans l’éditeur de préparation, une barre violette apparaîtra à droite de la cellule).
7.3.4. Mettre à jour une règle de validation
Une règle de validation de champ est une contrainte métier appliquée à une seule colonne. La transformation Mettre à jour la règle de validation de champ est automatiquement ajoutée à l’historique des transformations lorsqu’une règle de validation de champ est mise à jour dans l’éditeur de préparation.
Il est important de noter que la mise à jour d’une règle de validation de champ ne modifie en rien le jeu de données. La notion de règle de validation de champ est un marqueur géré par Tale of Data, qui peut être utilisé par la suite pour, par exemple, séparer les lignes valides des lignes invalides.
Note
Exemple pratique : Mettre à jour une règle de validation
Supposons qu’une règle de validation de champ soit définie sur la colonne Âge, indiquant que l’âge doit être supérieur ou égal à 30.
Avant Transformation :
ID |
Nom |
Âge |
---|---|---|
1 |
Alice |
30 |
2 |
Bob |
27 (violation de règle) |
3 |
Charlie |
35 |
Selon notre règle, l’âge de Bob est invalide.
Configuration de Transformation :
Pas de configuration : il suffit de modifier, dans l’éditeur de préparation, la règle du champ. Par exemple, la mettre à : L'âge doit être supérieur ou égal à 32
Après Transformation :
ID |
Nom |
Âge |
---|---|---|
1 |
Alice |
30 (violation de règle) |
2 |
Bob |
27 (violation de règle) |
3 |
Charlie |
35 |
Une fois la règle mise à jour, la seule ligne valide est la #3. C’est la seule pour laquelle l’âge est supérieur ou égal à 32.
7.3.5. Supprimer une règle de validation
Une règle de validation de champ est une contrainte métier appliquée à une seule colonne (le terme « champ » est implicite). La transformation Supprimer la règle de validation (le terme « champ » est implicite) est automatiquement ajoutée à l’historique des transformations lorsqu’une règle de validation de champ est supprimée dans l’éditeur de préparation.
Il est important de noter que la suppression d’une règle de validation de champ ne modifie en rien le jeu de données. La notion de règle de validation de champ est un marqueur géré par Tale of Data, qui peut être utilisé par la suite pour, par exemple, distinguer les lignes valides des lignes invalides.
Note
Exemple pratique : Supprimer une règle de validation
On suppose qu’une règle de validation est définie sur la colonne Age, indiquant que l’âge doit être supérieur ou égal à 30.
Avant Transformation :
ID |
Nom |
Age |
---|---|---|
1 |
Alice |
30 |
2 |
Bob |
27 (violation de règle) |
3 |
Charlie |
35 |
Selon la règle, l’âge de Bob est invalide.
Configuration de la Transformation :
Aucune configuration : il suffit de supprimer dans l’éditeur de préparation la règle de champ Age must be greater than or equal to 30
Après Transformation :
ID |
Nom |
Age |
---|---|---|
1 |
Alice |
30 |
2 |
Bob |
27 |
3 |
Charlie |
35 |
Une fois la règle supprimée, toutes les valeurs de la colonne Age sont considérées comme valides.
7.3.6. Ajouter une règle de validation d’enregistrements
Les règles de validation d’enregistrements permettent, sans écrire de code, d’effectuer des vérifications sur un enregistrement (autrement dit une ligne) donné. Ces vérifications peuvent impliquer des combinaisons de conditions sur plusieurs champs (ex : champA < champB).
Les règles de validation d’enregistrements ont la structure suivante :
IF : <Ajouter des conditions séparées par AND/OR>.
Then : cocher l’une des deux options : La ligne est valide si la condition IF est vraie ou bien La ligne est invalide si la condition IF est vraie.
Cliquez sur le bouton Ajouter pour créer une nouvelle règle de validation d’enregistrement :
L’éditeur règles de validation d’enregistrements présente les zones suivantes :
Zone de spécification du nom et de la description de la règle
.
Zone de définition du mode d’évaluation de la règle
. Deux options : La ligne est valide si la condition IF est vraie ou bien La ligne est invalide si la condition IF est vraie.
Zone de prévisualisation du résultat de l’évaluation de la règle
.
Pour ajouter une condition, cliquez sur le label « Add an Expression » dans la zone . Une fenêtre de dialogue s’ouvre :
En partie gauche d’une condition, vous pouvez ajouter au choix :
Une expression arithmétique
, par exemple : champ1 + champ2 .
Une fonction
, par exemple « contient », « commence par », …
Comme indiqué sur la capture d’écran ci-dessous, vous devez ensuite ajouter la partie droite de la condition en cliquant sur le label « Add an Expression » à droite de l’opérateur :
En partie droite d’une condition, vous pouvez spécifier au choix :
Un littéral (un nombre, un texte, une date, …).
La valeur d’un autre champ (e.g. IF champ1= champ2).
Le résultat d’une fonction.
La capture d’écran ci-après montre un exemple de création d’une règle:
SI le type du Véhicule est soit BERLINE, soit TS TERRAINS/CHEMINS, soit COUPE
ET que la Quantité est strictement supérieure à 35
ALORS l'enregistrement est valide.
Une prévisualisation de l’évaluation est affichée dans la zone .
Un fois la règle de validation d’enregistrements sauvegardée, elle apparaît dans l’onglet Règles de Validation :
Il est alors possible d’utiliser les filtres () sur les règles de validation d’enregistrements pour appliquer des transformations uniquement sur les lignes pour lesquelles la règles est valide ou invalide.
Note
Pour un enregistrement donné, trois états sont possibles pour une règle de validation d’enregistrements : valide, invalide ou en erreur. Ce dernier cas peut se produire si la règle n’a pas pu être évaluée en raison, par exemple, d’une donnée manquante ou mal formée.
Les règles de validation d’enregistrements peuvent être réutilisées dans le flow, avec un processeur de validation placé en aval de la préparation. Dans l’onglet « Règles de validation de lignes » du configurateur du processeur de validation, il est possible de cocher l’option Vérifier la validité afin que les enregistrements non valides pour la règle en question soient envoyés sur la seconde sortie du processeur :
Note
Exemple pratique : Ajouter une règle de validation d’enregistrements
Avant la transformation :
ID |
Commande |
Date Cmd |
Date Livraison |
Mode Livraison |
---|---|---|---|---|
1 |
Cmd #1 |
15/09/2024 |
18/09/2024 |
Express |
2 |
Cmd #2 |
17/09/2024 |
21/09/2024 |
Normal |
Configuration de la transformation :
Règle : Si le mode de livraison est Express, alors le délai entre la date de commande et la date de livraison ne doit pas dépasser un jour
Après la transformation :
ID |
Commande |
Date Cmd |
Date Livraison |
Mode Livraison |
---|---|---|---|---|
1 |
Cmd #1 |
15/09/2024 |
18/09/2024 |
Express |
2 |
Cmd #2 |
17/09/2024 |
21/09/2024 |
Normal |
Dans l’exemple ci-dessus, la commande avec l’ID 1 recevra un indicateur invalide
car 3 jours se sont écoulés entre la date de commande et la date de livraison.
Cet indicateur pourra ensuite être utilisé pour isoler les lignes où le service de livraison n’a pas respecté la règle prévue.