4.1.2. Échantillonnage et limites d’enregistrements

Deux paramètres sont particulièrement importants pour optimiser le confort d’utilisation du flow :

Échantillonnage - ou sampling (en %)

Cette option est à utiliser lorsque l’on ne souhaite pas lire les N premières lignes de données car on a besoin d’un échantillon représentatif pour les traitements à venir.

Il s’agit d’un échantillonnage aléatoire d’enregistrements image75 que l’on exprime en pourcentage de la taille totale du jeu de données. Pour des raisons de performances, ce pourcentage est estimé.

Une valeur de 100 signifie : pas d’échantillonnage.

Note

L’échantillonnage est pris en compte uniquement en phase de conception du flow. En production, la totalité des enregistrements provenant de la source est consommée.

Lorsqu’une source de données est modifiée, les changements sont appliqués automatiquement dès lors que la configuration de la source est valide.

Limite d’enregistrements

Il s’agit du nombre d’enregistrements image76 à lire depuis la source. Ce nombre doit être strictement positif.

Ne pas spécifier de valeur signifie que l’on souhaite lire tous les enregistrements, ce qui est fortement déconseillé en phase de conception du flow. En effet, si le jeu de données est très volumineux, il entraînera une perte de fluidité dans la configuration des traitements et des transformations à appliquer. Il est donc souhaitable de limiter le nombre d’enregistrements lors de cette phase de conception d’un flow.

Note

La limite du nombre d’enregistrements est prise en compte après l’échantillonnage.

La limite du nombre d’enregistrements est prise en compte uniquement en phase de conception du flow. En production, la totalité des enregistrements provenant de la source est consommée.