Benchmark ETL : temps de traitement sur 1 milliard de lignes
En matière de vitesse de traitement des données, les solutions de data preparation présentent de grandes différences. Selon les benchmarks récents réalisés par l’agence IntoTheMind, les vitesses de traitement varient de 1 à 145 selon les outils utilisés et le format de données.
De nombreuses opérations de data preparation se font toujours avec des fichiers extraits des systèmes d’information. Or, manipuler des fichiers de grande taille peut vite rendre le travail de préparation des données laborieux et revenir très cher en coûts de traitement dans le cloud. Si vous choisissez une solution ETL « no code », vous avez donc intérêt à en choisir une qui est rapide, surtout si vous travaillez dans le cloud et que vous l’utilisez souvent.
Méthodologie de test
Pour ce test, IntoTheMind a utilisé un fichier csv de 43,6 Go comprenant 1,039 milliard de lignes et 9 colonnes. Le processus test de traitement des données était constitué de 3 étapes :
- Ouverture du fichier csv
- Tri décroissant sur la première colonne
- « Group by » sur les valeurs de la 7ème colonne
4 ETLs bien connus ont été testés :
- Talend Open Studio v7.3.1
- Anatella v2.35
- Tableau Prep 2020.2.1
- Alteryx 2020.1
Les tests ont été effectués sur une machine de bureau équipée de 96 Go de Ram et d’un processeur i7 de 7ème génération et les données stockées sur un disque dur de type HDD Western Digital de 6To tournant à 7200 tours minutes. Un test comparatif a ensuite été effectué avec un disque SSD. Chaque requête a été effectuée 3 fois et la valeur la moins élevée des trois a été retenue.
Résultats : Anatella en pole position
La solution la moins performante est Talend Open Studio v7.3.1 qui met près de 4 heures (3h52) pour traiter les données. La solution la plus performante est Anatella v2.35 dont le traitement prend à peine 96 secondes pour traiter le même jeu de données. Sur ce benchmark simple, Anatella est donc plus de 145 fois plus rapide que Talend Studio. Un benchmark plus complexe mettrait en évidence une différence encore plus marquées en faveur de Anatella.
Autre constatation des chercheurs de IntoTheMind : L’utilisation d’un disque SSD ou lieu d’un HDD n’entraîne pas toujours un gain de performance. Toutefois, l’utilisation d’un format propriétaire (fonctionnalité uniquement disponible dans Anatella et Alteryx) permet d’améliorer significativement le temps de traitement des données.