« Into The Minds » publie le Guide 2022 des ETL :
Anatella domine le marché.
En ce mercredi 26 janvier, l’agence « Into The Minds » publie le Guide 2022 des ETL. Ce guide propose un historique succinct des ETL et une analyse comparative de trois ETL modernes. Nous vous invitons à lire ce guide en suivant ce lien.
L’acronyme ETL signifie « Extract – Transform – Load ». Les ETL sont des outils qui facilitent le processus data preparation. La solution Anatella fait partie de la catégorie des ETL (et même de la catégorie « ETL+ », suivant la taxonomie utilisée par les chercheurs de « Into The Minds »).
Historiquement, les ETL s’attachait à réaliser 3 types d’opérations sur des données : (1) les Extraire à partir de fichiers de différentes natures ; (2) les Transformer et les enrichir pour les préparer à être exploitées ; (3) les recharger (en anglais: Loading) dans un autre système afin qu’elles puissent être valorisées.
Ces opérations sont facilitées par l’interface graphique des solutions ETL. Ces dernières sont basées sur des « boîtes » qu’il suffit d’assembler pour parvenir au résultat désiré. C’est donc une solution « No Code » qui peut être mise dans (presque) toutes les mains.
Historique des ETL
Années ’80 | Invention des ETL : les ETL sont utilisés pour gérer des flux entre database « simple » | ||
---|---|---|---|
Années ’90 | Évolution des ETL pour gérer des datawarehouse (DWH) complexes | ||
Années 2000 | Scission dans les outils ETL en 2 grandes catégories : | ||
Catégorie 1 « ELT » : certains ETL deviennent des ELT et se concentrent uniquement sur les tâches de « E » et « L » (Extract and Load) en laissant faire le « T » au moteur de la database. Example : Talend, Matillion, etc. | Catégorie 2 « ETL » : on ajoute plus de fonctionnalités de type « T » : notamment on ajoute : data cleaning, jointures légèrement plus complexes. Example d’outils ETL de ce type qui sont encore dans la catégorie 2 en 2021: IBM data stage, Ab inito, etc | ||
Année 2010 | Invention du « DataLake »: évolution des ETL pour gérer une situation où il n’y a pas de moteur de database « derrière » pour effectuer les Transformations. Comme les ELT nécessitent un moteur de database « derrière », ils sont un peu dépassés. Le « data lake » est un nouveau concept qui est optimisé pour les business/data analystes et les data scientistes qui ont des « besoins data » plus évolués. A cause de l’émergence des « Data Lake » certains ETL de « catégorie 2 » évoluent vers une « catégorie 3 », qui est optimisée pour les besoins modernes des « data workers »: | ||
Année 2015 | Catégorie 3 « ETL+ » : pour la data prep: qui permet de faire des choses bien plus complexes : du text mining, data mining (machine leanning), AI, big data, etc. Example d’outils ETL de catégorie 3 : anatella, alteryx, |
Les ETL du marché
Les chercheurs de « Into The Minds » ont comparés 3 ETL dans la catégorie reine : la « Catégorie 3 : ETL+ ». La comparaison est effectuée en suivant 3 grands axes : les opérations d’Extraction (Extract), de transformation (Transform) et de chargement (Load). Pour chacun de ces axes, on rapporte le nombre de « boîtes » disponibles dans chacun des outils. Voici un tableau récapitulatif des résultats de cette étude:
Nombre de « boîtes » pour: | ETL | |||
---|---|---|---|---|
Alteryx 2020.1.5.25447 | Tableau Prep | Anatella 2.38 | Anatella 2.54 | |
Extract | 4 | 57 | 37 | 78 |
Transform | 33 | 5 | 50 | 50 |
Load | 5 | 3 | 27 | 27 |
Il faut noter que les chercheurs de « Into The Minds » ont utilisé une version relativement ancienne de Anatella (v2.38). Nous sommes actuellement à la version v2.54 et cette dernière version possède beaucoup plus de connecteur pour l’Extraction.
Dans Anatella, les 78 connecteurs en entrées (pour le Extract) sont :
En termes de fonctionnalité dans la catégorie « Extract », les chercheurs de « Into The Minds » notent que : « Anatella gère également les formats non structurés en entrée ». En effet, Anatella est le seul outil qui permette de facilement manipuler des fichiers XML ou JSON multi-niveaux (99% des fichiers XML ou JSON sont multi-niveaux).
Les chercheurs de « Into The Minds » font d’autres remarques pertinentes que je vous invite à lire directement sur leur blog.
Fonctionnalités supplémentaires
Comme expliqué dans la partie « Historique », les ETL ont évolué au fil du temps pour inclure certaines fonctionnalités qui sortaient du cadre spécifique du schéma Extract – Transform – Load. Les ETL qui sont dans la « Catégorie 3 : ETL+ » proposent en plus des fonctionnalités d’analyse ou de visualisation. En effet, loin d’être des gadgets, ces fonctions supplémentaires proposées à l’intérieur de l’outil ETL sont des accélérateurs. Elles permettent de court-circuiter le processus d’analyse en anticipant certaines étapes au sein du processus de préparation des données.
A titre d’exemple, voici quelques fonctionnalités supplémentaires uniques à Anatella qui sont forts appréciées par les chercheurs de « Into The Minds »:
- NLP (Natural Langage Processing) : il s’agit de déterminer le sentiment d’un texte en français, anglais, néerlandais, etc. (cette fonctionnalité est utilisée dans le cadre de leur travail de recherche sur la viralité sur Linkedin)
- Détection de langue : super pratique lorsque vous travaillez sur des données non structurées
- Visualisations avec R : Anatella embarque du code R qui permet de faire rapidement des visualisations simples. Ces dernières peuvent être utilisées pour avoir une première idée des données mais aussi pour réaliser des contrôles qualité. Très utile pour vérifier qu’aucune donnée ne s’est perdue dans le processus de data preparation.
Conclusion des chercheurs de « Into The Minds »: Quel outil ETL choisir ?
Voici les conclusions finales des chercheurs de « Into The Minds »:
Il faut choisir l’ETL qui convient le mieux à vos besoins spécifiques. … Chaque solution ETL a ses propres spécificités et les comparaisons que j’ai réalisées ci-dessus ne sont qu’une clé de lecture parmi d’autres.
Au-delà de l’étendue des fonctionnalités il faut aussi s’interroger sur la rapidité des processus de data preparation. Les chercheurs de « Into The Minds » ont déjà réalisé un benchmark de 4 outils ETL et les différences de temps de traitement étaient considérables.
Au final, je pense qu’il y a 2 critères objectifs essentiels à prendre en compte :
- les fonctionnalités
- la rapidité
A cela s’ajoute des aspects plus subjectifs comme par exemple la roadmap produit de la société éditrice et l’orientation client de cette dernière. De ce point de vue ma préférence va clairement à Anatella. La société qui est derrière est ultra réactive et n’hésite pas à développer des solutions spécifiques pour vos besoins. Je doute que des boîtes comme Talend ou Alteryx fassent de même.
Les conclusions des chercheurs de « Into The Minds » sont sans appels : Quel que soit le critère utilisé pour qualifier un ETL (étendue des fonctionnalités, rapidité d’exécution, qualité du support client, etc), l’ETL dominant est Anatella.