{"id":17168,"date":"2022-01-28T17:16:59","date_gmt":"2022-01-28T17:16:59","guid":{"rendered":"https:\/\/timi.eu\/?p=17168"},"modified":"2022-02-23T11:56:29","modified_gmt":"2022-02-23T11:56:29","slug":"etl-guide-2022","status":"publish","type":"post","link":"https:\/\/timi.eu\/fr\/blog-fr\/news-fr\/etl-guide-2022\/","title":{"rendered":"Guide des ETL 2022 de \u00ab\u00a0Into The Minds\u00a0\u00bb: Anatella domine le march\u00e9"},"content":{"rendered":"\n\n<div\n\t class=\"wpml-ls-statics-shortcode_actions wpml-ls wpml-ls-legacy-dropdown js-wpml-ls-legacy-dropdown\">\n\t<ul>\n\n\t\t<li tabindex=\"0\" class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-fr wpml-ls-current-language wpml-ls-item-legacy-dropdown\">\n\t\t\t<a href=\"#\" class=\"js-wpml-ls-item-toggle wpml-ls-item-toggle\">\n                                                    <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/fr.png\"\n            alt=\"\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-native\">Fran\u00e7ais<\/span><\/a>\n\n\t\t\t<ul class=\"wpml-ls-sub-menu\">\n\t\t\t\t\n\t\t\t\t\t<li class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-en wpml-ls-first-item\">\n\t\t\t\t\t\t<a href=\"https:\/\/timi.eu\" class=\"wpml-ls-link\">\n                                                                <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/en.png\"\n            alt=\"\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-display\">Anglais<\/span><\/a>\n\t\t\t\t\t<\/li>\n\n\t\t\t\t\n\t\t\t\t\t<li class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-es\">\n\t\t\t\t\t\t<a href=\"https:\/\/timi.eu\/es\/\" class=\"wpml-ls-link\">\n                                                                <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/es.png\"\n            alt=\"\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-display\">Espagnol<\/span><\/a>\n\t\t\t\t\t<\/li>\n\n\t\t\t\t\n\t\t\t\t\t<li class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-nl\">\n\t\t\t\t\t\t<a href=\"https:\/\/timi.eu\/nl\/\" class=\"wpml-ls-link\">\n                                                                <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/nl.png\"\n            alt=\"\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-display\">N\u00e9erlandais<\/span><\/a>\n\t\t\t\t\t<\/li>\n\n\t\t\t\t\n\t\t\t\t\t<li class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-ru wpml-ls-last-item\">\n\t\t\t\t\t\t<a href=\"https:\/\/timi.eu\/ru\/\" class=\"wpml-ls-link\">\n                                                                <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/ru.png\"\n            alt=\"\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-display\">Russe<\/span><\/a>\n\t\t\t\t\t<\/li>\n\n\t\t\t\t\t\t\t<\/ul>\n\n\t\t<\/li>\n\n\t<\/ul>\n<\/div>\n\n\n\n\n<h1 class=\"wp-block-heading\">\u00ab Into The Minds \u00bb publie le Guide 2022 des ETL :<br>Anatella domine le march\u00e9.<\/h1>\n\n\n\n<h4 class=\"wp-block-heading\"><strong>En ce mercredi 26 janvier, l\u2019agence \u00ab\u00a0Into The Minds\u00a0\u00bb publie le Guide 2022 des ETL. Ce guide propose un historique succinct des ETL et une analyse comparative de trois ETL modernes. Nous vous invitons \u00e0 lire ce guide <a href=\"https:\/\/www.intotheminds.com\/blog\/etl\/\" target=\"_blank\" rel=\"noreferrer noopener\">en suivant ce lien<\/a>.<\/strong><\/h4>\n\n\n\n<p>L\u2019acronyme ETL signifie \u00ab&nbsp;<strong>Extract \u2013 Transform \u2013 Load<\/strong>&nbsp;\u00bb. Les ETL sont des outils qui facilitent le processus data preparation. La solution Anatella fait partie de la cat\u00e9gorie des ETL (et m\u00eame de la cat\u00e9gorie \u00ab&nbsp;ETL+&nbsp;\u00bb, suivant la taxonomie utilis\u00e9e par les chercheurs de \u00ab\u00a0Into The Minds\u00a0\u00bb).<\/p>\n\n\n\n<p>Historiquement, les ETL s\u2019attachait \u00e0 r\u00e9aliser <strong>3 types d\u2019op\u00e9rations sur des donn\u00e9es<\/strong> : (1) les <b>E<\/b>xtraire \u00e0 partir de fichiers de diff\u00e9rentes natures ; (2) les <b>T<\/b>ransformer et les enrichir pour les pr\u00e9parer \u00e0 \u00eatre exploit\u00e9es ; (3) les recharger (en anglais: <b>L<\/b>oading) dans un autre syst\u00e8me afin qu\u2019elles puissent \u00eatre valoris\u00e9es.<\/p>\n\n\n\n<p>Ces op\u00e9rations sont facilit\u00e9es par l\u2019interface graphique des solutions ETL. Ces derni\u00e8res sont bas\u00e9es sur des \u00ab&nbsp;bo\u00eetes&nbsp;\u00bb qu\u2019il suffit d\u2019assembler pour parvenir au r\u00e9sultat d\u00e9sir\u00e9. C\u2019est donc une <strong>solution \u00ab&nbsp;No Code&nbsp;\u00bb<\/strong> qui peut \u00eatre mise dans (presque) toutes les mains.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Historique des ETL<\/h2>\n\n\n\n<table width=\"100%\">\n  <tr class=\"greyline\">\n    <th scope=\"row\" width=\"125\">Ann\u00e9es &rsquo;80<\/th>\n    <td colspan=\"3\">Invention des ETL : les ETL sont utilis\u00e9s pour g\u00e9rer des flux entre database \u00ab simple \u00bb<\/td>\n  <\/tr>\n  <tr>\n    <th scope=\"row\">Ann\u00e9es &rsquo;90<\/th>\n    <td colspan=\"3\">\u00c9volution des ETL pour g\u00e9rer des datawarehouse (DWH) complexes<\/td>\n  <\/tr>\n  <tr class=\"greyline\">\n    <th scope=\"row\"rowspan=\"2\">Ann\u00e9es 2000<\/th>\n    <td colspan=\"3\">Scission dans les outils ETL en 2 grandes cat\u00e9gories :<\/td>\n  <\/tr>\n  <tr>\n    <td><strong>Cat\u00e9gorie 1 \u00ab ELT \u00bb <\/strong> : certains E<b>T<\/b>L deviennent des EL<b>T<\/b> et se concentrent uniquement sur les t\u00e2ches de \u00ab\u00a0E\u00a0\u00bb et \u00ab\u00a0L\u00a0\u00bb (Extract and Load) en laissant faire le \u00ab\u00a0T\u00a0\u00bb au moteur de la database. Example : Talend, Matillion, etc.<\/td>\n    <td><strong>Cat\u00e9gorie 2 \u00ab ETL \u00bb <\/strong> : on ajoute plus de fonctionnalit\u00e9s de type \u00ab\u00a0T\u00a0\u00bb : notamment on ajoute : data cleaning, jointures l\u00e9g\u00e8rement plus complexes. Example d\u2019outils ETL de ce type qui sont encore dans la cat\u00e9gorie 2 en 2021: IBM data stage, Ab inito, etc<\/td>\n    <td>&nbsp;<\/td>\n  <\/tr>\n  <tr class=\"greyline\">\n    <th scope=\"row\">Ann\u00e9e 2010<\/th>\n    <td colspan=\"3\">Invention du \u00ab\u00a0DataLake\u00a0\u00bb: \u00e9volution des ETL pour g\u00e9rer une situation o\u00f9 il n\u2019y a pas de moteur de database \u00ab derri\u00e8re \u00bb pour effectuer les Transformations. Comme les ELT n\u00e9cessitent un moteur de database \u00ab derri\u00e8re \u00bb, ils sont un peu d\u00e9pass\u00e9s. \n\nLe \u00ab\u00a0data lake\u00a0\u00bb est un nouveau concept qui est optimis\u00e9 pour les business\/data analystes et les data scientistes qui ont des \u00ab besoins data \u00bb plus \u00e9volu\u00e9s. \n\nA cause de l&rsquo;\u00e9mergence des \u00ab\u00a0Data Lake\u00a0\u00bb certains ETL de \u00ab\u00a0cat\u00e9gorie 2\u00a0\u00bb \u00e9voluent vers une \u00ab\u00a0cat\u00e9gorie 3\u00a0\u00bb, qui est optimis\u00e9e pour les besoins modernes des \u00ab data workers \u00bb:<\/td>\n  <\/tr>\n  <tr>\n    <th scope=\"row\">Ann\u00e9e 2015<\/th>\n    <td colspan=\"2\">&nbsp;<\/td>\n    <td><strong>Cat\u00e9gorie 3 \u00ab ETL+ \u00bb : pour la data prep:<\/strong> qui permet de faire des choses bien plus complexes : du  text mining, data mining (machine leanning), AI, big data, etc. Example d\u2019outils ETL de cat\u00e9gorie 3 : anatella, alteryx,<\/td>\n  <\/tr>\n<\/table>\n\n\n\n<h2 class=\"wp-block-heading\"><br>Les ETL du march\u00e9<\/h2>\n\n\n\n<p>Les chercheurs de \u00ab&nbsp;Into The Minds&nbsp;\u00bb ont compar\u00e9s 3 ETL dans la cat\u00e9gorie reine&nbsp;: la \u00ab&nbsp;Cat\u00e9gorie 3&nbsp;: ETL+&nbsp;\u00bb. La comparaison est effectu\u00e9e en suivant 3 grands axes&nbsp;: les op\u00e9rations d\u2019Extraction (Extract), de transformation (Transform) et de chargement (Load). Pour chacun de ces axes, on rapporte le nombre de \u00ab&nbsp;bo\u00eetes&nbsp;\u00bb disponibles dans chacun des outils. Voici un tableau r\u00e9capitulatif&nbsp;des r\u00e9sultats de cette \u00e9tude:<\/p>\n\n\n\n<table width=\"100%\">\n  <tr>\n    <th width=\"20%\" rowspan=\"2\" scope=\"col\">Nombre de \u00ab bo\u00eetes \u00bb pour:<\/th>\n    <th colspan=\"4\" scope=\"col\" style=\"text-align: center !important;\">ETL<\/th>\n  <\/tr>\n  <tr>\n    <td width=\"20%\" align=\"center\" class=\"greyline\"><strong>Alteryx 2020.1.5.25447<\/strong><\/td>\n    <td width=\"20%\" align=\"center\" class=\"greyline\"><strong>Tableau Prep<\/strong><\/td>\n    <td width=\"20%\" align=\"center\" class=\"greyline\"><strong>Anatella 2.38<\/strong><\/td>\n    <td width=\"20%\" align=\"center\" class=\"greyline\"><strong>Anatella 2.54<\/strong><\/td>\n  <\/tr>\n  <tr>\n    <th scope=\"row\">Extract<\/th>\n    <td align=\"center\" bgcolor=\"#FF6D6D\" style=\"font-weight: bold; color: #FFF;\">4<\/td>\n    <td align=\"center\" bgcolor=\"#FF9900\" style=\"font-weight: bold; color: #FFF;\">57<\/td>\n    <td align=\"center\" bgcolor=\"#FF9900\" style=\"font-weight: bold; color: #FFF;\">37<\/td>\n    <td align=\"center\" bgcolor=\"#92D050\" style=\"font-weight: bold; color: #FFF;\">78<\/td>\n  <\/tr>\n  <tr>\n    <th scope=\"row\">Transform<\/th>\n    <td align=\"center\" bgcolor=\"#FF9900\" style=\"font-weight: bold; color: #FFF;\">33<\/td>\n    <td align=\"center\" bgcolor=\"#FF6D6D\" style=\"font-weight: bold; color: #FFF;\">5<\/td>\n    <td align=\"center\" bgcolor=\"#92D050\" style=\"font-weight: bold; color: #FFF;\">50<\/td>\n    <td align=\"center\" bgcolor=\"#92D050\" style=\"font-weight: bold; color: #FFF;\">50<\/td>\n  <\/tr>\n  <tr>\n    <th scope=\"row\">Load<\/th>\n    <td align=\"center\" bgcolor=\"#FF9900\" style=\"font-weight: bold; color: #FFF;\">5<\/td>\n    <td align=\"center\" bgcolor=\"#FF6D6D\" style=\"font-weight: bold; color: #FFF;\">3<\/td>\n    <td align=\"center\" bgcolor=\"#92D050\" style=\"font-weight: bold; color: #FFF;\">27<\/td>\n    <td align=\"center\" bgcolor=\"#92D050\" style=\"font-weight: bold; color: #FFF;\">27<\/td>\n  <\/tr>\n<\/table>\n\n\n\n<p><br>Il faut noter que les chercheurs de \u00ab&nbsp;Into The Minds&nbsp;\u00bb ont utilis\u00e9 une version relativement ancienne de Anatella (v2.38). Nous sommes actuellement \u00e0 la version v2.54 et cette derni\u00e8re version poss\u00e8de beaucoup plus de connecteur pour l\u2019Extraction.<\/p>\n\n\n\n<p>Dans Anatella, les 78 connecteurs en entr\u00e9es (pour le <b>E<\/b>xtract) sont&nbsp;:<\/p>\n\n\n\n<figure class=\"wp-block-image size-full is-resized is-style-default\"><img decoding=\"async\" loading=\"lazy\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2022\/01\/2022-01-27_123945.png\" alt=\"\" class=\"wp-image-17219\" width=\"807\" height=\"885\"\/><\/figure>\n\n\n\n<p>En termes de fonctionnalit\u00e9 dans la cat\u00e9gorie \u00ab&nbsp;Extract&nbsp;\u00bb, les chercheurs de \u00ab&nbsp;Into The Minds&nbsp;\u00bb notent que&nbsp;: \u00ab&nbsp;<em>Anatella g\u00e8re \u00e9galement les formats non structur\u00e9s en entr\u00e9e&nbsp;<\/em>\u00bb. En effet, Anatella est le seul outil qui permette de facilement manipuler des fichiers XML ou JSON multi-niveaux (99% des fichiers XML ou JSON sont multi-niveaux).<\/p>\n\n\n\n<p>Les chercheurs de \u00ab&nbsp;Into The Minds&nbsp;\u00bb font d\u2019autres remarques pertinentes que je vous invite <a href=\"https:\/\/www.intotheminds.com\/blog\/etl\/\" target=\"_blank\" rel=\"noreferrer noopener\">\u00e0 lire directement sur leur blog<\/a>.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Fonctionnalit\u00e9s suppl\u00e9mentaires<\/h2>\n\n\n\n<p>Comme expliqu\u00e9 dans la partie \u00ab&nbsp;Historique&nbsp;\u00bb, les ETL ont \u00e9volu\u00e9 au fil du temps pour inclure certaines fonctionnalit\u00e9s qui sortaient du cadre sp\u00e9cifique du sch\u00e9ma Extract \u2013 Transform \u2013 Load. Les ETL qui sont dans la \u00ab&nbsp;Cat\u00e9gorie 3&nbsp;: ETL+&nbsp;\u00bb proposent en plus des <strong>fonctionnalit\u00e9s d\u2019analyse ou de visualisation<\/strong>. En effet, loin d\u2019\u00eatre des gadgets, ces fonctions suppl\u00e9mentaires propos\u00e9es \u00e0 l\u2019int\u00e9rieur de l\u2019outil ETL sont des <strong>acc\u00e9l\u00e9rateurs<\/strong>. Elles permettent de court-circuiter le processus d\u2019analyse en anticipant certaines \u00e9tapes au sein du processus de pr\u00e9paration des donn\u00e9es.<\/p>\n\n\n\n<p>A titre d\u2019exemple, voici quelques fonctionnalit\u00e9s suppl\u00e9mentaires uniques \u00e0 Anatella qui sont forts appr\u00e9ci\u00e9es par les chercheurs de \u00ab&nbsp;Into The Minds&nbsp;\u00bb:<\/p>\n\n\n\n<ul><li><strong>NLP<\/strong> (<strong>N<\/strong>atural <strong>L<\/strong>angage <strong>P<\/strong>rocessing)&nbsp;: il s\u2019agit de d\u00e9terminer le sentiment d\u2019un texte en fran\u00e7ais, anglais, n\u00e9erlandais, etc. (cette fonctionnalit\u00e9 est utilis\u00e9e dans le cadre de leur travail de recherche sur la viralit\u00e9 sur Linkedin)<\/li><li><strong>D\u00e9tection de langue<\/strong> : super pratique lorsque vous travaillez sur des donn\u00e9es non structur\u00e9es<\/li><li><strong>Visualisations avec R<\/strong> : Anatella embarque du code R qui permet de faire rapidement des visualisations simples. Ces derni\u00e8res peuvent \u00eatre utilis\u00e9es pour avoir une premi\u00e8re id\u00e9e des donn\u00e9es mais aussi pour r\u00e9aliser des contr\u00f4les qualit\u00e9. Tr\u00e8s utile pour v\u00e9rifier qu\u2019aucune donn\u00e9e ne s\u2019est perdue dans le processus de data preparation.<\/li><\/ul>\n\n\n\n<h2 class=\"wp-block-heading\">Conclusion des chercheurs de \u00ab Into The Minds \u00bb: Quel outil ETL choisir ?<\/h2>\n\n\n\n<p>Voici les conclusions finales des chercheurs de \u00ab Into The Minds \u00bb:<\/p>\n\n\n<div style=\"padding-left: 50px;\">\n<p>Il faut choisir l\u2019ETL qui convient le mieux \u00e0 vos besoins sp\u00e9cifiques. \u2026 Chaque solution ETL a ses propres sp\u00e9cificit\u00e9s et les comparaisons que j\u2019ai r\u00e9alis\u00e9es ci-dessus ne sont qu\u2019une cl\u00e9 de lecture parmi d\u2019autres.<\/p>\n<p>Au-del\u00e0 de l\u2019\u00e9tendue des fonctionnalit\u00e9s il faut aussi s\u2019interroger sur la <b>rapidit\u00e9<\/b> des processus de data preparation. Les chercheurs de \u00ab Into The Minds \u00bb ont d\u00e9j\u00e0 r\u00e9alis\u00e9 un <a href=\"\/fr\/blog-fr\/news-fr\/benchmark-etl-temps-de-traitement-sur-1-milliard-de-lignes\/\" rel=\"noreferrer noopener\">benchmark de 4 outils ETL <\/a>&nbsp;et les diff\u00e9rences de temps de traitement \u00e9taient consid\u00e9rables.<\/p>\n<p>Au final, je pense qu\u2019il y a <strong>2 crit\u00e8res objectifs essentiels \u00e0 prendre en compte<\/strong> :<\/p>\n<ul>\n<li>les fonctionnalit\u00e9s<\/li>\n<li>la rapidit\u00e9<\/li>\n<\/ul>\n<p>A cela s\u2019ajoute des aspects plus subjectifs comme par exemple la roadmap produit de la soci\u00e9t\u00e9 \u00e9ditrice et l\u2019orientation client de cette derni\u00e8re. De ce point de vue ma pr\u00e9f\u00e9rence va clairement \u00e0 Anatella. La soci\u00e9t\u00e9 qui est derri\u00e8re est ultra r\u00e9active et n\u2019h\u00e9site pas \u00e0 d\u00e9velopper des solutions sp\u00e9cifiques pour vos besoins. Je doute que des bo\u00eetes comme Talend ou Alteryx fassent de m\u00eame.<\/p>\n<\/div>\n\n\n<p>Les conclusions des chercheurs de \u00ab Into The Minds \u00bb sont sans appels&nbsp;: Quel que soit le crit\u00e8re utilis\u00e9&nbsp;pour qualifier un ETL (\u00e9tendue des fonctionnalit\u00e9s, rapidit\u00e9 d\u2019ex\u00e9cution, qualit\u00e9 du support client, etc), l\u2019ETL dominant est Anatella.<\/p>\n","protected":false},"excerpt":{"rendered":"Quel que soit le crit\u00e8re utilis\u00e9 pour qualifier un ETL (\u00e9tendue des fonctionnalit\u00e9s, rapidit\u00e9 d\u2019ex\u00e9cution, qualit\u00e9 du support client, etc), l\u2019ETL dominant est Anatella.","protected":false},"author":1,"featured_media":17236,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[248,184,183],"tags":[320],"_links":{"self":[{"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/posts\/17168"}],"collection":[{"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/comments?post=17168"}],"version-history":[{"count":57,"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/posts\/17168\/revisions"}],"predecessor-version":[{"id":17775,"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/posts\/17168\/revisions\/17775"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/media\/17236"}],"wp:attachment":[{"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/media?parent=17168"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/categories?post=17168"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/tags?post=17168"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}