{"id":17705,"date":"2022-02-14T16:25:15","date_gmt":"2022-02-14T16:25:15","guid":{"rendered":"https:\/\/timi.eu\/?p=17705"},"modified":"2022-10-04T11:51:06","modified_gmt":"2022-10-04T11:51:06","slug":"benchmark-etl-temps-de-traitement-sur-1-milliard-de-lignes","status":"publish","type":"post","link":"https:\/\/timi.eu\/fr\/blog-fr\/news-fr\/benchmark-etl-temps-de-traitement-sur-1-milliard-de-lignes\/","title":{"rendered":"Benchmark ETL : temps de traitement sur 1 milliard de lignes"},"content":{"rendered":"\n\n<div\n\t class=\"wpml-ls-statics-shortcode_actions wpml-ls wpml-ls-legacy-dropdown js-wpml-ls-legacy-dropdown\">\n\t<ul>\n\n\t\t<li tabindex=\"0\" class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-fr wpml-ls-current-language wpml-ls-item-legacy-dropdown\">\n\t\t\t<a href=\"#\" class=\"js-wpml-ls-item-toggle wpml-ls-item-toggle\">\n                                                    <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/fr.png\"\n            alt=\"\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-native\">Fran\u00e7ais<\/span><\/a>\n\n\t\t\t<ul class=\"wpml-ls-sub-menu\">\n\t\t\t\t\n\t\t\t\t\t<li class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-en wpml-ls-first-item\">\n\t\t\t\t\t\t<a href=\"https:\/\/timi.eu\" class=\"wpml-ls-link\">\n                                                                <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/en.png\"\n            alt=\"\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-display\">Anglais<\/span><\/a>\n\t\t\t\t\t<\/li>\n\n\t\t\t\t\n\t\t\t\t\t<li class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-es\">\n\t\t\t\t\t\t<a href=\"https:\/\/timi.eu\/es\/\" class=\"wpml-ls-link\">\n                                                                <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/es.png\"\n            alt=\"\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-display\">Espagnol<\/span><\/a>\n\t\t\t\t\t<\/li>\n\n\t\t\t\t\n\t\t\t\t\t<li class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-nl\">\n\t\t\t\t\t\t<a href=\"https:\/\/timi.eu\/nl\/\" class=\"wpml-ls-link\">\n                                                                <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/nl.png\"\n            alt=\"\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-display\">N\u00e9erlandais<\/span><\/a>\n\t\t\t\t\t<\/li>\n\n\t\t\t\t\n\t\t\t\t\t<li class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-ru wpml-ls-last-item\">\n\t\t\t\t\t\t<a href=\"https:\/\/timi.eu\/ru\/\" class=\"wpml-ls-link\">\n                                                                <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/ru.png\"\n            alt=\"\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-display\">Russe<\/span><\/a>\n\t\t\t\t\t<\/li>\n\n\t\t\t\t\t\t\t<\/ul>\n\n\t\t<\/li>\n\n\t<\/ul>\n<\/div>\n\n\n\n\n<h1 class=\"wp-block-heading\">Benchmark ETL : temps de traitement sur 1 milliard de lignes<\/h1>\n\n\n\n<p><strong><em>En mati\u00e8re de vitesse de traitement des donn\u00e9es, les solutions de data preparation pr\u00e9sentent de grandes diff\u00e9rences. Selon les benchmarks r\u00e9cents r\u00e9alis\u00e9s par l\u2019agence IntoTheMind, les vitesses de traitement varient de 1 \u00e0 145 selon les outils utilis\u00e9s et le format de donn\u00e9es.<\/em><\/strong><\/p>\n\n\n\n<p>De nombreuses op\u00e9rations de data preparation se font toujours avec des fichiers extraits des syst\u00e8mes d\u2019information. Or, manipuler des fichiers de grande taille peut vite rendre le travail de pr\u00e9paration des donn\u00e9es laborieux et revenir tr\u00e8s cher en co\u00fbts de traitement dans le cloud. Si vous choisissez une&nbsp;solution ETL \u00ab&nbsp;no code&nbsp;\u00bb, vous avez donc int\u00e9r\u00eat \u00e0 en choisir une qui est rapide, surtout si vous travaillez dans le cloud et que vous l\u2019utilisez souvent.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">M\u00e9thodologie de test<\/h2>\n\n\n\n<p>Pour ce test, IntoTheMind a utilis\u00e9 un fichier csv de 43,6 Go comprenant 1,039 milliard de lignes et 9 colonnes. Le processus test de traitement des donn\u00e9es \u00e9tait constitu\u00e9 de 3 \u00e9tapes :<\/p>\n\n\n\n<ul><li>Ouverture du fichier csv<\/li><li>Tri d\u00e9croissant sur la premi\u00e8re colonne<\/li><li>\u00ab&nbsp;Group by&nbsp;\u00bb sur les valeurs de la 7\u00e8me colonne<\/li><\/ul>\n\n\n\n<p>4 ETLs bien connus ont \u00e9t\u00e9 test\u00e9s :<\/p>\n\n\n\n<ul><li>Talend Open Studio v7.3.1<\/li><li>Anatella v2.35<\/li><li>Tableau Prep 2020.2.1<\/li><li>Alteryx 2020.1<\/li><\/ul>\n\n\n\n<p>Les tests ont \u00e9t\u00e9 effectu\u00e9s sur une machine de bureau \u00e9quip\u00e9e de 96 Go de Ram et d\u2019un processeur i7 de 7\u00e8me g\u00e9n\u00e9ration et les donn\u00e9es stock\u00e9es sur un disque dur de type HDD Western Digital de 6To tournant \u00e0 7200 tours minutes. Un test comparatif a ensuite \u00e9t\u00e9 effectu\u00e9 avec un disque SSD. Chaque requ\u00eate a \u00e9t\u00e9 effectu\u00e9e 3 fois et la valeur la moins \u00e9lev\u00e9e des trois a \u00e9t\u00e9 retenue.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">R\u00e9sultats&nbsp;: Anatella en pole position<\/h2>\n\n\n<div class=\"wp-block-image is-style-default aligncenter\">\n<figure class=\"size-large\"><img decoding=\"async\" loading=\"lazy\" width=\"902\" height=\"527\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2022\/02\/image.png\" alt=\"\" class=\"wp-image-17706\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2022\/02\/image.png 902w, https:\/\/timi.eu\/wp-content\/uploads\/2022\/02\/image-600x351.png 600w, https:\/\/timi.eu\/wp-content\/uploads\/2022\/02\/image-300x175.png 300w, https:\/\/timi.eu\/wp-content\/uploads\/2022\/02\/image-768x449.png 768w\" sizes=\"(max-width: 902px) 100vw, 902px\" \/><figcaption>Sources&nbsp;: <a href=\"https:\/\/www.intotheminds.com\/blog\/benchmark-etl-1-milliard\/\" target=\"_blank\" rel=\"noopener\">https:\/\/www.intotheminds.com\/blog\/benchmark-etl-1-milliard\/<\/a> et<br><a href=\"https:\/\/www.intotheminds.com\/blog\/data-preparation-comment-gagner-85-de-temps-de-traitement\/\" target=\"_blank\" rel=\"noopener\">https:\/\/www.intotheminds.com\/blog\/data-preparation-comment-gagner-85-de-temps-de-traitement\/<\/a><br>(pas de lignes bleues pour TDP et Talend car ils n&rsquo;ont pas de fichiers propri\u00e9taires)<\/figcaption><\/figure><\/div>\n\n\n<p><br>La solution la moins performante est Talend Open Studio v7.3.1 qui met pr\u00e8s de 4 heures (3h52) pour traiter les donn\u00e9es. La solution la plus performante est Anatella v2.35 dont le traitement prend \u00e0 peine 96 secondes pour traiter le m\u00eame jeu de donn\u00e9es. Sur ce benchmark simple, Anatella est donc plus de <strong>145 fois plus rapide<\/strong> que Talend Studio. Un benchmark plus complexe mettrait en \u00e9vidence une diff\u00e9rence encore plus marqu\u00e9es en faveur de Anatella.<\/p>\n\n\n\n<p>Autre constatation des chercheurs de IntoTheMind&nbsp;: L\u2019utilisation d\u2019un disque SSD ou lieu d\u2019un HDD n\u2019entra\u00eene pas toujours un gain de performance. Toutefois, l\u2019utilisation d\u2019un <strong>format propri\u00e9taire<\/strong> (fonctionnalit\u00e9 uniquement disponible dans Anatella et Alteryx) permet d\u2019am\u00e9liorer significativement le temps de traitement des donn\u00e9es.<\/p>\n","protected":false},"excerpt":{"rendered":"Selon les benchmarks r\u00e9cents r\u00e9alis\u00e9s par l\u2019agence IntoTheMind, Anatella est 145 fois plus rapide que Talend Studio.","protected":false},"author":1,"featured_media":17895,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[248,184,183],"tags":[916,320,316,919],"_links":{"self":[{"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/posts\/17705"}],"collection":[{"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/comments?post=17705"}],"version-history":[{"count":19,"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/posts\/17705\/revisions"}],"predecessor-version":[{"id":18847,"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/posts\/17705\/revisions\/18847"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/media\/17895"}],"wp:attachment":[{"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/media?parent=17705"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/categories?post=17705"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/tags?post=17705"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}