{"id":17923,"date":"2022-02-24T15:49:57","date_gmt":"2022-02-24T15:49:57","guid":{"rendered":"https:\/\/timi.eu\/?p=17923"},"modified":"2022-02-25T13:16:40","modified_gmt":"2022-02-25T13:16:40","slug":"prueba-de-referencia-etl-tiempo-de-procesamiento-de-1-000-millones-de-filas","status":"publish","type":"post","link":"https:\/\/timi.eu\/es\/blog-es\/news-es\/prueba-de-referencia-etl-tiempo-de-procesamiento-de-1-000-millones-de-filas\/","title":{"rendered":"Prueba de referencia ETL: tiempo de procesamiento de 1.000 millones de filas"},"content":{"rendered":"\n\n<div\n\t class=\"wpml-ls-statics-shortcode_actions wpml-ls wpml-ls-legacy-dropdown js-wpml-ls-legacy-dropdown\">\n\t<ul>\n\n\t\t<li tabindex=\"0\" class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-es wpml-ls-current-language wpml-ls-item-legacy-dropdown\">\n\t\t\t<a href=\"#\" class=\"js-wpml-ls-item-toggle wpml-ls-item-toggle\">\n                                                    <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/es.png\"\n            alt=\"\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-native\">Espa\u00f1ol<\/span><\/a>\n\n\t\t\t<ul class=\"wpml-ls-sub-menu\">\n\t\t\t\t\n\t\t\t\t\t<li class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-en wpml-ls-first-item\">\n\t\t\t\t\t\t<a href=\"https:\/\/timi.eu\" class=\"wpml-ls-link\">\n                                                                <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/en.png\"\n            alt=\"\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-display\">Ingl\u00e9s<\/span><\/a>\n\t\t\t\t\t<\/li>\n\n\t\t\t\t\n\t\t\t\t\t<li class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-fr\">\n\t\t\t\t\t\t<a href=\"https:\/\/timi.eu\/fr\/\" class=\"wpml-ls-link\">\n                                                                <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/fr.png\"\n            alt=\"\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-display\">Franc\u00e9s<\/span><\/a>\n\t\t\t\t\t<\/li>\n\n\t\t\t\t\n\t\t\t\t\t<li class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-nl\">\n\t\t\t\t\t\t<a href=\"https:\/\/timi.eu\/nl\/\" class=\"wpml-ls-link\">\n                                                                <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/nl.png\"\n            alt=\"\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-display\">Holand\u00e9s<\/span><\/a>\n\t\t\t\t\t<\/li>\n\n\t\t\t\t\n\t\t\t\t\t<li class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-ru wpml-ls-last-item\">\n\t\t\t\t\t\t<a href=\"https:\/\/timi.eu\/ru\/\" class=\"wpml-ls-link\">\n                                                                <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/ru.png\"\n            alt=\"\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-display\">Ruso<\/span><\/a>\n\t\t\t\t\t<\/li>\n\n\t\t\t\t\t\t\t<\/ul>\n\n\t\t<\/li>\n\n\t<\/ul>\n<\/div>\n\n\n\n\n<h1 class=\"wp-block-heading\">Prueba de referencia ETL:\n<br>tiempo de procesamiento de 1.000 millones de filas<\/h1>\n\n\n\n<p><strong><em>Cuando se trata de la velocidad de procesamiento de datos, las soluciones de preparaci\u00f3n de datos difieren mucho. Seg\u00fan recientes pruebas de referencia realizadas por IntoTheMind, la velocidad de procesamiento var\u00eda de 1 a 145 en funci\u00f3n de las herramientas utilizadas y el formato de los datos.<\/em><\/strong><\/p>\n\n\n\n<p>Muchas operaciones de preparaci\u00f3n de datos se siguen realizando con archivos extra\u00eddos de los sistemas de informaci\u00f3n. Sin embargo, el manejo de archivos de gran tama\u00f1o puede hacer que el trabajo de preparaci\u00f3n de los datos sea r\u00e1pidamente laborioso y muy caro en t\u00e9rminos de costes de procesamiento en la nube. Por lo tanto, si elige una soluci\u00f3n ETL \u00absin c\u00f3digo\u00bb, debe elegir una que sea r\u00e1pida, especialmente si trabaja en la nube y la utiliza con frecuencia.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Metodolog\u00eda de las pruebas<\/h2>\n\n\n\n<p>Para esta prueba, IntoTheMind utiliz\u00f3 un archivo csv de 43,6 GB con 1.039 millones de filas y 9 columnas. El procesamiento de los datos de la prueba consisti\u00f3 en 3 pasos:<\/p>\n\n\n\n<ul><li>Abrir el archivo csv<\/li><li>Ordenar de forma descendente la primera columna<\/li><li>\u00abGroup by\u00bb en los valores de la 7\u00aa columna<\/li><\/ul>\n\n\n\n<p>Se probaron 4 ETLs bien conocidos:<\/p>\n\n\n\n<ul><li>Talend Open Studio v7.3.1<\/li><li>Anatella v2.35<\/li><li>Tableau Prep 2020.2.1<\/li><li>Alteryx 2020.1<\/li><\/ul>\n\n\n\n<p>Las pruebas se realizaron en un equipo de sobremesa equipado con 96 GB de Ram y un procesador i7 de 7\u00aa generaci\u00f3n, y los datos se almacenaron en un disco duro Western Digital de 6TB a 7200 rpm. A continuaci\u00f3n se realiz\u00f3 una prueba comparativa con un SSD. Cada consulta se ejecut\u00f3 3 veces y se seleccion\u00f3 el valor m\u00e1s bajo de los tres.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Resultados&nbsp;: Anatella en primera posici\u00f3n<\/h2>\n\n\n<div class=\"wp-block-image is-style-default aligncenter\">\n<figure class=\"size-large\"><img decoding=\"async\" loading=\"lazy\" width=\"1024\" height=\"597\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2022\/02\/etl-tiempo-procesamiento-1024x597.png\" alt=\"\" class=\"wp-image-17915\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2022\/02\/etl-tiempo-procesamiento-1024x597.png 1024w, https:\/\/timi.eu\/wp-content\/uploads\/2022\/02\/etl-tiempo-procesamiento-600x350.png 600w, https:\/\/timi.eu\/wp-content\/uploads\/2022\/02\/etl-tiempo-procesamiento-300x175.png 300w, https:\/\/timi.eu\/wp-content\/uploads\/2022\/02\/etl-tiempo-procesamiento-768x448.png 768w, https:\/\/timi.eu\/wp-content\/uploads\/2022\/02\/etl-tiempo-procesamiento.png 1092w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><figcaption>Fuentes&nbsp;: <a href=\"https:\/\/www.intotheminds.com\/blog\/es\/indicadores-etl-mil-millones\/\" target=\"_blank\" rel=\"noreferrer noopener\">https:\/\/www.intotheminds.com\/blog\/es\/indicadores-etl-mil-millones\/<\/a> et<br><a href=\"https:\/\/www.intotheminds.com\/blog\/es\/preparacion-datos-reducir-procesamiento\/\" target=\"_blank\" rel=\"noreferrer noopener\">https:\/\/www.intotheminds.com\/blog\/es\/preparacion-datos-reducir-procesamiento\/<\/a><\/figcaption><\/figure><\/div>\n\n\n<p>La soluci\u00f3n de menor rendimiento es Talend Open Studio v7.3.1, que tarda casi 4 horas (3:52) en procesar los datos. La soluci\u00f3n m\u00e1s eficaz es Anatella v2.35, que s\u00f3lo tarda 96 segundos en procesar el mismo conjunto de datos. En esta sencilla prueba, Anatella es m\u00e1s de <strong>145 veces m\u00e1s r\u00e1pido<\/strong> que Talend Studio. Una evaluaci\u00f3n comparativa m\u00e1s compleja mostrar\u00eda una diferencia a\u00fan mayor a favor de Anatella.<\/p>\n\n\n\n<p>Otro hallazgo de los investigadores de IntoTheMind es que el uso de un SSD en lugar de un HDD no siempre supone una ganancia de rendimiento. Sin embargo, el uso de un <strong>formato propio<\/strong> (una caracter\u00edstica s\u00f3lo disponible en Anatella y Alteryx) puede mejorar significativamente el tiempo de procesamiento de los datos.<\/p>\n","protected":false},"excerpt":{"rendered":"Seg\u00fan recientes pruebas comparativas de IntoTheMind, Anatella es 145 veces m\u00e1s r\u00e1pido que Talend Studio.","protected":false},"author":1,"featured_media":17899,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[443,251,228],"tags":[918,441,766,921],"_links":{"self":[{"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/posts\/17923"}],"collection":[{"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/comments?post=17923"}],"version-history":[{"count":2,"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/posts\/17923\/revisions"}],"predecessor-version":[{"id":17926,"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/posts\/17923\/revisions\/17926"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/media\/17899"}],"wp:attachment":[{"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/media?parent=17923"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/categories?post=17923"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/tags?post=17923"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}