Prueba de referencia ETL:
tiempo de procesamiento de 1.000 millones de filas
Cuando se trata de la velocidad de procesamiento de datos, las soluciones de preparación de datos difieren mucho. Según recientes pruebas de referencia realizadas por IntoTheMind, la velocidad de procesamiento varía de 1 a 145 en función de las herramientas utilizadas y el formato de los datos.
Muchas operaciones de preparación de datos se siguen realizando con archivos extraídos de los sistemas de información. Sin embargo, el manejo de archivos de gran tamaño puede hacer que el trabajo de preparación de los datos sea rápidamente laborioso y muy caro en términos de costes de procesamiento en la nube. Por lo tanto, si elige una solución ETL «sin código», debe elegir una que sea rápida, especialmente si trabaja en la nube y la utiliza con frecuencia.
Metodología de las pruebas
Para esta prueba, IntoTheMind utilizó un archivo csv de 43,6 GB con 1.039 millones de filas y 9 columnas. El procesamiento de los datos de la prueba consistió en 3 pasos:
- Abrir el archivo csv
- Ordenar de forma descendente la primera columna
- «Group by» en los valores de la 7ª columna
Se probaron 4 ETLs bien conocidos:
- Talend Open Studio v7.3.1
- Anatella v2.35
- Tableau Prep 2020.2.1
- Alteryx 2020.1
Las pruebas se realizaron en un equipo de sobremesa equipado con 96 GB de Ram y un procesador i7 de 7ª generación, y los datos se almacenaron en un disco duro Western Digital de 6TB a 7200 rpm. A continuación se realizó una prueba comparativa con un SSD. Cada consulta se ejecutó 3 veces y se seleccionó el valor más bajo de los tres.
Resultados : Anatella en primera posición
La solución de menor rendimiento es Talend Open Studio v7.3.1, que tarda casi 4 horas (3:52) en procesar los datos. La solución más eficaz es Anatella v2.35, que sólo tarda 96 segundos en procesar el mismo conjunto de datos. En esta sencilla prueba, Anatella es más de 145 veces más rápido que Talend Studio. Una evaluación comparativa más compleja mostraría una diferencia aún mayor a favor de Anatella.
Otro hallazgo de los investigadores de IntoTheMind es que el uso de un SSD en lugar de un HDD no siempre supone una ganancia de rendimiento. Sin embargo, el uso de un formato propio (una característica sólo disponible en Anatella y Alteryx) puede mejorar significativamente el tiempo de procesamiento de los datos.