«Into The Minds» publica la Guía ETL 2022:
Anatella domina el mercado
El miércoles 26 de enero, «Into The Minds» publicó la Guía ETL 2022. Esta guía ofrece una breve historia de los ETL y un análisis comparativo de tres ETL modernos. Le invitamos a leer la guía siguiendo este enlace.
El acrónimo ETL significa «Extract – Transform – Load» (Extraer – Transformar – Cargar). Los ETL son herramientas que facilitan el proceso de preparación de datos. La solución Anatella pertenece a la categoría ETL (e incluso a la categoría «ETL+», según la taxonomía utilizada por los investigadores de «Into The Minds»).
Históricamente, los ETL se han centrado en la realización de tres tipos de operaciones con los datos: (1) extraerlos de archivos de distinta naturaleza; (2) transformarlos y enriquecerlos para prepararlos para su explotación; (3) recargarlos en otro sistema para que puedan ser valorados.
Estas operaciones se ven facilitadas por la interfaz gráfica de las soluciones ETL. Estas soluciones se basan en «cajas» que pueden ensamblarse para conseguir el resultado deseado. Es, por tanto, una solución «sin código» que puede ponerse en (casi) cualquier mano.
Historia de los ETL
1980s | Invención de los ETL: los ETL se utilizan para gestionar los flujos entre bases de datos «simples» | ||
---|---|---|---|
1990s | Evolución de los ETL para gestionar almacenes de datos complejos (DWH) | ||
2000s | Dividir las herramientas ETL en dos categorías principales: | ||
Categoría 1 ELT: algunos ETL se convierten en ELT y se centran sólo en las tareas «E» y «L» (Extracción y Carga), dejando la «T» al motor de la base de datos. Ejemplo: Talend, Matillion, etc. | Categoría 2 ETL: se añaden más funcionalidades de tipo «T»: limpieza de datos, uniones algo más complejas. Ejemplo de herramientas ETL de categoría 2 en 2021: IBM data stage, Ab inito, etc. | ||
Año 2010 | Invención del DataLake: una evolución de los ETL para manejar una situación en la que no hay un motor de base de datos «detrás» para realizar las transformaciones. Dado que los ETL requieren un motor de base de datos «detrás» de ellos, son un poco anticuados. El lago de datos es un nuevo concepto optimizado para los analistas de negocio/datos y los científicos de datos que tienen necesidades de datos más avanzadas. Debido a la aparición del lago de datos, algunos ETL de «categoría 2» están evolucionando hacia una «categoría 3», optimizada para las necesidades modernas de los «trabajadores de datos»: | ||
Año 2015 | Categoría 3 «ETL+»: para la preparación de datos: que permite hacer cosas mucho más complejas: minería de textos, minería de datos (machine leaning), IA, big data, etc. Ejemplo de herramientas ETL de categoría 3: anatella, alteryx, etc. |
ETL del mercado
Los investigadores de «Into The Minds» compararon 3 ETL en la categoría superior: «Categoría 3: ETL+». La comparación se realiza en tres ejes principales: operaciones de extracción, transformación y carga (load). Para cada uno de estos ejes, se informa del número de «cajas» disponibles en cada herramienta. A continuación se presenta un cuadro resumen de los resultados de este estudio:
Nombre de « boîtes » pour: | ETL | |||
---|---|---|---|---|
Alteryx 2020.1.5.25447 | Tableau Prep | Anatella 2.38 | Anatella 2.54 | |
Extract | 4 | 57 | 37 | 78 |
Transform | 33 | 5 | 50 | 50 |
Load | 5 | 3 | 27 | 27 |
Cabe señalar que los investigadores de Into The Minds utilizaron una versión relativamente antigua de Anatella (v2.38). Actualmente estamos en la v2.54 y esta última versión tiene muchos más conectores para la Extracción.
En Anatella, los 78 conectores de entrada son:
En cuanto a la funcionalidad de la categoría «Extract», los investigadores de Into The Minds señalan que: «Anatella también maneja formatos de entrada no estructurados«. De hecho, Anatella es la única herramienta que permite manipular fácilmente archivos XML o JSON de varios niveles (el 99% de los archivos XML o JSON son de varios niveles).
Los investigadores de «Into The Minds» hacen otras observaciones pertinentes que les invito a leer directamente en su blog.
Funciones adicionales
Como se explica en la sección «Historia», los ETL han evolucionado con el tiempo para incluir ciertas funcionalidades que iban más allá del marco específico de Extract – Transform – Load. Las ETL de la «Categoría 3: ETL+» también ofrecen funciones de análisis o visualización. De hecho, lejos de ser artilugios, estas funciones adicionales que ofrece la herramienta ETL son aceleradores. Permiten evitar el proceso de análisis al anticiparse a ciertos pasos del proceso de preparación de datos.
A modo de ejemplo, he aquí algunas características adicionales exclusivas de Anatella que son muy valoradas por los investigadores de «Into The Minds»:
- NLP (Natural Language Processing): se trata de determinar el sentimiento de un texto en francés, inglés, holandés, etc. (esta característica se utiliza en su trabajo de investigación sobre la viralidad en Linkedin)
- Detección de idiomas: muy útil cuando se trabaja con datos no estructurados
- Visualizaciones con R: Anatella tiene un código R incrustado que le permite realizar rápidamente visualizaciones sencillas. Pueden utilizarse para tener una primera idea de los datos, pero también para realizar controles de calidad. Muy útil para comprobar que no se ha perdido ningún dato en el proceso de preparación de datos.
Conclusión de los investigadores de «Into The Minds»: ¿Qué herramienta ETL elegir?
Estas son las conclusiones finales de los investigadores de «Into The Minds»:
Es necesario elegir el ETL que mejor se adapte a sus necesidades específicas. … Cada solución ETL tiene sus propias especificidades y las comparaciones que he hecho arriba son sólo una clave de lectura entre otras.
Más allá de la gama de funcionalidades, también hay que tener en cuenta la velocidad de los procesos de preparación de datos. Los investigadores de «Into The Minds» ya han realizado una comparativa de 4 herramientas ETL y las diferencias en el tiempo de procesamiento eran considerables.
Al final, creo que hay 2 criterios objetivos esenciales a tener en cuenta:
- funcionalidad
- velocidad
Además, hay aspectos más subjetivos, como la hoja de ruta del producto del editor y su orientación al cliente. Desde este punto de vista, mi preferencia es claramente por Anatella. La empresa que está detrás es muy receptiva y no duda en desarrollar soluciones específicas para sus necesidades. Dudo que empresas como Talend o Alteryx hagan lo mismo.
Las conclusiones de los investigadores de Into The Minds son claras: sean cuales sean los criterios utilizados para calificar un ETL (alcance de la funcionalidad, velocidad de ejecución, calidad de la asistencia al cliente, etc.), el ETL dominante es Anatella.