{"id":15941,"date":"2021-10-19T10:06:08","date_gmt":"2021-10-19T10:06:08","guid":{"rendered":"https:\/\/timi.eu\/?p=15941"},"modified":"2022-02-02T12:14:37","modified_gmt":"2022-02-02T12:14:37","slug":"los-11-retos-de-la-preparacion-y-el-tratamiento-de-datos","status":"publish","type":"post","link":"https:\/\/timi.eu\/es\/blog-es\/los-11-retos-de-la-preparacion-y-el-tratamiento-de-datos\/","title":{"rendered":"Los 11 retos de la preparaci\u00f3n y el tratamiento de datos"},"content":{"rendered":"\n<div\n\t class=\"wpml-ls-statics-shortcode_actions wpml-ls wpml-ls-legacy-dropdown js-wpml-ls-legacy-dropdown\">\n\t<ul>\n\n\t\t<li tabindex=\"0\" class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-es wpml-ls-current-language wpml-ls-item-legacy-dropdown\">\n\t\t\t<a href=\"#\" class=\"js-wpml-ls-item-toggle wpml-ls-item-toggle\">\n                                                    <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/es.png\"\n            alt=\"\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-native\">Espa\u00f1ol<\/span><\/a>\n\n\t\t\t<ul class=\"wpml-ls-sub-menu\">\n\t\t\t\t\n\t\t\t\t\t<li class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-en wpml-ls-first-item\">\n\t\t\t\t\t\t<a href=\"https:\/\/timi.eu\" class=\"wpml-ls-link\">\n                                                                <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/en.png\"\n            alt=\"\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-display\">Ingl\u00e9s<\/span><\/a>\n\t\t\t\t\t<\/li>\n\n\t\t\t\t\n\t\t\t\t\t<li class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-fr\">\n\t\t\t\t\t\t<a href=\"https:\/\/timi.eu\/fr\/\" class=\"wpml-ls-link\">\n                                                                <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/fr.png\"\n            alt=\"\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-display\">Franc\u00e9s<\/span><\/a>\n\t\t\t\t\t<\/li>\n\n\t\t\t\t\n\t\t\t\t\t<li class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-nl\">\n\t\t\t\t\t\t<a href=\"https:\/\/timi.eu\/nl\/\" class=\"wpml-ls-link\">\n                                                                <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/nl.png\"\n            alt=\"\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-display\">Holand\u00e9s<\/span><\/a>\n\t\t\t\t\t<\/li>\n\n\t\t\t\t\n\t\t\t\t\t<li class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-ru wpml-ls-last-item\">\n\t\t\t\t\t\t<a href=\"https:\/\/timi.eu\/ru\/\" class=\"wpml-ls-link\">\n                                                                <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/ru.png\"\n            alt=\"\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-display\">Ruso<\/span><\/a>\n\t\t\t\t\t<\/li>\n\n\t\t\t\t\t\t\t<\/ul>\n\n\t\t<\/li>\n\n\t<\/ul>\n<\/div>\n\n<h1>Los 11 retos de la preparaci\u00f3n y el tratamiento de datos<\/h1>\n<p>Los acontecimientos de 2020 han acelerado el cambio hacia el teletrabajo y las relaciones digitales. Gracias a la digitalizaci\u00f3n, se ha puesto en marcha tambi\u00e9n otra transformaci\u00f3n: la transformaci\u00f3n anal\u00edtica. Para hacer frente a esta revoluci\u00f3n de los datos, creo que las empresas no tienen necesariamente las herramientas adecuadas para preparar y analizar los datos (<a href=\"\/blog\/anatella\/data-preparation-definition-examples-advices\/\">preparaci\u00f3n de datos<\/a> o <a href=\"\/blog\/anatella\/data-wrangling-definition-steps-tools\/\">data wrangling<\/a>).<\/p>\n<p>En este art\u00edculo, he querido destacar el papel de estas herramientas en el funcionamiento de una empresa. En particular, creo que pueden ayudar a aumentar la eficiencia, y es lo que intentar\u00e9 demostrar. En concreto, he identificado&nbsp;<b>11 caracter\u00edsticas que determinan la soluci\u00f3n perfecta para la gesti\u00f3n y preparaci\u00f3n de los datos<\/b>.<\/p>\n<h2>\u00cdndice<\/h2>\n<ul>\n<li><a href=\"#para1\">Transformaci\u00f3n de datos: un reto para los recursos humanos<\/a><\/li>\n<li>Les 11 caract\u00e9ristiques d\u2019un bon outil de data wrangling \/ data preparation\n<ol>\n<li><a href=\"#para2\">self-service<\/a><\/li>\n<li><a href=\"#para3\">r\u00e1pido<\/a><\/li>\n<li><a href=\"#para4\">federativo<\/a><\/li>\n<li><a href=\"#para5\">iterativo<\/a><\/li>\n<li><a href=\"#para6\">escalable para grandes vol\u00famenes<\/a><\/li>\n<li><a href=\"#para7\">potente<\/a><\/li>\n<li><a href=\"#para8\">sin costes variables<\/a><\/li>\n<li><a href=\"#para9\">simplifica la industrializaci\u00f3n<\/a><\/li>\n<li><a href=\"#para10\">integrado<\/a><\/li>\n<li><a href=\"#para11\">con muchos conectores<\/a><\/li>\n<li><a href=\"#para12\">permite una amplia gama de transformaciones<\/a><\/li>\n<\/ol>\n<\/li>\n<li><a href=\"#para12\">Conclusiones<\/a><\/li>\n<\/ul>\n<h2><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-15534\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/04\/big-data-banner.jpg\" alt=\"\" width=\"1200\" height=\"400\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/04\/big-data-banner.jpg 1200w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/04\/big-data-banner-600x200.jpg 600w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/04\/big-data-banner-300x100.jpg 300w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/04\/big-data-banner-1024x341.jpg 1024w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/04\/big-data-banner-768x256.jpg 768w\" sizes=\"(max-width: 1200px) 100vw, 1200px\" \/><\/h2>\n<h2><a id=\"para1\" style=\"position:relative;top:-450px;\"><\/a>Transformaci\u00f3n de datos: un reto para los recursos humanos<\/h2>\n<p>La generaci\u00f3n de valor a partir de los datos siempre ha sido realizada por perfiles especializados y costosos (doctores en ciencia de datos, codificadores en R\/Python). Aunque la subcontrataci\u00f3n siempre es \u00fatil para necesidades espec\u00edficas, tiene una gran desventaja: los consultores externos no entienden su negocio y necesitan tiempo para captar las sutilezas ocultas de sus datos.<\/p>\n<p>Para aprovechar al m\u00e1ximo sus datos y extraer r\u00e1pidamente todo lo que contienen y su valor, es esencial interiorizar los conocimientos sobre los datos y poner a disposici\u00f3n herramientas que puedan ser utilizadas por muchas personas. El uso de herramientas de <a href=\"\/blog\/anatella\/data-preparation-definition-examples-advices\/\">preparaci\u00f3n de datos<\/a> de autoservicio por parte de todos los analistas me parece esencial.&nbsp;Son precisamente estas personas las que entienden el problema que hay que resolver y las que, por tanto, tienen m\u00e1s posibilidades de \u00e9xito si disponen de los medios t\u00e9cnicos.<\/p>\n<blockquote class=\"wp-block-quote\" style=\"font-size: 24px; line-height: 28px; margin: 10px 0px 30px 20px;\">\n<p><img decoding=\"async\" loading=\"lazy\" class=\"size-thumbnail wp-image-13436 alignleft\" src=\"\/wp-content\/uploads\/2021\/01\/quotes-150x150.png\" alt=\"\" width=\"75\" height=\"75\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/01\/quotes-150x150.png 150w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/01\/quotes-300x300.png 300w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/01\/quotes-100x100.png 100w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/01\/quotes-85x85.png 85w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/01\/quotes.png 500w\" sizes=\"(max-width: 75px) 100vw, 75px\" \/><span style=\"position: relative; top: 10px;\">De hecho, es fundamental interiorizar los conocimientos sobre los datos y poner a disposici\u00f3n del mayor n\u00famero posible de personas las herramientas \u00fatiles.<\/span><\/p>\n<\/blockquote>\n<p><b>Este enfoque permite que el enfoque anal\u00edtico salga del departamento de \u00abCiencia de Datos\u00bb.<\/b> Tambi\u00e9n es un elemento crucial para inculcar una cultura anal\u00edtica global.<\/p>\n<p>Hay muchos tipos de personas dentro de las empresas que manipulan los datos. En el 99% de los casos,&nbsp;se hace con Excel, y es aqu\u00ed donde se puede&nbsp;<b>ganar en eficiencia<\/b>. De hecho, las buenas herramientas de \u00abdata wrangling\u00bb \/ \u00abpreparaci\u00f3n de datos\u00bb ofrecen soluciones a todas las limitaciones de Excel (transformaciones complejas, m\u00faltiples formatos de datos, volumen, \u2026).<\/p>\n<p>En los siguientes p\u00e1rrafos, explicar\u00e9 las que, en mi opini\u00f3n, deber\u00edan ser las 11 caracter\u00edsticas de una herramienta ideal para la preparaci\u00f3n de datos.<\/p>\n<p><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-16901\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner1-2-470x157-1.jpg\" alt=\"\" width=\"470\" height=\"157\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner1-2-470x157-1.jpg 470w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner1-2-470x157-1-300x100.jpg 300w\" sizes=\"(max-width: 470px) 100vw, 470px\" \/><\/p>\n<h2><a id=\"para2\" style=\"position:relative;top:-450px;\"><\/a>La herramienta de data wrangling debe ser una herramienta \u201cself-service\u201d<\/h2>\n<p>Una herramienta de preparaci\u00f3n de datos self-service permite a sus analistas resolver los problemas de la empresa con mayor rapidez. Pueden analizar los datos y su contexto y, con la herramienta adecuada, son aut\u00f3nomos.<\/p>\n<p><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-16907\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner2-2-470x157-1.jpg\" alt=\"\" width=\"470\" height=\"157\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner2-2-470x157-1.jpg 470w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner2-2-470x157-1-300x100.jpg 300w\" sizes=\"(max-width: 470px) 100vw, 470px\" \/><\/p>\n<h2><a id=\"para3\" style=\"position:relative;top:-450px;\"><\/a>La preparaci\u00f3n de los datos debe ser r\u00e1pida<\/h2>\n<p>Normalmente, los&nbsp;<i>cient\u00edficos de datos<\/i>&nbsp;dedican m\u00e1s del 85% de su tiempo a preparar los datos. Por lo tanto, una herramienta que aumente la velocidad y la productividad de la preparaci\u00f3n de datos es bienvenida.<\/p>\n<p>En particular, los cient\u00edficos de datos experimentados saben que&nbsp;<b>necesitan reducir el tiempo dedicado a la \u00abmanipulaci\u00f3n de datos\u00bb para un mejor trabajo<\/b>. Por eso, al igual que los analistas de negocio, los cient\u00edficos de datos m\u00e1s experimentados piden una herramienta \u00abself-service\u00bb con un rat\u00f3n, porque les permite tener una inmensa ganancia de productividad y tiempo durante la costosa fase de \u00abpreparaci\u00f3n de datos\u00bb.<\/p>\n<p><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-16912\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner3-2-470x157-1.jpg\" alt=\"\" width=\"470\" height=\"157\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner3-2-470x157-1.jpg 470w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner3-2-470x157-1-300x100.jpg 300w\" sizes=\"(max-width: 470px) 100vw, 470px\" \/><\/p>\n<h2><a id=\"para4\" style=\"position:relative;top:-450px;\"><\/a>Hay que elegir una herramienta federada<\/h2>\n<p>M\u00e1s bien, me parece esencial contar con una herramienta que&nbsp;<b>promueva y simplifique la colaboraci\u00f3n entre los analistas de negocio (orientados al negocio) y los cient\u00edficos de datos (orientados a la t\u00e9cnica).<\/b>&nbsp;Sin este aspecto unificador, ser\u00e1 realmente dif\u00edcil conseguir una cultura anal\u00edtica global en su empresa.<\/p>\n<p>El aspecto de federaci\u00f3n de una herramienta de \u00abpreparaci\u00f3n de datos\u00bb es quiz\u00e1 el m\u00e1s dif\u00edcil de conseguir, porque las necesidades de los usuarios empresariales suelen estar muy alejadas de las de los cient\u00edficos de datos:<\/p>\n<ul>\n<li>Los analistas de negocio evitan el c\u00f3digo y quieren un acceso f\u00e1cil e instant\u00e1neo a la informaci\u00f3n que desean. Suelen trabajar con peque\u00f1os vol\u00famenes de datos y no utilizan algoritmos muy complejos.<\/li>\n<li>A los cient\u00edficos de datos les gusta codificar, y escribir mil l\u00edneas de c\u00f3digo en R\/Python no los detendr\u00e1 (despu\u00e9s de todo, \u00a1s\u00f3lo estamos hablando de un d\u00eda de trabajo!). A menudo trabajan con grandes vol\u00famenes y utilizan algoritmos complejos. Por lo tanto, para cumplir con los requisitos de los cient\u00edficos de datos m\u00e1s avanzados, la herramienta de preparaci\u00f3n de datos utilizada en una empresa debe permitir :\n<ul>\n<li>manipular grandes vol\u00famenes de datos,<\/li>\n<li>c\u00f3digo en R\/Python,<\/li>\n<li>crear caracter\u00edsticas complejas (para la ingenier\u00eda de caracter\u00edsticas),<\/li>\n<li>utilizar la \u00faltima generaci\u00f3n de algoritmos de IA<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p>Sin estas propiedades, no conseguir\u00e1 el aspecto \u00abunificador\u00bb y una cultura anal\u00edtica global dentro de su empresa estar\u00e1 fuera de su alcance.<\/p>\n<hr class=\"clearfix\">\n<h2><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-16917\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner4-2-470x157-1.jpg\" alt=\"\" width=\"470\" height=\"157\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner4-2-470x157-1.jpg 470w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner4-2-470x157-1-300x100.jpg 300w\" sizes=\"(max-width: 470px) 100vw, 470px\" \/><\/h2>\n<h2><a id=\"para5\" style=\"position:relative;top:-450px;\"><\/a>La posibilidad de un trabajo iterativo<\/h2>\n<p>El trabajo con datos es infinito y debe entenderse como un ciclo. El ciclo representado en el esquema a continuaci\u00f3n muestra que el trabajo es constante. Se alimenta constantemente de nuevos datos: datos actualizados, por un lado, y datos de nuevas fuentes, por otro.<\/p>\n<p><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-16957\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/cycle-valeur-donnees-acquisition-stockage-exploitation-470x313-1.png\" alt=\"\" width=\"470\" height=\"313\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/cycle-valeur-donnees-acquisition-stockage-exploitation-470x313-1.png 470w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/cycle-valeur-donnees-acquisition-stockage-exploitation-470x313-1-300x200.png 300w\" sizes=\"(max-width: 470px) 100vw, 470px\" \/><\/p>\n<p>El procesamiento de datos no es un fin en s\u00ed mismo. Es un ciclo, un eterno reinicio. Por tanto, las herramientas utilizadas deben ser capaces de gestionar los ciclos de actualizaci\u00f3n.<\/p>\n<div style=\"background-color: #eee; padding: 30px; margin: 30px 0 30px 0;\">\n<h2>Ejemplo de procesamiento iterativo de datos<\/h2>\n<p>Muchas empresas utilizan archivos de Excel para recoger (e intercambiar) datos de sus empleados. \u00bfQu\u00e9 ocurre cuando un empleado decide cambiar ligeramente la estructura de un archivo de Excel para que se adapte mejor al problema de la empresa?<\/p>\n<p>Este peque\u00f1o cambio requiere la actualizaci\u00f3n del proceso de manipulaci\u00f3n de datos que recoge los datos de esos archivos Excel duplicados. Supongamos que este proceso de gesti\u00f3n de datos es opaco (porque est\u00e1 programado en un lenguaje incomprensible que s\u00f3lo entienden los iniciados el d\u00eda que escribieron el c\u00f3digo). En este caso, todo el proceso de recogida de datos se ve comprometido. Esto conduce a la producci\u00f3n de datos no v\u00e1lidos y, en \u00faltima instancia, a la toma de malas decisiones. \u00bfCu\u00e1ntas veces ha escuchado a un colega decirle que el KPI es absurdo y debe ser ignorado? Esta falta de confianza (justificada) en los resultados anal\u00edticos suele deberse a que las herramientas de manipulaci\u00f3n de datos no son lo suficientemente transparentes.<\/p>\n<p><span style=\"font-size: inherit;\">.<\/span><\/p>\n<p style=\"text-align: center;\"><iframe loading=\"lazy\" title=\"YouTube video player\" src=\"https:\/\/www.youtube.com\/embed\/o1JsjADJy0o\" width=\"640\" height=\"400\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-mce-fragment=\"1\"><\/iframe><\/p>\n<\/div>\n<h2><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-16922\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner5-2-470x157-1.jpg\" alt=\"\" width=\"470\" height=\"157\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner5-2-470x157-1.jpg 470w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner5-2-470x157-1-300x100.jpg 300w\" sizes=\"(max-width: 470px) 100vw, 470px\" \/><\/h2>\n<h2><a id=\"para6\" style=\"position:relative;top:-450px;\"><\/a>Adaptaci\u00f3n a grandes vol\u00famenes de datos<\/h2>\n<p>Me gusta la idea de herramientas adaptadas al tratamiento r\u00e1pido de grandes vol\u00famenes de datos (v\u00e9ase mi&nbsp;<a href=\"\/blog\/cloud\/\" target=\"_blank\" rel=\"noopener\">referencia aqu\u00ed<\/a>). El tiempo de procesamiento est\u00e1 relacionado con el volumen de datos a procesar. Sin embargo, con demasiada frecuencia, las herramientas de que disponen los analistas de negocio son demasiado lentas o no les permiten manejar grandes vol\u00famenes de datos.<\/p>\n<hr class=\"clearfix\">\n<h2><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-16927\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner6-2-470x157-1.jpg\" alt=\"\" width=\"470\" height=\"157\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner6-2-470x157-1.jpg 470w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner6-2-470x157-1-300x100.jpg 300w\" sizes=\"(max-width: 470px) 100vw, 470px\" \/><\/h2>\n<h2><a id=\"para7\" style=\"position:relative;top:-450px;\"><\/a>Una potente herramienta independiente de los recursos en la nube<\/h2>\n<p>La cuesti\u00f3n de la potencia de c\u00e1lculo en la preparaci\u00f3n de datos es, en mi opini\u00f3n, muy importante.&nbsp;<b>Para dar autonom\u00eda a los analistas, es necesario que respondan a todas sus preguntas independientemente de que tengan acceso (o no) a un cl\u00faster de m\u00e1quinas en la nube.<\/b> Si la potencia de c\u00e1lculo disponible le limita en sus an\u00e1lisis, se frustrar\u00e1 y nunca conseguir\u00e1 una cultura anal\u00edtica.<\/p>\n<p>Aunque ahora es elemental crear clusters de m\u00e1quinas en la nube, el precio sigue siendo elevado. Debido a su elevado precio, una empresa \u00abnormal\u00bb se limitar\u00e1 a construir un cl\u00faster en la nube (o incluso dos). El uso de este cl\u00faster tambi\u00e9n estar\u00e1 reservado a un peque\u00f1o n\u00famero de cient\u00edficos de datos.<\/p>\n<p>Es f\u00e1cil ver que, en estas condiciones, el desarrollo de una cultura anal\u00edtica global se ve comprometido. Si s\u00f3lo dos personas tienen acceso al grupo, \u00bfc\u00f3mo se puede aumentar la eficiencia y evitar las dificultades?<\/p>\n<p>Adem\u00e1s del precio prohibitivo de la nube, tambi\u00e9n hay que abordar la cuesti\u00f3n de la soberan\u00eda de los datos cuando se almacenan en una nube estadounidense. Puede leer m\u00e1s sobre este tema en la decisi\u00f3n \u00abSchrems II\u00bb en el caso C-311\/18&nbsp;<a href=\"https:\/\/edpb.europa.eu\/our-work-tools\/our-documents\/other\/frequently-asked-questions-judgment-court-justice-european-union_en\" target=\"_blank\" rel=\"noopener\">aqu\u00ed<\/a>.<\/p>\n<hr class=\"clearfix\">\n<h2><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-16932\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner7-2-470x157-1.jpg\" alt=\"\" width=\"470\" height=\"157\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner7-2-470x157-1.jpg 470w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner7-2-470x157-1-300x100.jpg 300w\" sizes=\"(max-width: 470px) 100vw, 470px\" \/><\/h2>\n<h2><a id=\"para8\" style=\"position:relative;top:-450px;\"><\/a>Una herramienta con costes fijos<\/h2>\n<p>No me gusta la idea de no saber de antemano cu\u00e1nto me va a costar el an\u00e1lisis de los datos. Sin embargo, esta es la situaci\u00f3n en la que se encuentran todas las empresas que utilizan AWS o Azure para el procesamiento de datos. La variabilidad de los costes hace imposible predecir cu\u00e1l ser\u00e1 la pr\u00f3xima factura. En otras palabras,&nbsp;<b>hay un coste variable asociado a cada demanda de an\u00e1lisis.<\/b><\/p>\n<p>Una propiedad inherente a los clusters de la nube es el \u00abcoste variable\u00bb asociado a cada demanda anal\u00edtica. Este es quiz\u00e1s el \u00abKey Selling Point\u00bb de las ofertas de los gigantes de la nube: \u00abS\u00f3lo pagas por lo que usas\u00bb.<\/p>\n<p>Por lo tanto, un cient\u00edfico de datos motivado ser\u00e1 la fuente de mayores costes variables porque har\u00e1 un uso intensivo del cl\u00faster de la nube para entender los datos de la mejor manera posible. A la inversa, un cient\u00edfico de datos menos motivado provocar\u00e1 menores costes variables.<\/p>\n<blockquote class=\"wp-block-quote\" style=\"font-size: 24px; line-height: 28px; margin: 10px 0px 30px 20px;\">\n<p><img decoding=\"async\" loading=\"lazy\" class=\"size-thumbnail wp-image-13436 alignleft\" src=\"\/wp-content\/uploads\/2021\/01\/quotes-150x150.png\" alt=\"\" width=\"75\" height=\"75\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/01\/quotes-150x150.png 150w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/01\/quotes-300x300.png 300w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/01\/quotes-100x100.png 100w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/01\/quotes-85x85.png 85w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/01\/quotes.png 500w\" sizes=\"(max-width: 75px) 100vw, 75px\" \/><span style=\"position: relative; top: 10px;\">El control de los costes de procesamiento en la \u00abnube\u00bb sanciona a los cient\u00edficos de datos m\u00e1s activos y motivados.<\/span><\/p>\n<\/blockquote>\n<p>Como la evaluaci\u00f3n de los cient\u00edficos de datos sigue bas\u00e1ndose en gran medida en los costes que generan, se produce una situaci\u00f3n parad\u00f3jica. Los que m\u00e1s trabajan y est\u00e1n m\u00e1s motivados son penalizados. Por lo tanto, el uso \u00abahorrativo\u00bb de la agrupaci\u00f3n se convierte en la norma. Como esta situaci\u00f3n se produce constantemente, ahora hay muchas herramientas especializadas de \u00absupervisi\u00f3n de la nube\u00bb que permiten sancionar y cortar el acceso a los recursos inform\u00e1ticos a todos los cient\u00edficos de datos desmotivados. En estas condiciones, es f\u00e1cil ver que mantener a los cient\u00edficos de datos motivados puede ser complicado.<\/p>\n<p>Por \u00faltimo, una herramienta de gesti\u00f3n de datos que funciona con \u00abcostes variables\u00bb (como el 99% de las soluciones en la nube) penaliza, desanima e impide trabajar a los mejores.<\/p>\n<hr class=\"clearfix\">\n<h2><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-16937\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner8-2-470x157-1.jpg\" alt=\"\" width=\"470\" height=\"157\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner8-2-470x157-1.jpg 470w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner8-2-470x157-1-300x100.jpg 300w\" sizes=\"(max-width: 470px) 100vw, 470px\" \/><\/h2>\n<h2><a id=\"para9\" style=\"position:relative;top:-450px;\"><\/a>Simplificar la industrializaci\u00f3n<\/h2>\n<p>Una buena herramienta de gesti\u00f3n de datos debe facilitar la industrializaci\u00f3n y automatizaci\u00f3n de las recetas desarrolladas por sus equipos.<\/p>\n<p>Aqu\u00ed hay algunas caracter\u00edsticas espec\u00edficas que me parecen esenciales:<\/p>\n<ul>\n<li>f\u00e1cil integraci\u00f3n con cualquier programa de programaci\u00f3n (por ejemplo, el programador de tareas de MS-Windows o Jenkins).<\/li>\n<li>f\u00e1cil implementaci\u00f3n dentro de su actual infraestructura de TI u otros lenguajes u otros marcos de datos. Por ejemplo, llamar a un procedimiento de gesti\u00f3n de datos desde un peque\u00f1o script de Python es imprescindible.<\/li>\n<li>lo suficientemente robusto como para manejar un aumento repentino del volumen de datos sin colapsar<\/li>\n<\/ul>\n<hr class=\"clearfix\">\n<h2><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-16942\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner9-2-470x157-1.jpg\" alt=\"\" width=\"470\" height=\"157\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner9-2-470x157-1.jpg 470w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner9-2-470x157-1-300x100.jpg 300w\" sizes=\"(max-width: 470px) 100vw, 470px\" \/><\/h2>\n<h2><a id=\"para10\" style=\"position:relative;top:-450px;\"><\/a>Herramienta incorporada<\/h2>\n<p>Algunas soluciones ETL no son ETL porque falta la parte de \u00abtransformaci\u00f3n\u00bb (la \u00abT\u00bb) o est\u00e1 insuficientemente desarrollada. Doy prioridad a las herramientas que cubren las tres partes del ciclo de datos: adquisici\u00f3n, almacenamiento y explotaci\u00f3n. Debe ser posible pasar de una parte a otra sin dificultad y sin p\u00e9rdida accidental de informaci\u00f3n.<\/p>\n<hr class=\"clearfix\">\n<h2><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-16947\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner10-2-470x157-1.jpg\" alt=\"\" width=\"470\" height=\"157\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner10-2-470x157-1.jpg 470w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner10-2-470x157-1-300x100.jpg 300w\" sizes=\"(max-width: 470px) 100vw, 470px\" \/><\/h2>\n<h2><a id=\"para11\" style=\"position:relative;top:-450px;\"><\/a>Multiplicidad de conectores<\/h2>\n<p>Ya he hablado muchas veces de la importancia de disponer de varios conectores. Hoy en d\u00eda, los datos llegan por todas partes, en m\u00e1s y m\u00e1s formatos, y a veces son propios.<\/p>\n<hr class=\"clearfix\">\n<h2><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-16952\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner11-2-470x157-1.jpg\" alt=\"\" width=\"470\" height=\"157\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner11-2-470x157-1.jpg 470w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner11-2-470x157-1-300x100.jpg 300w\" sizes=\"(max-width: 470px) 100vw, 470px\" \/><\/h2>\n<h2><a id=\"para12\" style=\"position:relative;top:-450px;\"><\/a>Numerosas capacidades de transformaci\u00f3n de datos<\/h2>\n<p>Este es un punto que ya he mencionado muchas veces y creo que es esencial. Es necesario tener un n\u00famero m\u00e1ximo de \u00abcajas\u00bb preprogramadas para cubrir sus tareas diarias de transformaci\u00f3n de datos.<\/p>\n<p>Por supuesto, todas las soluciones ETL dignas de ese nombre tienen una amplia gama de \u00abcajas\u00bb disponibles. Pero algunos tienen m\u00e1s que otros: por ejemplo, Anatella.<\/p>\n<p>Este \u00faltimo punto parece obvio, pero, sorprendentemente, hay pocas soluciones de software que satisfagan esta necesidad. De hecho, muchos proveedores de software se contentan con ofrecer una amplia conectividad y se olvidan por completo del aspecto de \u00abtransformaci\u00f3n de datos\u00bb, que es un componente igualmente necesario, si no m\u00e1s. \u00bfQuiere algunos ejemplos? Aqu\u00ed hay dos.<\/p>\n<h3>Coincidencia difusa<\/h3>\n<p>Extremadamente \u00fatil para conciliar 2 bases de datos cuando se tiene una calidad menos que excelente. Sin embargo, s\u00f3lo Anatella lo ofrece de forma nativa (ver <a href=\"\/es\/blog-es\/fuzzy-matching-4-metodos-para-realizar-una-combinacion-en-anatella\/\" target=\"_blank\" rel=\"noopener\">aqu\u00ed<\/a> para m\u00e1s informaci\u00f3n).<\/p>\n<h3>La funci\u00f3n central<\/h3>\n<p>Si est\u00e1 haciendo una&nbsp;visualizaci\u00f3n de datos, es importante que pueda rotar sus datos. Sin embargo, de nuevo, el 99% de las soluciones de gesti\u00f3n de datos no proponen esto (en Anatella, las cajas se llaman \u00abflatten\u00bb y \u00abunflatten\u00bb).<\/p>\n<h2><a id=\"para13\" style=\"position:relative;top:-450px;\"><\/a><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-14522\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2020\/11\/conclusion-banner-470x116-2.jpg\" alt=\"Conclusions\" width=\"470\" height=\"116\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2020\/11\/conclusion-banner-470x116-2.jpg 470w, https:\/\/timi.eu\/wp-content\/uploads\/2020\/11\/conclusion-banner-470x116-2-300x74.jpg 300w\" sizes=\"(max-width: 470px) 100vw, 470px\" \/><\/h2>\n<p>Actualmente, Anatella es la \u00fanica herramienta que cumple plenamente los requisitos de la herramienta ideal de preparaci\u00f3n de datos. De hecho, Anatella es :<\/p>\n<ul>\n<li>&#8230;una herramienta de autoservicio con un rat\u00f3n.<\/li>\n<li>&#8230;una herramienta extremadamente r\u00e1pida.<\/li>\n<li>&#8230;una herramienta federadora que favorece el desarrollo de una cultura anal\u00edtica global al ayudar a la colaboraci\u00f3n entre los analistas de negocio (que est\u00e1n m\u00e1s orientados al negocio) y los cient\u00edficos de datos (que est\u00e1n m\u00e1s orientados al c\u00f3digo y a los algoritmos). Para m\u00e1s detalles sobre este tema, consulte <a href=\"\/timi\/anatella\/abstraction-layer\/\">aqu\u00ed<\/a>.<\/li>\n<li>&#8230;una herramienta que puede manejar grandes vol\u00famenes de datos, codificar en R\/Python, crear caracter\u00edsticas complejas (para la ingenier\u00eda de caracter\u00edsticas) y utilizar la \u00faltima generaci\u00f3n de algoritmos de IA, para satisfacer las necesidades de los cient\u00edficos de datos m\u00e1s avanzados.<\/li>\n<li>&#8230;una herramienta que permite el trabajo iterativo gracias a :\n<ul>\n<li>su representaci\u00f3n gr\u00e1fica y f\u00e1cilmente comprensible de los procesos de preparaci\u00f3n de datos<\/li>\n<li><a href=\"https:\/\/timi.eu\/timi\/anatella\/metadatafree\/\">&#8230;su funcionalidad \u00fanica de ausencia de metadatos<\/a><\/li>\n<\/ul>\n<\/li>\n<li>&#8230;una herramienta lo suficientemente potente como para independizarte de los cl\u00fasteres.<\/li>\n<li>&#8230;una herramienta que funciona sin costes variables.<\/li>\n<li>&#8230;una herramienta que permite industrializar y automatizar f\u00e1cilmente los procesos de tratamiento de datos desarrollados por sus equipos.<\/li>\n<li>&#8230;una herramienta que ofrece un elevado n\u00famero de conectores para capturar pr\u00e1cticamente cualquier dato desde cualquier lugar.<\/li>\n<li>&#8230;o herramienta \u00abtodo en uno\u00bb que cubre pr\u00e1cticamente todo lo que se puede hacer con los datos en una organizaci\u00f3n orientada a los datos que quiere desarrollar una cultura anal\u00edtica.<\/li>\n<li>&#8230;la herramienta del mercado que ofrece m\u00e1s funciones de transformaci\u00f3n de datos: En Anatella, hay casi 400 operadores de transformaci\u00f3n de datos. Con Anatella, tiene garantizado el acceso a todas las funcionalidades necesarias para poder limpiar, estructurar y enriquecer siempre sus datos.<\/li>\n<\/ul>\n\n\n<p><br>Source: <a href=\"https:\/\/www.intotheminds.com\/blog\/es\/11-preparacion-tratamiento-datos\/\" target=\"_blank\" rel=\"noopener\">IntoTheMinds<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"Los acontecimientos de 2020 han acelerado el cambio hacia el teletrabajo y las relaciones digitales. Gracias a la digitalizaci\u00f3n, se ha puesto en marcha tambi\u00e9n otra transformaci\u00f3n: la transformaci\u00f3n anal\u00edtica. Para hacer frente a esta revoluci\u00f3n de los datos. Las empresas no tienen necesariamente las herramientas adecuadas para preparar y analizar los datos. Descubra las 11 caracter\u00edsticas que determinan la soluci\u00f3n perfecta para la gesti\u00f3n y preparaci\u00f3n de los datos.","protected":false},"author":1,"featured_media":15934,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[443,251],"tags":[767,766],"_links":{"self":[{"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/posts\/15941"}],"collection":[{"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/comments?post=15941"}],"version-history":[{"count":20,"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/posts\/15941\/revisions"}],"predecessor-version":[{"id":17421,"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/posts\/15941\/revisions\/17421"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/media\/15934"}],"wp:attachment":[{"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/media?parent=15941"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/categories?post=15941"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/tags?post=15941"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}