Una infraestructura simplificada

Con un enfoque de infraestructura innovador y único, TIMi está optimizado para ofrecerle:

  1. Máxima fiabilidad (para implementar de forma segura todas sus soluciones analíticas en producción)
  2. Máxima escalabilidad horizontal (por ejemplo, un tiempo incompresible cercano a cero))
  3. El mejor «playground», para que sus científicos de datos se diviertan explorando y probando todas sus ideas. ¡El increíble poder de computo que ofrece TIMi te permite probar incluso las ideas más locas!

Con TIMi, no hay inactividad, ¡puedes jugar con tus datos todo el día! ¡Ya ni siquiera es un trabajo! 😉

Fases de exploración y producción

Todas las arquitecturas/infraestructuras diseñadas para resolver problemas de tipo «Análisis Avanzado» deben tener en cuenta el hecho de que todos los proyectos de «Advanced analytics» siempre implican 2 fases:

  1. La fase de exploración

    El objetivo de la fase de exploración es crear nuevos resultados a través del análisis de datos , ya sea un nuevo KPI ó un nuevo modelo predictivo.Durante esta fase, los analistas/científicos de datos realizan transformaciones de datos muy pesadas y cálculos muy complejos en busca de la «gallina de los huevos de oro», en una infraestructura estándar.

    En el marco de una infraestructura estándar en la que todos los cálculos están «centralizados» en una base de datos central (o en un grupo central), estas complejas y pesadas transformaciones de datos perturban la labor de otros analistas, incluso pueden poner en peligro la estabilidad general del sistema informático de la empresa (Es por eso que,en la mayoría de las empresas, los científicos de datos no son los «amigos» del equipo de TI!

    Características de la fase de exploración:

    • En el mejor de los casos, si un cálculo «pesado» falla, sólo se está perdiendo algo de tiempo (por ejemplo, debido a una mala parametrización).
    • La duración de la «fase de exploración» suele ser de unas pocas horas a unas pocas semanas.
  2. La fase de producción

    La fase de producción viene después de la fase de exploración y suele durar varios años. Normalmente no hay cálculos «pesados» durante la fase de producción, si se llegaron a establecer de forma correcta durante la fase de exploración. La principal preocupación en la fase de producción es la estabilidad: todos los procesos deben ejecutarse sin problemas y nunca caerse.

 

Dos infraestructuras de hardware óptimas para la resolución de su proyecto de tipo «Advanced analytics»

1. Infrastructura minima

La mínima infraestructura TIMi
La mínima infraestructura TIMi

Este tipo de infraestructura es muy simple, contiene un servidor de producción (para su lago de datos y los procesos analíticos en producción) y una computadora portátil por analista. Gracias a TIMi, esta infraestructura , es capaz de gestionar grandes conjuntos de datos (por ejemplo, el análisis de toda la historia clínica de un país de 40 millones de habitantes ó de todos los registros telefónicos de una empresa de telecomunicaciones con más de 20 millones de clientes).

La ventaja de esta infraestructura es la falta total de impacto en la estabilidad general de la infraestructura de TI de la empresa para todos los procesos en la fase de producción. De hecho, cada Data Scientist utiliza su propia CPU sin consumir ningún recurso de los servidores de producción (u otros analistas). Esta infraestructura sólo es posible gracias a la alta potencia de cálculo que proporciona TIMi en un servidor normal.

2. Infraestructura ideal

La infraestructura TIMi ideal
La infraestructura TIMi ideal

Esta infraestructura incluye:

  • Un NAS/SAN dedicado para el almacenamiento del Lago de Datos. Usualmente, un RAID6 se usará dentro del NAS/SAN para tener un sistema resistente a 2 caídas de hardware en simultaneo.
  • Un servidor de pre-producción para probar todos sus procesos antes de enviarlos al servidor de producción.
  • Una importación diaria de sus fuentes de datos de referencia (como SQLServer, Oracle, bases de datos SAP…) para alimentar su Lago de Datos.
  • Una actualización diaria (o por hora) de todos sus dashborads. Anatella permite una publicación rápida y automatizada ,de todos los datos localizados dentro de su Lago de Datos y a todas las soluciones de BI (Kibella, Tableau, Qlik, PowerBI, Kibana…).
  • Un entorno seguro: sus datos nunca salen de sus edificios.
  • Escalabilidad ilimitada en términos de potencia de computo, si tienes más científicos de datos, sólo tienes que añadir más PCs.
  • Escalabilidad ilimitada en términos de almacenamiento: los archivos propietarios ofrecidos por TIMi («.gel_anatella» y «.cgel_anatella») comprimen su data de manera muy eficiente, capaz de asegurar que el espacio en disco nunca más sea un problema. Si el volumen es realmente demasiado grande, siempre puedes almacenar tus «viejos y fríos» datos directamente en el HDFS, para un almacenamiento de datos verdaderamente ilimitado.
  • No hay situación de dependencia: TIMi Suite está diseñada para trabajar con todas las soluciones de código abierto: R, Python, JS, etc. y casi todas las soluciones propias.

¡Esta infraestructura final es un «sueño hecho realidad» para todos los científicos de datos!

Potencia casi ilimitada + Almacenamiento casi ilimitado = ¡Diversión ilimitada!

Nuestro artículo técnico sobre la infraestructura del TIMi (inglés)       Descargar TIMi