Une infrastructure simplifiée
Grâce à une infrastructure logicielle novatrice et unique, TIMi est optimisé pour vous offrir :
- La plus grande fiabilité (pour déployer en toute sécurité toutes vos solutions analytiques en production)
- L’évolutivité horizontale (horizontal scalability) la plus élevée (par exemple, un temps incompressible proche de zéro))
- Le « terrain de jeu » ultime, pour que vos data scientists puissent s’amuser à explorer vos données et tester toutes leurs idées. L’incroyable puissance de calcul offerte par TIMi permet de tester les idées les plus originales !
Avec TIMi, pas de temps d’arrêt, vous vous amusez avec vos données toute la journée ! Ce n’est même plus du travail ! 😉
Caractéristiques d’un projet de type « Advanced Analytics »
Toutes les architectures/infrastructures conçues pour résoudre des problèmes de type « Advanced Analytics » doivent tenir compte du fait que tous les projets « Advanced Analytics » comportent toujours deux phases :
- La phase d’exploration
L’objectif de la phase d’exploration est de créer de nouveaux résultats (un nouveau KPI, un nouveau modèle prédictif…) grâce à une analyse de données originale. Pendant cette phase, les analystes/data scientists exécutent des transformations de données très lourdes et des calculs très complexes à la recherche de « la poule aux œufs d’or ».Dans le cadre d’une infrastructure standard où tous les calculs sont « centralisés » sur une base de données centrale (ou sur un cluster central), ces lourdes transformations de données perturbent le travail des autres analystes. Pire encore, elles peuvent mettre en péril la stabilité globale du système informatique de l’entreprise ; c’est pourquoi, dans la plupart des entreprises, les Data Scientistes ne sont pas les « amis » des services informatiques !
Les caractéristiques de la phase d’exploration :
- Dans le meilleur des cas, si un calcul « lourd » échoue (par exemple à cause d’un mauvais paramétrage), vous avez juste perdu un peu de temps. Dans le pire des cas, vous avez endommagé vos processus opérationnels.
- La durée de la « phase d’exploration » est généralement de quelques heures à quelques semaines.
- La phase de production
La phase de production vient après la phase d’exploration et dure habituellement plusieurs années. Il n’y a généralement pas de calculs « lourds » pendant la phase de production car ils ont été correctement paramétrés durant la phase d’exploration. La principale préoccupation de la phase de production est la stabilité : tous les processus doivent se dérouler sans heurts et sans jamais échouer.
Deux infrastructures hardware optimales pour la résolution de votre projet de type « Advanced Analytics »
1. Infrastructure minimale
Cette infrastructure minimale contient un serveur de production (pour votre data lake et vos scripts analytiques en production) et un ordinateur portable par analyste. Grâce à TIMi, cette infrastructure est déjà capable de gérer des ensembles de données volumineux (exemple : analyse de toute l’historique clinique d’un pays de 40 millions d’habitants, ou de tous les enregistrements téléphoniques d’un telecom avec plus de 20 millions d’abonnés).
L’avantage d’une telle infrastructure est l’absence totale d’impact sur la stabilité globale de l’infrastructure informatique de l’entreprise pour tous les processus en phase de production. En effet, chacun des Data Scientists utilise son propre CPU sans consommer aucune ressource des serveurs de production (ou d’autres analystes). Cette infrastructure n’est rendue possible que par la très haute puissance de calcul fournie par TIMi sur un serveur ordinaire.
2. L’infrastructure idéale
Cette infrastructure comprend:
- Un NAS/SAN dédié pour le stockage du Data Lake. Typiquement, on utilisera un RAID6 à l’intérieur du NAS/SAN pour avoir un système résistant à 2 crashs hardware simultanés.
- Un serveur de pré-production, pour tester tous vos processus avant de les envoyer sur le serveur de production.
- Une importation quotidienne de vos sources de données de référence (telles que des bases de données SQLServer, Oracle, SAP…) pour alimenter votre Data Lake.
- Une mise à jour quotidienne (ou horaire) de tous vos tableaux de bord : La Suite TIMi permet une publication rapide et automatisée de toutes les données situées à l’intérieur de votre Data Lake vers toutes les solutions de reporting/BI courantes (Kibella, Tableau, Qlik, PowerBI, Kibana…).
- Un environnement sécurisé : vos données ne quittent jamais vos bâtiments.
- Une évolutivité illimitée en termes de puissance de calcul : si vous avez plus de data scientists, ajoutez simplement plus de PC.
- Une évolutivité illimitée en termes de stockage : les formats de fichiers propriétaires offerts par TIMi (c’est-à-dire les fichiers « .gel_anatella » et les fichiers « .cgel_anatella ») compressent vos données si efficacement qu’il est très peu probable que l’espace disque ne soit jamais insuffisant. Si la volumétrie est vraiment trop importante, vous pouvez toujours stocker vos données « anciennes et froides » directement sur HDFS, pour un stockage des données vraiment illimité.
- Aucune situation de « lock-in »: la Suite TIMi est conçue pour fonctionner avec toutes les solutions open-sources : R, Python, JS,… et pratiquement toutes les technologies propriétaires.
Cette infrastructure finale est un « rêve devenu réalité » pour tous les data scientists !
Puissance presque illimitée + Stockage presque illimité = Plaisir illimité ! 😉