Data Wrangling : définition, étapes, outils
Le terme « Data wrangling » est également connu sous le nom de « Data Munging ». Ce terme technique peut sembler intimidant à première vue. L’ambition de cet article est de le démystifier.
Le data wrangling est défini comme une partie importante d’un processus plus large appelé “préparation des données”. Le traitement des données est le processus mis en œuvre pour collecter, sélectionner, structurer, enrichir et finalement transformer les informations dans le but de répondre à une question spécifique. Cette question primordiale est généralement très analytique. Le traitement des données prend un temps considérable. Par exemple, il est bien connu que les spécialistes des données consacrent une grande partie de leur temps à des activités de préparation des données (plus de 80 % de leur temps, en fait) et qu’une grande partie de ces activités de préparation des données concerne le « Data wrangling ».
Sommaire
- Brève explication du data wrangling
- Pourquoi le traitement des données est si important
- Étapes du data wrangling
- Défis du data wrangling
- Techniques et outils
- Le jeu en vaut-il la chandelle ?
Une brève explication du Data Wrangling
Le Data Wrangling est l’ensemble des opérations qui permet de convertir les données brutes afin de les préparer pour une analyse ultérieure par les Data Wranglers, également appelés mungers. Cela signifie que le traitement des données est le travail effectué sur les données avant qu’elles ne soient décomposées par une analyse approfondie. Le traitement des données consiste à évaluer la qualité des données en fonction du contexte et à les convertir dans le format nécessaire à une analyse ultérieure.
Si vous vous demandez si le data wrangling est vraiment nécessaire, imaginez ce processus comme la pose des fondations d’une maison.
Pourquoi le traitement des données est-il si important ?
Le traitement des données génère des informations structurées qui peuvent être utilisées dans le cadre d’activités analytiques :
- création d’un tableau de base analytique (ABT)
- analyse de séries chronologiques
- création d’indicateurs clés de performance (KPI)
- création de tableaux de bord (Business Intelligence)
- création de modèles prédictifs
La génération de tels ensembles de données structurés est un défi en soi. Cependant, si l’on investit le temps nécessaire dans un traitement précis et complet des données, on obtient les bases solides requises pour effectuer des tâches analytiques significatives.
Étapes du Data Wrangling
Traiter les données en amont permet de rendre l’analyse (en aval) plus rapide et efficace. Bien que le traitement des données soit quelque peu fastidieux, le jeu en vaut donc la chandelle.
Le traitement des données commence par une étape de découverte, ce qui permet de se familiariser avec les données. La structuration des données suit bien évidemment la collecte de données brutes. Bien que ces données manquent de structure, elles doivent être restructurées en fonction du modèle analytique choisi par l’entreprise.
L’étape suivante est le nettoyage des données, qui consiste à « corriger » les données brutes avant de les faire passer à l’étape suivante. Le nettoyage est centré sur le traitement des valeurs aberrantes, les corrections et l’élimination des mauvaises données.
Vient ensuite l’enrichissement des données. C’est l’occasion « d’augmenter » les données, de les compléter afin de servir les besoins du métier
Une fois les données enrichies, il est temps de les valider. La validation des données permet de mettre en évidence les problèmes de qualité potentiels afin de les traiter et de les traiter si nécessaire. Le moyen le plus simple et le plus rapide de valider vos données est d’utiliser un outil de modélisation automatique : En effet, lors de presque toutes les activités de modélisation prédictive, toutes les incohérences dans les données remontent directement à la surface et il est alors facile et direct de les corriger en amont. Avec un outil auto-ml, en quelques clics de souris, vous pouvez ainsi valider toutes vos ABT.
Les défis du Data Wrangling
Lorsque vous vous engagez dans des activités de data wrangling, vous manipulez vos données avec l’objectif principal de répondre à une question spécifique liée à votre activité. Cela signifie que la transformation appliquée à vos données sera guidée par la nature même des questions commerciales que vous tentez de résoudre. Cela signifie également que, pour s’engager dans des activités d’extraction de données qui ont du sens, une bonne compréhension du processus métier analysé est nécessaire. Ainsi, la plupart du temps, vous constaterez que les « analystes métier » sont les profils les plus qualifiés pour effectuer des activités de data wrangling car ce sont ceux qui « connaissent le mieux votre entreprise » et ce sont ceux qui « connaissent aussi parfaitement toutes les petites subtilités de vos sources de données ».
Si les « business analysts » sont les meilleurs profils pour faire parler vos données, ils sont malheureusement souvent réfractaires au code. La manipulation de données complexes peut donc rapidement devenir un défi qui aura des conséquences en termes d’efficacité. Ainsi, bien souvent, le véritable défi des Data wranglers est tout simplement l’utilisation de code barbare et de procédures incompréhensibles que les Data wranglers doivent écrire pour mettre les données dans la « bonne forme ». Si vous avez déjà dû écrire des commandes SQL hautes de 3 écrans, vous savez ce que je veux dire …
Heureusement, il existe des outils spécialisés dans le traitement des données qui permettent de créer n’importe quelle transformation de données, quelle que soit sa complexité, sans écrire une seule ligne de code. Le « No Code » sonne la libération des business analysts. Ces outils se sont les ETL. J’ai exposé dans cet article les fonctionnalités des ETL qui me semblaient les plus importantes, et dans cet autre j’ai comparé 4 solutions du marché.
Il n’est pas exagéré de dire qu’avec les outils No-Code modernes, le traitement des données devient presque un jeu.
Techniques et outils pour le traitement des données
Les initiés insistent sur le fait que la grande majorité des analystes consacrent la majeure partie de leurs heures de travail à la manipulation des données au lieu de les analyser réellement. Historiquement, les personnes chargées du traitement des données étaient des professionnels hautement qualifiés maîtrisant des langages tels que Python et R. Il s’agissait donc de développeurs avant tout et la génération des ETL « No-Code » a donc changé la donne.
Le data wrangling est réalisé à l’aide de techniques et d’outils spécifiques. Parmi les exemples d’outils à usage générique qui peuvent être utilisés pour faire du data-wrangling, on peut citer le code VBA des feuilles de calcul Microsoft Excel, le code R, le code Python et le code Perl. OpenRefine, une version plus avancée de Microsoft Excel, est également utilisée. En général, lorsque vous utilisez R, vous utiliserez ces bibliothèques : JSOnline (utile pour l’analyse syntaxique), Purrr (aide aux opérations des fonctions de liste), DPlyr (outil d’encadrement de la manipulation des données). Aujourd’hui, il existe des outils spécialisés qui se concentrent presque entièrement sur la manipulation des données : Anatella (qui fait partie de la TIMi Suite), Alteryx, Altair Monarch, etc.
Data Wrangling : le jeu en vaut-il la chandelle ?
Si vous vous demandez si le data wrangling est vraiment nécessaire, imaginez ce processus comme la pose des fondations d’une maison. Votre maison ne tiendra pas si ses fondations ne sont pas solides. Par analogie, vos « produits » analytiques (kpi’s, modèles, etc.) ne seront pertinents que si ils sont basés sur des données qui sont passées par un processus de préparation solide.
Investir du temps dans le data wrangling (collecte, nettoyage, enrichissement, structuration d’informations provenant de plusieurs sources), permet de soutenir votre processus décisionnel.
Bien que le traitement des données ne soit pas facile, il est à mon sens indispensable car il est à la base de toutes vos initiatives en matière de « data ».
Source: IntoTheMind