{"id":15930,"date":"2021-10-19T09:56:52","date_gmt":"2021-10-19T09:56:52","guid":{"rendered":"https:\/\/timi.eu\/?p=15930"},"modified":"2022-02-02T12:10:41","modified_gmt":"2022-02-02T12:10:41","slug":"les-11-defis-de-la-data-preparation-et-du-data-wrangling","status":"publish","type":"post","link":"https:\/\/timi.eu\/fr\/blog-fr\/les-11-defis-de-la-data-preparation-et-du-data-wrangling\/","title":{"rendered":"Les 11 d\u00e9fis de la data pr\u00e9paration et du data wrangling"},"content":{"rendered":"\n<div\n\t role=\"navigation\" aria-label=\"S\u00e9lecteur de langue\" class=\"wpml-ls-statics-shortcode_actions wpml-ls wpml-ls-legacy-dropdown js-wpml-ls-legacy-dropdown\">\n\t<ul>\n\t\t<li class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-fr wpml-ls-current-language wpml-ls-item-legacy-dropdown\">\n\t\t\t\t\t\t\t\t\t<a href=\"#\" hreflang=\"fr\" lang=\"fr\" class=\"js-wpml-ls-item-toggle wpml-ls-item-toggle\" aria-current=\"page\" aria-expanded=\"false\" aria-controls=\"wpml-ls-submenu-default\" aria-label=\"Fran\u00e7ais \u2013 S\u00e9lecteur de langue, appuyez sur tabulation pour naviguer vers d&#039;autres langues\" title=\"Passer \u00e0 Fran\u00e7ais\">\n\t\t\t\t                                    <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/fr.svg\"\n            alt=\"\"\n            loading=\"lazy\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-native\">Fran\u00e7ais<\/span><\/a>\n\n\t\t\t<ul id=\"wpml-ls-submenu-default\" class=\"wpml-ls-sub-menu\">\n\t\t\t\t\n\t\t\t\t\t<li class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-en wpml-ls-first-item\">\n\t\t\t\t\t\t<a href=\"https:\/\/timi.eu\/\" hreflang=\"en\" lang=\"en\" class=\"wpml-ls-link\" aria-label=\"Passer \u00e0 Anglais\" title=\"Passer \u00e0 Anglais\">\n\t\t\t\t\t\t\t                                    <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/en.svg\"\n            alt=\"\"\n            loading=\"lazy\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-display\">Anglais<\/span><\/a>\n\t\t\t\t\t<\/li>\n\n\t\t\t\t\n\t\t\t\t\t<li class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-es\">\n\t\t\t\t\t\t<a href=\"https:\/\/timi.eu\/es\/\" hreflang=\"es\" lang=\"es\" class=\"wpml-ls-link\" aria-label=\"Passer \u00e0 Espagnol\" title=\"Passer \u00e0 Espagnol\">\n\t\t\t\t\t\t\t                                    <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/es.svg\"\n            alt=\"\"\n            loading=\"lazy\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-display\">Espagnol<\/span><\/a>\n\t\t\t\t\t<\/li>\n\n\t\t\t\t\n\t\t\t\t\t<li class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-nl\">\n\t\t\t\t\t\t<a href=\"https:\/\/timi.eu\/nl\/\" hreflang=\"nl\" lang=\"nl\" class=\"wpml-ls-link\" aria-label=\"Passer \u00e0 N\u00e9erlandais\" title=\"Passer \u00e0 N\u00e9erlandais\">\n\t\t\t\t\t\t\t                                    <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/nl.svg\"\n            alt=\"\"\n            loading=\"lazy\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-display\">N\u00e9erlandais<\/span><\/a>\n\t\t\t\t\t<\/li>\n\n\t\t\t\t\n\t\t\t\t\t<li class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-ru wpml-ls-last-item\">\n\t\t\t\t\t\t<a href=\"https:\/\/timi.eu\/ru\/\" hreflang=\"ru\" lang=\"ru\" class=\"wpml-ls-link\" aria-label=\"Passer \u00e0 Russe\" title=\"Passer \u00e0 Russe\">\n\t\t\t\t\t\t\t                                    <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/ru.svg\"\n            alt=\"\"\n            loading=\"lazy\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-display\">Russe<\/span><\/a>\n\t\t\t\t\t<\/li>\n\n\t\t\t\t\t\t\t<\/ul>\n\n\t\t<\/li>\n\n\t<\/ul>\n<\/div>\n\n<h1>Les 11 d\u00e9fis de la data pr\u00e9paration et du data wrangling<\/h1>\n<p>Les \u00e9v\u00e8nements de 2020 ont acc\u00e9l\u00e9r\u00e9 le basculement vers le t\u00e9l\u00e9travail et les relations digitales. Avec la digitalisation, une autre transformation est \u00e9galement en marche: la transformation analytique. Pour faire face \u00e0 cette r\u00e9volution des donn\u00e9es, je trouve que les entreprises ne disposent pas forc\u00e9ment des bons outils quand il s\u2019agit de pr\u00e9parer et d\u2019analyser les donn\u00e9es (c\u2019est la&nbsp;<a href=\"\/fr\/blog-fr\/data-preparation-definition-exemples-conseils\/\">data preparation<\/a>&nbsp;ou le&nbsp;<a href=\"\/fr\/blog-fr\/data-wrangling-definition-etapes-outils\/\">data wrangling<\/a>).<\/p>\n<p>Dans cet article j\u2019ai voulu remettre en perspective le r\u00f4le de ces outils dans le fonctionnement de l\u2019entreprise. En particulier je pense qu\u2019ils peuvent contribuer \u00e0 gagner en efficacit\u00e9 et ce que je vais donc m\u2019efforcer de d\u00e9montrer. J\u2019ai d\u00e9fini en particulier&nbsp;<strong>11 caract\u00e9ristiques qui d\u00e9finissent la solution parfaite de data wrangling \/ data preparation<\/strong>.<\/p>\n<h2>Sommaire<\/h2>\n<ul>\n<li><a href=\"#para1\">La transformation \u00ab&nbsp;data&nbsp;\u00bb : un d\u00e9fi pour les ressources humaines<\/a><\/li>\n<li>Les 11 caract\u00e9ristiques d\u2019un bon outil de data wrangling \/ data preparation\n<ol>\n<li><a href=\"#para2\">self-service<\/a><\/li>\n<li><a href=\"#para3\">rapide<\/a><\/li>\n<li><a href=\"#para4\">f\u00e9d\u00e9rateur<\/a><\/li>\n<li><a href=\"#para5\">it\u00e9ratif<\/a><\/li>\n<li><a href=\"#para6\">adapt\u00e9 aux grands volumes<\/a><\/li>\n<li><a href=\"#para7\">puissant<\/a><\/li>\n<li><a href=\"#para8\">sans co\u00fbts variables<\/a><\/li>\n<li><a href=\"#para9\">facilitateur de l\u2019industrialisation<\/a><\/li>\n<li><a href=\"#para10\">int\u00e9gr\u00e9<\/a><\/li>\n<li><a href=\"#para11\">avec de nombreux connecteurs<\/a><\/li>\n<li><a href=\"#para12\">permettant une large gamme de transformations<\/a><\/li>\n<\/ol>\n<\/li>\n<li><a href=\"#para13\">Conclusions<\/a><\/li>\n<\/ul>\n<h2><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-15534\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/04\/big-data-banner.jpg\" alt=\"\" width=\"1200\" height=\"400\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/04\/big-data-banner.jpg 1200w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/04\/big-data-banner-600x200.jpg 600w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/04\/big-data-banner-300x100.jpg 300w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/04\/big-data-banner-1024x341.jpg 1024w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/04\/big-data-banner-768x256.jpg 768w\" sizes=\"(max-width: 1200px) 100vw, 1200px\" \/><\/h2>\n<h2><a id=\"para1\" style=\"position:relative;top:-450px;\"><\/a>La transformation \u00ab data \u00bb : un d\u00e9fi pour les ressources humaines<\/h2>\n<p>Historiquement, la g\u00e9n\u00e9ration de valeur \u00e0 partir de donn\u00e9es \u00e9tait effectu\u00e9e par des profils sp\u00e9cialis\u00e9s et couteux (docteurs en data science, codeurs en R\/Python). Si l\u2019externalisation est toujours possible pour des besoins ponctuels, elle pr\u00e9sente un inconv\u00e9nient majeur : les consultants externes ne comprennent pas votre m\u00e9tier et ont besoin de temps pour saisir les subtilit\u00e9s cach\u00e9es de vos donn\u00e9es.<\/p>\n<p>Pour pouvoir pleinement b\u00e9n\u00e9ficier de vos donn\u00e9es et rapidement en tirer toute la connaissance et la valeur, il est d\u00e8s lors important d\u2019internaliser l\u2019expertise data et de mettre \u00e0 disposition des outils utilisables par le plus grand nombre. L\u2019utilisation par tous les analystes d\u2019outils de \u00ab&nbsp;<a href=\"\/fr\/blog-fr\/data-preparation-definition-exemples-conseils\/\" target=\"_blank\" rel=\"noopener\">data preparation<\/a>&nbsp;\u00bb en self-service me semble ainsi essentiel. Ce sont en effet ces personnes qui comprennent le probl\u00e8me business \u00e0 r\u00e9soudre et qui sont donc le plus \u00e0 m\u00eame de le r\u00e9soudre si on leur en donne les moyens techniques.<\/p>\n<blockquote class=\"wp-block-quote\" style=\"font-size: 24px; line-height: 28px; margin: 10px 0px 30px 20px;\">\n<p><img decoding=\"async\" loading=\"lazy\" class=\"size-thumbnail wp-image-13436 alignleft\" src=\"\/wp-content\/uploads\/2021\/01\/quotes-150x150.png\" alt=\"\" width=\"75\" height=\"75\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/01\/quotes-150x150.png 150w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/01\/quotes-300x300.png 300w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/01\/quotes-100x100.png 100w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/01\/quotes-85x85.png 85w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/01\/quotes.png 500w\" sizes=\"(max-width: 75px) 100vw, 75px\" \/><span style=\"position: relative; top: 10px;\">Internaliser l\u2019expertise data et mettre \u00e0 disposition des outils utilisables par le plus grand nombre est essentiel.<\/span><\/p>\n<\/blockquote>\n<p><strong>Cette approche permet \u00e0 la d\u00e9marche analytique de sortir du carcan du d\u00e9partement \u00abData Science\u00bb.<\/strong> C\u2019est \u00e9galement un \u00e9l\u00e9ment crucial pour insuffler une culture analytique globale.<\/p>\n<p>En fait, les exemples sont nombreux de personnes au sein des entreprises qui manipulent d\u00e9j\u00e0 les donn\u00e9es. Dans 99% des cas&nbsp;tout se fait avec Excel&nbsp;et c\u2019est l\u00e0 que des&nbsp;<strong>gains d\u2019efficacit\u00e9 \u00e9normes peuvent \u00eatre r\u00e9alis\u00e9s<\/strong>. En effet les bons outils de data preparation offrent des solutions \u00e0 toutes les limitations d\u2019Excel (transformations complexes, multiplicit\u00e9s des formats de donn\u00e9es, volume, \u2026).<\/p>\n<p>Dans les paragraphes suivants j\u2019explique ce que doivent \u00eatre, d\u2019apr\u00e8s moi, les 11 caract\u00e9ristiques d\u2019un bon outil de data preparation.<\/p>\n<p><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-16901\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner1-2-470x157-1.jpg\" alt=\"\" width=\"470\" height=\"157\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner1-2-470x157-1.jpg 470w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner1-2-470x157-1-300x100.jpg 300w\" sizes=\"(max-width: 470px) 100vw, 470px\" \/><\/p>\n<h2><a id=\"para2\" style=\"position:relative;top:-450px;\"><\/a>L\u2019outil de data wrangling doit \u00eatre outil en \u00ab self-service \u00bb \u2026<\/h2>\n<p>Un outil de data preparation en self-service permet \u00e0 vos analystes de r\u00e9soudre plus rapidement les probl\u00e8mes m\u00e9tier. Ils comprennent les donn\u00e9es et leur contexte et gr\u00e2ce \u00e0 un outil idoine ils sont donc autonomes dans la r\u00e9solution.<\/p>\n<p><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-16907\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner2-2-470x157-1.jpg\" alt=\"\" width=\"470\" height=\"157\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner2-2-470x157-1.jpg 470w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner2-2-470x157-1-300x100.jpg 300w\" sizes=\"(max-width: 470px) 100vw, 470px\" \/><\/p>\n<h2><a id=\"para3\" style=\"position:relative;top:-450px;\"><\/a>La pr\u00e9paration des donn\u00e9es doit \u00eatre rapide<\/h2>\n<p>Typiquement, les&nbsp;<em>data scientists<\/em>&nbsp;consacrent plus de 85% de leur temps \u00e0 faire de la \u00ab data pr\u00e9paration \u00bb. Un outil permettant un gain de vitesse et de productivit\u00e9 pour la \u00ab data pr\u00e9paration \u00bb est donc le bienvenu !<\/p>\n<p>En particulier, les data scientistes les plus exp\u00e9riment\u00e9s ont depuis longtemps r\u00e9alis\u00e9 que,&nbsp;<strong>pour pouvoir faire un travail de meilleure qualit\u00e9, il fallait r\u00e9duire le temps consacr\u00e9 \u00e0 la \u00ab data preparation \u00bb.<\/strong> C\u2019est pourquoi, tout comme les analystes-business, les data scientists les plus exp\u00e9riment\u00e9s sont demandeurs d\u2019un outil en \u00ab self-service \u00bb, \u00e0 la souris, car cela leur permet d\u2019avoir un gain immense en productivit\u00e9 en en temps lors de la phase, toujours couteuse, de \u00ab data preparation \u00bb.<\/p>\n<p><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-16912\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner3-2-470x157-1.jpg\" alt=\"\" width=\"470\" height=\"157\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner3-2-470x157-1.jpg 470w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner3-2-470x157-1-300x100.jpg 300w\" sizes=\"(max-width: 470px) 100vw, 470px\" \/><\/p>\n<h2><a id=\"para4\" style=\"position:relative;top:-450px;\"><\/a>L\u2019outil choisi doit \u00eatre f\u00e9d\u00e9rateur<\/h2>\n<p>Un outil qui&nbsp;<strong>favorise et facilite la collaboration entre les analystes business (orient\u00e9s m\u00e9tier) et les&nbsp;<em>data scientists<\/em>&nbsp;(orient\u00e9s technique)<\/strong> me semble indispensable. Sans cet aspect f\u00e9d\u00e9rateur, il est difficile d\u2019arriver \u00e0 une culture analytique globale au sein de votre entreprise.<\/p>\n<p>L\u2019aspect f\u00e9d\u00e9rateur d\u2019un outil de \u00ab&nbsp;data pr\u00e9paration&nbsp;\u00bb est peut-\u00eatre le plus difficile \u00e0 obtenir car les besoins des utilisateurs m\u00e9tiers sont souvent \u00e9loign\u00e9s des besoins des \u00ab&nbsp;data scientistes&nbsp;\u00bb :<\/p>\n<ul>\n<li>Les analystes-business \u00e9vitent le code et veulent acc\u00e9der facilement et imm\u00e9diatement \u00e0 l\u2019information souhait\u00e9e. Ils travaillent souvent avec des petites volum\u00e9tries et sans employer d\u2019algorithmes de grandes complexit\u00e9s.<\/li>\n<li>Les \u00ab data scientistes \u00bb aiment coder et ce n\u2019est pas l\u2019\u00e9criture d\u2019un petit millier de lignes de code en R\/Python qui vont les arr\u00eater (apr\u00e8s tout, ce n\u2019est qu\u2019une petite journ\u00e9e de travail !). Ils travaillent souvent avec des volum\u00e9tries plus importantes et emploient des algorithmes complexes. Pour satisfaire les exigences des data scientistes les plus pointus, l\u2019outil de data pr\u00e9paration utilis\u00e9 en entreprise doit donc permettre :\n<ul>\n<li>de manipuler des grandes volum\u00e9tries de donn\u00e9es,<\/li>\n<li>de coder en R\/Python,<\/li>\n<li>de cr\u00e9er des features (pour le \u00ab feature engineering \u00bb) complexes,<\/li>\n<li>d\u2019utiliser des algorithmes AI de derni\u00e8re g\u00e9n\u00e9ration<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p>Sans ces propri\u00e9t\u00e9s, vous n\u2019obtiendrez pas l\u2019aspect \u00ab\u00a0f\u00e9d\u00e9rateur\u00a0\u00bb et une culture analytique globale au sein de votre entreprise sera hors de port\u00e9e.<\/p>\n<hr class=\"clearfix\">\n<h2><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-16917\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner4-2-470x157-1.jpg\" alt=\"\" width=\"470\" height=\"157\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner4-2-470x157-1.jpg 470w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner4-2-470x157-1-300x100.jpg 300w\" sizes=\"(max-width: 470px) 100vw, 470px\" \/><\/h2>\n<h2><a id=\"para5\" style=\"position:relative;top:-450px;\"><\/a>Possibilit\u00e9 de travail par it\u00e9ration<\/h2>\n<p>Le travail sur les donn\u00e9es est sans fin et doit \u00eatre vu comme un cycle. Le cycle repr\u00e9sent\u00e9 sch\u00e9matiquement ci-dessous montre bien que le travail est sans fin. Il est aliment\u00e9 en permanence par de nouvelles donn\u00e9es : les donn\u00e9es actualis\u00e9es d\u2019une part, les donn\u00e9es provenant de nouvelles sources d\u2019autre part.<\/p>\n<p><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-16957\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/cycle-valeur-donnees-acquisition-stockage-exploitation-470x313-1.png\" alt=\"\" width=\"470\" height=\"313\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/cycle-valeur-donnees-acquisition-stockage-exploitation-470x313-1.png 470w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/cycle-valeur-donnees-acquisition-stockage-exploitation-470x313-1-300x200.png 300w\" sizes=\"(max-width: 470px) 100vw, 470px\" \/><\/p>\n<p>Le traitement des donn\u00e9es n\u2019est donc pas une fin en soi. C\u2019est un cycle, un \u00e9ternel recommencement. Les outils utilis\u00e9s doivent donc pouvoir g\u00e9rer les cycles de mise \u00e0 jour.<\/p>\n<div style=\"background-color: #eee; padding: 30px; margin: 30px 0 30px 0;\">\n<h2>Exemple de traitement it\u00e9ratif des donn\u00e9es<\/h2>\n<p>Beaucoup d\u2019entreprises utilisent des fichiers excel pour collecter (et \u00e9changer) des donn\u00e9es aupr\u00e8s de leurs employ\u00e9s. Que se passe-t-il quand un employ\u00e9 d\u00e9cide de l\u00e9g\u00e8rement modifier la structure d\u2019un fichier Excel pour qu\u2019il soit mieux adapt\u00e9 au probl\u00e8me business \u00e0 r\u00e9soudre ?<\/p>\n<p>Cette petite modification impose la mise-\u00e0-jour du processus de \u00ab data wrangling \u00bb qui collecte les donn\u00e9es hors de ces m\u00eames fichiers Excel. Si ce processus de \u00ab data wrangling \u00bb est \u00ab opaque \u00bb (car programm\u00e9 dans un langage incompr\u00e9hensible que seul des initi\u00e9s comprennent, et cela uniquement la journ\u00e9e o\u00f9 ils ont \u00e9crit le code), alors tout le processus de collecte des donn\u00e9es se retrouve compromis. Ceci conduit \u00e0 la production de donn\u00e9es invalides et, en bout de cha\u00eene, \u00e0 des d\u00e9cisions erron\u00e9es. Combien de fois avez-vous entendu un coll\u00e8gue vous dire que ce KPI \u00e9tait absurde et qu\u2019il ne faillait pas en tenir compte ? Cette absence (ici justifi\u00e9e) de confiance dans les r\u00e9sultats analytiques trouve bien souvent son origine dans l\u2019utilisation d\u2019outils de \u00ab data wrangling \u00bb trop peu transparents.<\/p>\n<p style=\"text-align: center;\"><iframe loading=\"lazy\" title=\"YouTube video player\" src=\"https:\/\/www.youtube.com\/embed\/o1JsjADJy0o\" width=\"640\" height=\"400\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-mce-fragment=\"1\"><\/iframe><\/p>\n<\/div>\n<h2><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-16922\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner5-2-470x157-1.jpg\" alt=\"\" width=\"470\" height=\"157\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner5-2-470x157-1.jpg 470w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner5-2-470x157-1-300x100.jpg 300w\" sizes=\"(max-width: 470px) 100vw, 470px\" \/><\/h2>\n<h2><a id=\"para6\" style=\"position:relative;top:-450px;\"><\/a>Adaptation aux grands volumes de donn\u00e9es<\/h2>\n<p>Je d\u00e9fends l\u2019id\u00e9e d\u2019outils adapt\u00e9s au traitement&nbsp;<em>rapide<\/em>&nbsp;de grands volumes de donn\u00e9es \u00e0 ce sujet <a href=\"\/blog\/cloud\/\">l\u2019article du blog \u00ab TIMi vs Spark \u00bb<\/a>. Le temps de traitement est \u00e9videmment corr\u00e9l\u00e9 au volume de donn\u00e9es \u00e0 traiter. Or, trop souvent, les outils qui sont mis \u00e0 disposition des business analystes sont trop lents ou ne permettent pas de g\u00e9rer les grands volumes de donn\u00e9es.<\/p>\n<hr class=\"clearfix\">\n<h2><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-16927\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner6-2-470x157-1.jpg\" alt=\"\" width=\"470\" height=\"157\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner6-2-470x157-1.jpg 470w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner6-2-470x157-1-300x100.jpg 300w\" sizes=\"(max-width: 470px) 100vw, 470px\" \/><\/h2>\n<h2><a id=\"para7\" style=\"position:relative;top:-450px;\"><\/a>Un outil puissant ind\u00e9pendamment des ressources dans le cloud<\/h2>\n<p>La question de la puissance de calcul dans la data preparation est \u00e0 mon avis centrale.&nbsp;<strong>Pour rendre l\u2019autonomie aux analystes, il faut leur permettre de r\u00e9pondre \u00e0 toutes leurs questions sans d\u00e9pendre de l\u2019acc\u00e8s (ou non) \u00e0 un \u00ab&nbsp;cluster&nbsp;\u00bb de machines dans le cloud.<\/strong>&nbsp;Si la puissance de calcul disponible vous contraint dans vos analyses, vous en retirerez une certaine frustration et n\u2019obtiendrez jamais de culture analytique.<\/p>\n<p>Bien qu\u2019il soit maintenant tr\u00e8s ais\u00e9 de cr\u00e9er des \u00ab&nbsp;cluster&nbsp;\u00bb de machines dans le cloud, le prix n\u2019en reste pas moins \u00e9lev\u00e9. A cause de ce prix \u00e9lev\u00e9, une soci\u00e9t\u00e9 \u00ab&nbsp;normale&nbsp;\u00bb se limitera \u00e0 la cr\u00e9ation d\u2019un seul \u00ab&nbsp;cluster cloud&nbsp;\u00bb (voire maximum deux). L\u2019utilisation de ce cluster sera en outre r\u00e9serv\u00e9e \u00e0 un petit nombre de data scientists.<\/p>\n<p>On comprend tout de suite que, dans ces conditions, le d\u00e9veloppement d\u2019une culture analytique globale est compromis. Si seulement 2 personnes ont acc\u00e8s au cluster, comment voulez-vous gagner en efficacit\u00e9 et ne pas cr\u00e9er des goulots d\u2019\u00e9tranglement ?<\/p>\n<p>Outre le prix prohibitif du cloud, il y a aussi la question de la souverainet\u00e9 des donn\u00e9es quand ces derni\u00e8res sont stock\u00e9es sur un cloud am\u00e9ricain. Pour plus de d\u00e9tails sur ce sujet : voir la d\u00e9cision \u2018Schrems II\u2019 du dossier C-311\/18&nbsp;<a href=\"https:\/\/edpb.europa.eu\/our-work-tools\/our-documents\/other\/frequently-asked-questions-judgment-court-justice-european-union_en\" target=\"_blank\" rel=\"noopener\">ici<\/a>.<\/p>\n<hr class=\"clearfix\">\n<h2><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-16932\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner7-2-470x157-1.jpg\" alt=\"\" width=\"470\" height=\"157\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner7-2-470x157-1.jpg 470w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner7-2-470x157-1-300x100.jpg 300w\" sizes=\"(max-width: 470px) 100vw, 470px\" \/><\/h2>\n<h2><a id=\"para8\" style=\"position:relative;top:-450px;\"><\/a>Un outil aux co\u00fbts fixes<\/h2>\n<p>Je suis assez allergiques \u00e0 l\u2019id\u00e9e de ne pas savoir \u00e0 l\u2019avance ce que va me co\u00fbter l\u2019analyse des donn\u00e9es. Pourtant c\u2019est la situation dans laquelle se trouvent toutes les entreprises qui utilisent AWS ou Azure pour le traitement de leurs donn\u00e9es. La variabilit\u00e9 des co\u00fbts ne permet pas d\u2019anticiper le montant de la prochaine facture. En d\u2019autres termes,&nbsp;<strong>un co\u00fbt variable est associ\u00e9 \u00e0 chaque question analytique<\/strong>.<\/p>\n<p>Une propri\u00e9t\u00e9 inh\u00e9rente aux \u00ab&nbsp;clusters clouds&nbsp;\u00bb est le \u00ab co\u00fbt variable \u00bb li\u00e9 \u00e0 chaque question analytique. C\u2019est peut-\u00eatre m\u00eame le \u00ab Key Selling Point \u00bb des offres des g\u00e9ants du cloud : \u00ab Vous ne payez que ce que vous utilisez \u00bb.<\/p>\n<p>Un data scientist motiv\u00e9 sera ainsi \u00e0 l\u2019origine de co\u00fbts variables plus \u00e9lev\u00e9s car il fera un usage intensif du \u00ab cluster cloud \u00bb pour essayer de comprendre au mieux les donn\u00e9es. Au contraire, un data scientist moins motiv\u00e9 occasionnera des co\u00fbts variables moins importants.<\/p>\n<blockquote class=\"wp-block-quote\" style=\"font-size: 24px; line-height: 28px; margin: 10px 0px 30px 20px;\">\n<p><img decoding=\"async\" loading=\"lazy\" class=\"size-thumbnail wp-image-13436 alignleft\" src=\"\/wp-content\/uploads\/2021\/01\/quotes-150x150.png\" alt=\"\" width=\"75\" height=\"75\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/01\/quotes-150x150.png 150w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/01\/quotes-300x300.png 300w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/01\/quotes-100x100.png 100w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/01\/quotes-85x85.png 85w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/01\/quotes.png 500w\" sizes=\"(max-width: 75px) 100vw, 75px\" \/><span style=\"position: relative; top: 10px;\">Le monitoring des co\u00fbts de processing dans \u00ab&nbsp;cloud&nbsp;\u00bb sanctionne les data scientists les plus actifs et les plus motiv\u00e9s.<\/span><\/p>\n<\/blockquote>\n<p>Comme l\u2019\u00e9valuation des data scientists se fait toujours en grande partie sur les co\u00fbts qu\u2019ils engendrent, on aboutit \u00e0 une situation paradoxale. Ceux qui travaillent le plus et qui qui sont les plus motiv\u00e9s sont p\u00e9nalis\u00e9s. L\u2019usage parcimonieux \u00bb du cluster devient ainsi la norme. Comme c\u2019est une situation qui arrive tout le temps, il existe maintenant une pl\u00e9thore d\u2019outils sp\u00e9cialis\u00e9s dans le \u00ab monitoring du cloud \u00bb qui permettent de sanctionner et de couper l\u2019acc\u00e8s aux ressources de calculs \u00e0 tous les data scientistes un tant soit peu motiv\u00e9s. Dans ces conditions, on comprendra tout de suite que garder la motivation des data scientists risque d\u2019\u00eatre difficile.<\/p>\n<p>Pour finir sur ce sujet, un outil de data wrangling qui fonctionne en \u00ab&nbsp;co\u00fbts variables&nbsp;\u00bb (comme 99% des solutions clouds) a pour effet de p\u00e9naliser, d\u00e9courager et finalement emp\u00eacher vos meilleurs \u00e9l\u00e9ments de travailler.<\/p>\n<hr class=\"clearfix\">\n<h2><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-16937\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner8-2-470x157-1.jpg\" alt=\"\" width=\"470\" height=\"157\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner8-2-470x157-1.jpg 470w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner8-2-470x157-1-300x100.jpg 300w\" sizes=\"(max-width: 470px) 100vw, 470px\" \/><\/h2>\n<h2><a id=\"para9\" style=\"position:relative;top:-450px;\"><\/a>Faciliter l\u2019industrialisation<\/h2>\n<p>Un bon outil de data wrangling doit permettre de facilement industrialiser et automatiser les \u00ab&nbsp;recettes&nbsp;\u00bb d\u00e9velopp\u00e9s par vos \u00e9quipes.<\/p>\n<p>Voici quelques caract\u00e9ristiques qui sont importantes pour la tranquillit\u00e9 d&rsquo;esprit de vos \u00e9quipes IT :<\/p>\n<ul>\n<li>int\u00e9gration facile avec tout programme de scheduling (par exemple : le \u00ab&nbsp;task scheduler&nbsp;\u00bb de MS-Windows ou encore Jenkins).<\/li>\n<li>mise en place facile au sein de votre infrastructure IT actuelle et\/ou au sein d\u2019autres langages ou autres framework data. Par exemple, le fait de pouvoir appeler une proc\u00e9dure de \u00ab&nbsp;data wrangling&nbsp;\u00bb \u00e0 partir d\u2019un petit script Python est un must.<\/li>\n<li>assez robuste pour \u00ab&nbsp;encaisser&nbsp;\u00bb une augmentation soudaine de volum\u00e9trie dans les donn\u00e9es sans tout faire planter.<\/li>\n<\/ul>\n<hr class=\"clearfix\">\n<h2><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-16942\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner9-2-470x157-1.jpg\" alt=\"\" width=\"470\" height=\"157\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner9-2-470x157-1.jpg 470w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner9-2-470x157-1-300x100.jpg 300w\" sizes=\"(max-width: 470px) 100vw, 470px\" \/><\/h2>\n<h2><a id=\"para10\" style=\"position:relative;top:-450px;\"><\/a>Outil int\u00e9gr\u00e9<\/h2>\n<p>Certaines solutions d\u2019ETL n\u2019en sont pas vraiment car la partie \u00ab&nbsp;transformation&nbsp;\u00bb (le \u00ab&nbsp;T&nbsp;\u00bb) est absente ou insuffisamment d\u00e9velopp\u00e9e. En ce qui me concerne je donne donc la priorit\u00e9 aux outils qui couvrent l\u2019ensemble des 3 parties du cycle des donn\u00e9es : acquisition, stockage, exploitation. Il faut pouvoir passer de l\u2019un \u00e0 l\u2019autre sans difficult\u00e9 et sans aucune perte accidentelle d\u2019information.<\/p>\n<hr class=\"clearfix\">\n<h2><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-16947\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner10-2-470x157-1.jpg\" alt=\"\" width=\"470\" height=\"157\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner10-2-470x157-1.jpg 470w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner10-2-470x157-1-300x100.jpg 300w\" sizes=\"(max-width: 470px) 100vw, 470px\" \/><\/h2>\n<h2><a id=\"para11\" style=\"position:relative;top:-450px;\"><\/a>Multiplicit\u00e9 des connecteurs<\/h2>\n<p>J\u2019ai d\u00e9j\u00e0 parl\u00e9 de nombreuses fois de l\u2019importance d\u2019avoir un maximum de connecteurs. Aujourd\u2019hui les donn\u00e9es viennent de partout, dans des formats de plus en plus nombreux et parfois propri\u00e9taires.<\/p>\n<hr class=\"clearfix\">\n<h2><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-16952\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner11-2-470x157-1.jpg\" alt=\"\" width=\"470\" height=\"157\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner11-2-470x157-1.jpg 470w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/10\/banner11-2-470x157-1-300x100.jpg 300w\" sizes=\"(max-width: 470px) 100vw, 470px\" \/><\/h2>\n<h2><a id=\"para12\" style=\"position:relative;top:-450px;\"><\/a>Nombreuses fonctionnalit\u00e9s de transformation des donn\u00e9es<\/h2>\n<p>C\u2019est un point dont j\u2019ai d\u00e9j\u00e0 parl\u00e9 \u00e0 de nombreuses reprises et qui me semble essentiel. Il faut pouvoir disposer d\u2019un maximum de \u00ab&nbsp;bo\u00eetes&nbsp;\u00bb pr\u00e9-programm\u00e9es pour couvrir les op\u00e9rations courantes de transformation des donn\u00e9es.<\/p>\n<p>Bien entendu, toutes les solutions d\u2019ETL dignes de ce nom ont une large gamme de \u00ab&nbsp;bo\u00eetes&nbsp;\u00bb \u00e0 disposition. Mais certaines en ont plus que d\u2019autres : par exemple Anatella.<\/p>\n<p>Ce dernier point parait \u00e9vident mais, de fa\u00e7on assez surprenante, il n\u2019y a, au final, que tr\u00e8s peu de solutions logicielles qui r\u00e9pondent \u00e0 ce besoin. En effet, beaucoup d\u2019\u00e9diteurs de logiciel se contentent de fournir une large connectique et ils oublient totalement l\u2019aspect \u00ab transformation des donn\u00e9es \u00bb qui est au moins une composante aussi importante, si pas plus. Vous voulez des exemples ? En voici deux.<\/p>\n<h3>Le fuzzy matching<\/h3>\n<p>Super utile pour r\u00e9concilier 2 bases de donn\u00e9es quand la qualit\u00e9 n\u2019est pas terrible. Pourtant il n&rsquo;y a que Anatella qui le propose en natif (voir&nbsp;<a href=\"\/fr\/blog-fr\/fuzzy-matching-4-methodes-pour-realiser-une-jointure-dans-anatella\/\">ici<\/a>&nbsp;pour plus d\u2019infos).<\/p>\n<h3>La fonction pivot<\/h3>\n<p>Si vous faites de la data visualisation, pouvoir pivoter ses donn\u00e9es est vraiment la base. Pourtant, l\u00e0 encore, 99% des solutions de data wrangling ne le proposent pas (dans Anatella les boites s\u2019appellent \u00ab&nbsp;flatten&nbsp;\u00bb et \u00ab&nbsp;unflatten&nbsp;\u00bb)<\/p>\n<h2><a id=\"para13\" style=\"position:relative;top:-450px;\"><\/a><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter size-full wp-image-14522\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2020\/11\/conclusion-banner-470x116-2.jpg\" alt=\"Conclusions\" width=\"470\" height=\"116\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2020\/11\/conclusion-banner-470x116-2.jpg 470w, https:\/\/timi.eu\/wp-content\/uploads\/2020\/11\/conclusion-banner-470x116-2-300x74.jpg 300w\" sizes=\"(max-width: 470px) 100vw, 470px\" \/><\/h2>\n<p>Actuellement, Anatella est le seul outil qui r\u00e9ponde enti\u00e8rement au cahier de charge de l\u2019outil de \u00ab&nbsp;data preparation&nbsp;\u00bb id\u00e9al. En effet, Anatella est&nbsp;:<\/p>\n<ul>\n<li>\u2026un outil enti\u00e8rement \u00ab&nbsp;self-service&nbsp;\u00bb \u00e0 la souris.<\/li>\n<li>\u2026un outil extr\u00eamement rapide.<\/li>\n<li>\u2026un outil f\u00e9d\u00e9rateur qui favorise le d\u00e9veloppement d\u2019une culture analytique globale en aidant \u00e0 la collaboration entre les analystes-business (qui sont plus orient\u00e9 m\u00e9tier) et les \u00ab\u00a0data scientistes\u00a0\u00bb (qui sont plus orient\u00e9s codes et algorithmes). Pour plus de d\u00e9tails sur ce sujet, voir <a href=\"https:\/\/timi.eu\/timi\/anatella\/abstraction-layer\/\">ici<\/a>.<\/li>\n<li>\u2026un outil qui permet de manipuler des grandes volum\u00e9tries de donn\u00e9es, de coder en R\/Python, de cr\u00e9er des features (pour le \u00ab&nbsp;feature engineering&nbsp;\u00bb) complexes et d\u2019utiliser des algorithmes AI de derni\u00e8re g\u00e9n\u00e9ration, pour satisfaire les besoins des data scientistes les plus pointus.<\/li>\n<li>\u2026un outil qui permet un travail it\u00e9ratif&nbsp;gr\u00e2ce \u00e0&nbsp;:\n<ul>\n<li>sa repr\u00e9sentation graphique et facilement compr\u00e9hensible des processus de \u00ab&nbsp;data preparation&nbsp;\u00bb<\/li>\n<li><a href=\"https:\/\/timi.eu\/timi\/anatella\/metadatafree\/\">\u2026sa fonctionnalit\u00e9 unique de meta-data free<\/a>.<\/li>\n<\/ul>\n<\/li>\n<li>\u2026un outil qui est suffisamment puissant que pour vous rendre ind\u00e9pendant des \u00ab\u00a0cluster clouds\u00a0\u00bb.<\/li>\n<li>\u2026un outil qui fonctionne sans co\u00fbt variable.<\/li>\n<li>\u2026un outil qui permet de facilement industrialiser et automatiser les processus de \u00ab&nbsp;data-wrangling&nbsp;\u00bb d\u00e9velopp\u00e9s par vos \u00e9quipes.<\/li>\n<li>\u2026un outil qui offre un nombre \u00e9lev\u00e9 de connecteurs pour pouvoir capturer pratiquement n\u2019importe quelles donn\u00e9es de n\u2019importe o\u00f9.<\/li>\n<li>\u2026ou outil \u00ab\u00a0tout int\u00e9gr\u00e9\u00a0\u00bb qui couvre pratiquement tout ce qu\u2019il est possible de faire avec des donn\u00e9es au sein d\u2019une entreprise \u00ab\u00a0orient\u00e9e data\u00a0\u00bb qui souhaite d\u00e9velopper une <strong>culture analytique.<\/strong><\/li>\n<li>\u2026l\u2019outil sur le march\u00e9 qui offre le plus de fonctionnalit\u00e9s de transformation des donn\u00e9es diff\u00e9rentes&nbsp;: Dans Anatella, il y a pr\u00e8s de 400 op\u00e9rateurs de transformations de donn\u00e9es. Avec Anatella, vous avez la garantie d\u2019avoir acc\u00e8s \u00e0 toutes les fonctionnalit\u00e9s n\u00e9cessaires pour toujours pouvoir nettoyer, structurer et enrichir vos donn\u00e9es.<\/li>\n<\/ul>\n\n\n<p><br>Source: <a href=\"https:\/\/www.intotheminds.com\/blog\/defis-data-preparation-data-wrangling\/\" target=\"_blank\" rel=\"noopener\">IntoTheMinds<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"Les \u00e9v\u00e8nements de 2020 ont acc\u00e9l\u00e9r\u00e9 le basculement vers le t\u00e9l\u00e9travail et les relations digitales. Avec la digitalisation, une autre transformation est \u00e9galement en marche: la transformation analytique. Pour faire face \u00e0 cette r\u00e9volution des donn\u00e9es, les entreprises ne disposent pas forc\u00e9ment des bons outils quand il s\u2019agit de pr\u00e9parer et d\u2019analyser les donn\u00e9es. D\u00e9couvrez 11 caract\u00e9ristiques qui d\u00e9finissent la solution parfaite de data wrangling \/ data preparation.","protected":false},"author":1,"featured_media":15931,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[248,184],"tags":[302,326],"_links":{"self":[{"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/posts\/15930"}],"collection":[{"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/comments?post=15930"}],"version-history":[{"count":36,"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/posts\/15930\/revisions"}],"predecessor-version":[{"id":17417,"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/posts\/15930\/revisions\/17417"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/media\/15931"}],"wp:attachment":[{"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/media?parent=15930"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/categories?post=15930"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/timi.eu\/fr\/wp-json\/wp\/v2\/tags?post=15930"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}