{"id":13608,"date":"2021-05-07T18:15:27","date_gmt":"2021-05-07T18:15:27","guid":{"rendered":"https:\/\/timi.eu\/?p=13608"},"modified":"2022-01-20T12:05:41","modified_gmt":"2022-01-20T12:05:41","slug":"so-you-think-ai-classifies-well","status":"publish","type":"post","link":"https:\/\/timi.eu\/es\/blog-es\/news-es\/so-you-think-ai-classifies-well\/","title":{"rendered":"\u00bfLes impresiona la precision de los modelos de IA?"},"content":{"rendered":"\n<div\n\t role=\"navigation\" aria-label=\"Selector de idioma\" class=\"wpml-ls-statics-shortcode_actions wpml-ls wpml-ls-legacy-dropdown js-wpml-ls-legacy-dropdown\">\n\t<ul>\n\t\t<li class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-es wpml-ls-current-language wpml-ls-item-legacy-dropdown\">\n\t\t\t<a href=\"#\" hreflang=\"\" lang=\"\" class=\"js-wpml-ls-item-toggle wpml-ls-item-toggle\" aria-current=\"page\" aria-expanded=\"false\" aria-controls=\"wpml-ls-submenu-default\" aria-label=\"Selector de idioma, pulse tab para navegar a otros idiomas\" title=\"Cambiar a Espa\u00f1ol\">\n\t\t\t\t                                    <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/es.svg\"\n            alt=\"\"\n            loading=\"lazy\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-native\">Espa\u00f1ol<\/span><\/a>\n\n\t\t\t<ul id=\"wpml-ls-submenu-default\" class=\"wpml-ls-sub-menu\">\n\t\t\t\t\n\t\t\t\t\t<li class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-en wpml-ls-first-item\">\n\t\t\t\t\t\t<a href=\"https:\/\/timi.eu\/\" hreflang=\"en\" lang=\"en\" class=\"wpml-ls-link\" aria-label=\"Cambiar a Ingl\u00e9s\" title=\"Cambiar a Ingl\u00e9s\">\n\t\t\t\t\t\t\t                                    <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/en.svg\"\n            alt=\"\"\n            loading=\"lazy\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-display\">Ingl\u00e9s<\/span><\/a>\n\t\t\t\t\t<\/li>\n\n\t\t\t\t\n\t\t\t\t\t<li class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-fr\">\n\t\t\t\t\t\t<a href=\"https:\/\/timi.eu\/fr\/\" hreflang=\"fr\" lang=\"fr\" class=\"wpml-ls-link\" aria-label=\"Cambiar a Franc\u00e9s\" title=\"Cambiar a Franc\u00e9s\">\n\t\t\t\t\t\t\t                                    <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/fr.svg\"\n            alt=\"\"\n            loading=\"lazy\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-display\">Franc\u00e9s<\/span><\/a>\n\t\t\t\t\t<\/li>\n\n\t\t\t\t\n\t\t\t\t\t<li class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-nl\">\n\t\t\t\t\t\t<a href=\"https:\/\/timi.eu\/nl\/\" hreflang=\"nl\" lang=\"nl\" class=\"wpml-ls-link\" aria-label=\"Cambiar a Holand\u00e9s\" title=\"Cambiar a Holand\u00e9s\">\n\t\t\t\t\t\t\t                                    <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/nl.svg\"\n            alt=\"\"\n            loading=\"lazy\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-display\">Holand\u00e9s<\/span><\/a>\n\t\t\t\t\t<\/li>\n\n\t\t\t\t\n\t\t\t\t\t<li class=\"wpml-ls-slot-shortcode_actions wpml-ls-item wpml-ls-item-ru wpml-ls-last-item\">\n\t\t\t\t\t\t<a href=\"https:\/\/timi.eu\/ru\/\" hreflang=\"ru\" lang=\"ru\" class=\"wpml-ls-link\" aria-label=\"Cambiar a Ruso\" title=\"Cambiar a Ruso\">\n\t\t\t\t\t\t\t                                    <img\n            class=\"wpml-ls-flag\"\n            src=\"https:\/\/timi.eu\/wp-content\/plugins\/sitepress-multilingual-cms\/res\/flags\/ru.svg\"\n            alt=\"\"\n            loading=\"lazy\"\n            width=18\n            height=12\n    \/><span class=\"wpml-ls-display\">Ruso<\/span><\/a>\n\t\t\t\t\t<\/li>\n\n\t\t\t\t\t\t\t<\/ul>\n\n\t\t<\/li>\n\n\t<\/ul>\n<\/div>\n\n<h1>\u00bfLes impresiona la precision de los modelos de IA?<\/h1>\n\n\n<p class=\"has-text-align-left\">Hace poco vi un interesante <a href=\"https:\/\/www.linkedin.com\/feed\/update\/urn:li:activity:6789889986486501376\/\">video<\/a> de Eric Siegel, en el que habla de la Falacia de la Precisi\u00f3n. Este es un tema del que hablo a menudo y que toqu\u00e9 (aunque no tan claramente como \u00e9l) en otro post hace unos a\u00f1os, cuando escrib\u00ed sobre las curvas de clasificaci\u00f3n, ROC y Lift (ganancia). Siegel acu\u00f1\u00f3 muy bien el t\u00e9rmino y me motiv\u00f3 a escribir este peque\u00f1o post, y un t\u00e9rmino que utilizar\u00e9 con frecuencia a partir de ahora.<br>En la comunidad de la ciencia de datos, tenemos una mala tendencia a exagerar la calidad de nuestros modelos, a menudo no conscientemente. Simplemente estamos entrenados para utilizar los KPI equivocados, y la poblaci\u00f3n en general los entiende a\u00fan peor que nosotros.<br>Cuando aprend\u00ed las t\u00e9cnicas de clasificaci\u00f3n a finales de los 90 y principios del 2000, el KPI que todos utiliz\u00e1bamos era la tabla de clasificaci\u00f3n, expresada en porcentaje, y nadie parec\u00eda tener problemas con ella.<br>Luego tom\u00f3 el relevo el ROC, que ya es una gran mejora, pues expresa el componente din\u00e1mico de una tabla de clasificaci\u00f3n. La clasificaci\u00f3n asume un corte constante en t\u00e9rminos de probabilidad, a menudo el 50% o un punto \u00ab\u00f3ptimo\u00bb establecido para maximizar la tasa de aciertos, o la precisi\u00f3n.<br>Pero esto da una confianza muy enga\u00f1osa.<br>Tomemos este sencillo ejemplo de un modelo de predicci\u00f3n muy bueno<\/p>\n\n\n\n<p class=\"has-text-align-left\">.<\/p>\n\n\n\n<p class=\"has-text-align-center\"><img decoding=\"async\" loading=\"lazy\" width=\"468\" height=\"223\" class=\"wp-image-13574\" style=\"width: 350px\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/05\/Hit-Rate.png\" alt=\"\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/05\/Hit-Rate.png 468w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/05\/Hit-Rate-300x143.png 300w\" sizes=\"(max-width: 468px) 100vw, 468px\" \/><\/p>\n\n\n\n<p>En efecto, esto parece maravilloso. La conclusi\u00f3n es que el modelo nos da un 85% de aciertos (la media entre 88,2 y 81,8), o sea, de precisi\u00f3n, y no debemos esperar muchos errores de clasificaci\u00f3n.<\/p>\n\n\n\n<p>\u00bfo si?<\/p>\n\n\n\n<p>A menudo, la data es realmente desequilibrada, y la probabilidad apriori est\u00e1 al 1 o 2%. Pongamos un ejemplo, digamos que la probabilidad de declararo una renta alta, que est\u00e1 en torno al 6%. Por supuesto, la curva ROC ser\u00eda tan buena como la tabla de clasificaci\u00f3n, o incluso mejor:<\/p>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"aligncenter size-large\"><img decoding=\"async\" loading=\"lazy\" width=\"672\" height=\"672\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/05\/ROC-TIMI.png\" alt=\"\" class=\"wp-image-13583\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/05\/ROC-TIMI.png 672w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/05\/ROC-TIMI-300x300.png 300w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/05\/ROC-TIMI-100x100.png 100w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/05\/ROC-TIMI-600x600.png 600w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/05\/ROC-TIMI-150x150.png 150w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/05\/ROC-TIMI-85x85.png 85w\" sizes=\"(max-width: 672px) 100vw, 672px\" \/><\/figure><\/div>\n\n\n\n<p>Entonces, \u00bfqu\u00e9 concluimos ahora? Tenemos un modelo incre\u00edble, con una calidad del 85 al 92,5%. Nada puede ir mal, y lo que un no cient\u00edfico de datos entender\u00e1 es que todos los contribuyentes ser\u00e1n identificados, con quiz\u00e1s un 7,5-15% de error. No es el caso, y esta mala (\u00a1asusta!) interpretaci\u00f3n es culpa nuestra.<\/p>\n\n\n\n<p>Veamos c\u00f3mo se clasifican realmente los datos, en n\u00fameros absolutos. Y en lugar de centrarnos en cu\u00e1ntos de los VERDADEROS positivos y negativos se clasifican en porcentage, observemos lo que el modelo nos dice que es un positivo..:<\/p>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"aligncenter size-large\"><img decoding=\"async\" loading=\"lazy\" width=\"493\" height=\"217\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/05\/Hit-Rate-2.png\" alt=\"\" class=\"wp-image-13589\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/05\/Hit-Rate-2.png 493w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/05\/Hit-Rate-2-300x132.png 300w\" sizes=\"(max-width: 493px) 100vw, 493px\" \/><\/figure><\/div>\n\n\n\n<p>Esto pinta una historia completamente diferente. Entre nuestra clasificaci\u00f3n de \u00abVERDADEROS\u00bb, el 75% de los registros son en realidad \u00abFALSOS\u00bb (16.920\/(5.768+16.920)). Esto significa que si miramos a los contribuyentes de este grupo, no encontraremos el 85-92% de los contribuyentes reales, sino s\u00f3lo el 25.<\/p>\n\n\n\n<p>La curva GAIN nos permite entender mejor lo que est\u00e1 pasando:<\/p>\n\n\n\n<div class=\"wp-block-image is-style-default\"><figure class=\"aligncenter size-large\"><img decoding=\"async\" loading=\"lazy\" width=\"640\" height=\"530\" src=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/05\/lift.png\" alt=\"\" class=\"wp-image-13592\" srcset=\"https:\/\/timi.eu\/wp-content\/uploads\/2021\/05\/lift.png 640w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/05\/lift-600x497.png 600w, https:\/\/timi.eu\/wp-content\/uploads\/2021\/05\/lift-300x248.png 300w\" sizes=\"(max-width: 640px) 100vw, 640px\" \/><\/figure><\/div>\n\n\n\n<p>Cuando seleccionamos el 20% de la poblaci\u00f3n (en el eje de las X), vemos efectivamente que se identifica el 85% de los objetivos. Pero tambi\u00e9n vemos que seleccionamos una muestra aproximadamente 3 veces mayor que nuestro grupo apriori (visible en la l\u00ednea verde:6% en el eje X), por lo que podemos esperar que MUCHOS registros de este grupo sean realmente negativos. Con el 20% de la poblaci\u00f3n seleccionada, la probabilidad de que el registro menos probable sea verdadero es de alrededor del 6-7% (v\u00e9ase la curva azul claro).<\/p>\n\n\n\n<p>Seamos realistas por un momento: en realidad no clasificamos las cosas. Y si lo hacemos, admitamos que somos p\u00e9simos en ello. Lo que podemos hacer correctamente -como se muestra aqu\u00ed- se llama clasificaci\u00f3n. Los modelos de clasificaci\u00f3n son una herramienta incre\u00edble para priorizar y ordenar registros, ayudan a tomar decisiones que generan millones o euros en muchas industrias. Pero no estamos ni siquiera cerca del punto en el que un algoritmo nos dir\u00e1 con un bajo margen de error qui\u00e9n es un mal pagador, qui\u00e9n es un futuro mal estudiante o qui\u00e9n es un futuro mal empleado. Nos orientar\u00e1 en la direcci\u00f3n correcta, pero a menos que la probabilidad real de que ocurra un registro sea &gt;0,99, es peligroso, e irresponsable, decir que lo \u00abclasificamos\u00bb.<\/p>\n\n\n\n<p>Deja de tener miedo a la verdad: este es un GRAN modelo, si tomas el 2% de la poblaci\u00f3n con probabilidad m\u00e1s alta, tendr\u00e1s un 70% de positivos reales (\u00a1en lugar del 6%!), la \u00ablift\u00bb es de 6,5 al 10% de la poblaci\u00f3n. No es necesario generar una falsa expectativa y hablar de esas tasas del 85%+ .<\/p>\n\n\n\n<p><\/p>\n","protected":false},"excerpt":{"rendered":"So, you think AI classifies well? How we end up misleading AI users about the efficiency of classification models","protected":false},"author":5,"featured_media":15639,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[443,448,745,228],"tags":[350,351,352,353,451,354,355,449,450,356],"_links":{"self":[{"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/posts\/13608"}],"collection":[{"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/users\/5"}],"replies":[{"embeddable":true,"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/comments?post=13608"}],"version-history":[{"count":8,"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/posts\/13608\/revisions"}],"predecessor-version":[{"id":16881,"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/posts\/13608\/revisions\/16881"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/media\/15639"}],"wp:attachment":[{"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/media?parent=13608"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/categories?post=13608"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/timi.eu\/es\/wp-json\/wp\/v2\/tags?post=13608"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}