Al trabajar en el análisis de datos a través de métodos de clasificación, es necesario evaluar los modelos analizados para el caso, con el fin de determinar el mejor.
Cuando comencé mis estudios en Data Science conocí la "Curva ROC", pero recientemente me encontré con otra forma que es la "Curva CAP". Por la forma en que distribuyen en el gráfico, se pueden generar confusiones con respecto a pensar que se trata de la misma curva; pero no, no lo son.
La Curva CAP representa un Perfil de Precisión Acumulativa, abreviado CAP como sigla de "Cumulative Accuracy Profile". Permite visualizar el poder discriminatorio de un modelo.
La curva representa el número acumulativo de resultados positivos a lo largo del eje-y frente al número acumulativo correspondiente de un parámetro de clasificación a lo largo del eje-x (entendiendo como resultados positivos a los casos en que se cumpla el objetivo del modelo; por ejemplo si se trata de marketing relacional, que los potenciales clientes que se hayan contactado, efectivamente compren el producto). La Curva CAP se diferencia de la ROC, en que esta última traza la tasa de verdaderos positivos contra la tasa de falsos positivos.
Ampliando el ejemplo anterior, en el caso de estar ofreciendo un producto a un grupo de personas y este es comprado, tenemos un “resultado positivo”. El modelo a analizar predice la compra del producto basada en variables como los ingresos, la edad, el sexo, entre otros, de cada uno de los potenciales clientes.
Si se utiliza la táctica de “fuerza bruta” de llamar al azar a cualquier persona para que compre el producto, muy probablemente se produzca un comportamiento similar a una regresión lineal, lo que se llama “CAP aleatorio” (o random CAP).
De otra forma, si contamos con un modelo predictivo perfecto, que nos permita determinar exactamente qué miembros de un grupo de personas comprará un producto, con el fin de dirigirnos exclusivamente hacia esas personas, generará en el gráfico una línea que se denomina “CAP perfecto”.
Un modelo exitoso predice la probabilidad de que los individuos compren el producto y clasifica estas probabilidades para producir una lista de clientes potenciales que serán contactados primero. El número acumulativo resultante de productos vendidos aumentará rápidamente y eventualmente se estabilizará al máximo a medida que más miembros del grupo sean contactados. Esto da como resultado una distribución que se encuentra entre las curvas aleatorias y las perfectas CAP.
El CAP puede utilizarse para evaluar un modelo comparando la curva con el CAP perfecto, en el que el máximo número de resultados positivos se consigue directamente, y con el CAP aleatorio, en el que los resultados positivos se distribuyen por igual. Un buen modelo tendrá un CAP entre el CAP perfecto y el CAP aleatorio con un modelo mejor que tiende al CAP perfecto. Es decir, mientras más cercano al CAP Perfecto, el modelo es mejor.
Temas destacados
análisisDeDatos clasificación code Data Science Diario Concepción emprendimiento En la prensa estadística Estilo de vida identidad innovación instalación linux machineLearning MacOSX Mapuche mapudungun mineríaDeDatos opinión regresiones rubyOnRails Tips en el computador turismo viajesLo más leído
Hoy:
- Noción de R-cuadrado o Coeficiente de Determinación
- Análisis comparativo sobre modelos de regresión
- Evitar los cortes de palabras en LaTeX
- Coeficiente de determinación corregido o R-cuadrado ajustado
Histórico:
- Coeficiente de determinación corregido o R-cuadrado ajustado
- Comparación de métodos de agrupamiento o clustering
- Evaluación de modelos de clasificación: Matriz de Confusión y Curva ROC
- Evitar los cortes de palabras en LaTeX