clasificación

Evaluación de modelos de clasificación: Matriz de Confusión y Curva ROC

Una Curva ROC (abreviación de Receiver Operating Characteristic, o Característica Operativa del Receptor) es una representación gráfica de la relación entre la Tasa de Verdedaros Positivos y la tasa de Falsos Positivos.

Para explicar más específicamente a qué valores me refiero con estos conceptos, iré paso a paso. 

Matriz de Confusión

Luego de probar los Modelos de Clasificación, obtenemos la Matriz de Confusión, que sigue con la siguiente estructura:

...continúa leyendo.


¿Qué algoritmo de clasificación usar?

Al igual que para los modelos de regresión, primero es necesario averiguar si el problema es lineal o no.

Si el problema es lineal, se debiera optar por la Regresión Logística o SVM.

Si el problema no es lineal, podría escoger entre k-NN, Naive Bayes, Árbol de Decisión o Bosque Aleatorio.

...continúa leyendo.


Evaluación de modelos de clasificación: curva CAP

Al trabajar en el análisis de datos a través de métodos de clasificación, es necesario evaluar los modelos analizados para el caso, con el fin de determinar el mejor.

Cuando comencé mis estudios en Data Science conocí la "Curva ROC", pero recientemente me encontré con otra forma que es la "Curva CAP". Por la forma en que distribuyen en el gráfico, se pueden generar confusiones con respecto a pensar que se trata de la misma curva; pero no, no lo son.

...continúa leyendo.


Caracterización de algoritmos de clasificación

A continuación, se listan las principales ventajas y desventajas de los modelos de clasificación más relevantes en Data Science.

Regresión Logística

Ventajas

  • Enfoque probabilístico, proporciona información sobre el significado estadístico de las características

Desventajas

  • Los supuestos de Regresión Logística

 

k Nearest Neighbor (k-NN)

El vecino más cercano, utiliza tanto atributos numéricos como categóricos

...continúa leyendo.