análisisDeDatos

¿Qué algoritmo de clasificación usar?

Al igual que para los modelos de regresión, primero es necesario averiguar si el problema es lineal o no.

Si el problema es lineal, se debiera optar por la Regresión Logística o SVM.

Si el problema no es lineal, podría escoger entre k-NN, Naive Bayes, Árbol de Decisión o Bosque Aleatorio.

...continúa leyendo.


Evaluación de modelos de clasificación: curva CAP

Al trabajar en el análisis de datos a través de métodos de clasificación, es necesario evaluar los modelos analizados para el caso, con el fin de determinar el mejor.

Cuando comencé mis estudios en Data Science conocí la "Curva ROC", pero recientemente me encontré con otra forma que es la "Curva CAP". Por la forma en que distribuyen en el gráfico, se pueden generar confusiones con respecto a pensar que se trata de la misma curva; pero no, no lo son.

...continúa leyendo.


Caracterización de algoritmos de clasificación

A continuación, se listan las principales ventajas y desventajas de los modelos de clasificación más relevantes en Data Science.

Regresión Logística

Ventajas

  • Enfoque probabilístico, proporciona información sobre el significado estadístico de las características

Desventajas

  • Los supuestos de Regresión Logística

 

k Nearest Neighbor (k-NN)

El vecino más cercano, utiliza tanto atributos numéricos como categóricos

...continúa leyendo.


Tareas en Data Science

En primer lugar, es necesario hacer la distinción entre Tarea y Método. Una tarea es un problema de Minería de Datos. Por ejemplo, al clasificar los potenciales clientes de un banco como aptos para un crédito y no aptos, la tarea es la clasificación, independiente del método que se utilice para resolverla.

A continuación los principales tipos de tareas

...continúa leyendo.


Análisis comparativo sobre modelos de regresión

A continuación, se listan las principales ventajas y desventajas de los modelos de regesión más relevantes en Data Science.

Regresión lineal

Ventajas

  • Trabaja con cualquier tamaño de muestra.
  • Informa sobre la relevancia de cada variable dependiente.

Desventaja

...continúa leyendo.