Data Science

Reglas de asociación "A Priori"

Dentro de un grupo (idealmente grande) de datos ocurren fenómenos que es necesario explorar, fenómenos en común.

Un ejemplo clásico en este contexto ocurre al observar en supermercados la presencia de productos aparentemente inconexos, de forma contigua. En cierta ocasión fue posible ver cervezas al lado de pañales.

¿POR QUÉ?

...continúa leyendo.


Comparación de métodos de agrupamiento o clustering

Dentro de los métodos o técnicas de clustering (o agrupamiento), se encuentran los K-Means y Agrupamiento Jerárquico. A continuación, sus ventajas y desventajas.

Agrupamiento jerárquico

Ventajas:

El número óptimo de clústeres se puede obtener por el mismo modelo, a través de su muy útil dendrograma.

Desventajas:

No es conveniente para grandes conjuntos de datos.

K-Means

Ventajas:

Fácil de entender, fácil de adaptar. Trabaja bien con conjuntos de datos grandes o pequeños, es eficiente y tiene buen desempeño.

...continúa leyendo.


¿Qué algoritmo de clasificación usar?

Al igual que para los modelos de regresión, primero es necesario averiguar si el problema es lineal o no.

Si el problema es lineal, se debiera optar por la Regresión Logística o SVM.

Si el problema no es lineal, podría escoger entre k-NN, Naive Bayes, Árbol de Decisión o Bosque Aleatorio.

...continúa leyendo.


Evaluación de modelos de clasificación: curva CAP

Al trabajar en el análisis de datos a través de métodos de clasificación, es necesario evaluar los modelos analizados para el caso, con el fin de determinar el mejor.

Cuando comencé mis estudios en Data Science conocí la "Curva ROC", pero recientemente me encontré con otra forma que es la "Curva CAP". Por la forma en que distribuyen en el gráfico, se pueden generar confusiones con respecto a pensar que se trata de la misma curva; pero no, no lo son.

...continúa leyendo.


Caracterización de algoritmos de clasificación

A continuación, se listan las principales ventajas y desventajas de los modelos de clasificación más relevantes en Data Science.

Regresión Logística

Ventajas

  • Enfoque probabilístico, proporciona información sobre el significado estadístico de las características

Desventajas

  • Los supuestos de Regresión Logística

 

k Nearest Neighbor (k-NN)

El vecino más cercano, utiliza tanto atributos numéricos como categóricos

...continúa leyendo.