Dentro de un grupo (idealmente grande) de datos ocurren fenómenos que es necesario explorar, fenómenos en común.
Un ejemplo clásico en este contexto ocurre al observar en supermercados la presencia de productos aparentemente inconexos, de forma contigua. En cierta ocasión fue posible ver cervezas al lado de pañales.
¿POR QUÉ?
Esto se debe a que el análisis de los datos de las compras de sus clientes arrojaba el resultado que muchos compradores de pañales, también aprovechaban de pasar por cervezas. De esta forma, el supermercado optó por dejarlas al lado. Un análisis posterior, permitió conocer la conducta de clientes hombres que al ir por pañales, a solicitud de sus esposas, aprovechaban de comprar cervezas.
También se puede aplicar a cuando te preguntas por qué Netflix “sabe” qué película sugerirte o cómo Spotify pudo “saber” que te gustaría determinada banda.
Este análisis se realiza a través de reglas de asociación (seguramente las empresas que mencioné utilizan técnicas similares a esta combinadas con otras de mayor sofisticación). Este método realiza tareas descriptivas, puesto que explora un conjunto de datos para realizar una descripción de las relaciones de sus individuos.
Método A Priori
El algoritmo, desarrolla todas las opciones posibles de relación entre los datos. Vale decir, para el caso de las compras, combinaciones entre las compras registradas en el análisis, un cliente compró un producto A, B y C, otro compro el Z, X, A y B, de repetirse más casos de compras entre A y B puede establecerse un patrón (A podría ser hamburguesas y B la mostaza).
Para cada combinación se calculan:
- Support (A) = (Número de transaccionees que contienen el producto A) / (Número de transaciones). Con este valor es posible saber la proporcion de clientes escogieron el producto A dentro del total de productos del supermercado (o la película A, dentro del listado de películas).
- Confidence (A→B) = (Número de transacciones que contienen A y B) / (Número de transacciones que contienen el prodcto A). Con este valor se puede saber la proporción de clientes que escogieron el producto B, habiendo escogido además el producto A (o la película B, habiendo visto antes la A).
- Lift (A→B) = (Confidence (A→B)) / (Support (B)): Permite obtener el valor clave para determinar qué productos tienen mayor relación. Así es posible ordenar de mayor a menor, qué productos se encuentran más relacionados (o canciones en Spotify).
No es sorprendente encontrar similitudes con las fórmulas del método bayesiano basado en probabilidades. Aquí también estamos calculando probabilidades (en masa), por lo que las fórmulas son análogas.
¿De donde se obtienen estos datos?: De tus "likes" y de los demás usuarios, o de tus propias compras (por eso te piden el RUT y te dan puntos en la caja).
Temas destacados
análisisDeDatos clasificación code Data Science Diario Concepción emprendimiento En la prensa estadística Estilo de vida identidad innovación instalación linux machineLearning MacOSX Mapuche mapudungun mineríaDeDatos opinión regresiones rubyOnRails Tips en el computador turismo viajesLo más leído
Hoy:
- Noción de R-cuadrado o Coeficiente de Determinación
- Análisis comparativo sobre modelos de regresión
- Evitar los cortes de palabras en LaTeX
- Coeficiente de determinación corregido o R-cuadrado ajustado
Histórico:
- Coeficiente de determinación corregido o R-cuadrado ajustado
- Comparación de métodos de agrupamiento o clustering
- Evaluación de modelos de clasificación: Matriz de Confusión y Curva ROC
- Evitar los cortes de palabras en LaTeX