Tareas en Data Science

Publicado por Eric Melillanca... el Lun, 16/07/2018 - 23:18

En primer lugar, es necesario hacer la distinción entre Tarea y Método. Una tarea es un problema de Minería de Datos. Por ejemplo, al clasificar los potenciales clientes de un banco como aptos para un crédito y no aptos, la tarea es la clasificación, independiente del método que se utilice para resolverla.

A continuación los principales tipos de tareas

Predictivas

Son tareas en los que se pretende predecir un valor (o más de uno) para un conjunto de ejemplos o datos de entrada. Dependiendo de la relación entre los ejemplos de entrada y los valores de salida se pueden clasificar en algunos tipos:

  • Clasificación: Su objetivo es obtener una función que represente la correspondencia que existe entre un conjunto de datos de entrada y distintas clases. Por ejemplo: Separar a un conjunto de pacientes de urgencia, de acuerdo a su gravedad (riesgo vital, pérdida de conciencia, otras urgencias, no urgente).
  • Clasificación suave: Corresponde a un clasificador, que además se acompaña de una extensión que indica la precisión de la clasificación.
  • Categorización: Se trata de una correspondencia, es similar a la clasificación. Se diferencia que así como los clasificadores le asignan a cada elemento de entrada una y solo una clase, en la categorización pueden asignarse más de una categoría, como si fueran etiquetas. Por ejemplo, a partir de un conjunto de clientes, determinar qué productos son los más probables que compren.
  • Preferencia o priorización: Es un tipo de aprendizaje en el que se espera que para un conjunto de elementos, se determine un orden o priorización. Por ejemplo, ante una vacante en un puesto de trabajo, obtener un orden priorizado de los candidatos mejor preparados en base a sus cualidades.
  • Regresión: Su objetivo es aprender una función que para un elemento de entrada, tiene un valor de salida, similar a la clasificación; se diferencian fundamentalmente en que la Regresión entrega valores numéricos, generalmente un una relación uno a uno.

Descriptivas

El objetivo no es predecir nuevos datos, ni el comportamiento de los elementos del conjunto de entrada, sino describirlos. A continuación algunas tareas descriptivas:

  • Agrupamiento (clustering): su objetivo es obtener subconjuntos del conjunto de datos de entrada, de tal forma que los elementos de cada subconjunto sean similares. Se diferencian de la clasificación en que ésta define a priori las clases a las que se define la pertenencia de cada uno de los elementos de entrada; en el agrupamiento, justamente se buscan los grupos y su pertenencia a ellos, los que no se conocen previamente. En ocasiones, se puede definir paramétricamente cuántos grupos se pretenden determinar. Un ejemplo de su aplicación es, a partir de los registros de un conjunto de clientes, definir cómo se comportan ante distintos productos y estudiar las acciones que derivan de ello.
  • Correlaciones y factorizaciones: se aplican exclusivamente sobre datos numéricos, su objetivo es detectar correlaciones entre conjuntos de datos numéricos.
  • Reglas de asociación: es una de las principales tareas en cuanto a aplicabilidad, se asemeja a los estudios correlacionares y factoriales, pero en este caso se aplica a atributos nominales. Las reglas de asociación se definen como una condición en que si un conjunto de atributos cumple con un criterio, esto implica que como consecuencia otros atributos indicarán otros valores. Estas reglas pueden ser direcciones o bi-direccionales.
    • “Por ejemplo, si tenemos una regla del estilo ‘si compra_aguacates = sí ^ compra_cebollines = sí entonces compra limones = sí’, esta sería una regla de asociación direcciones u orientada”. Tiene una dirección y no puede ser entendida en orden inverso (Hernández Orallo).
    • “Si tenemos una regla del estilo ‘compra_hamburguesa = sí sucede conjuntamente con compra_ketchup = sí’”. Esta regla cumple con el criterio bidireccional (Hernández Orallo).
  • Dependencias funcionales: califica como un tipo de ‘regla de asociación’, implica que el valor de un determinado atributo es función de los valores de otros atributos.
  • Detección de valores e instancias anómalas: generalmente se utiliza la detección de valores anómalos o outliers. En el análisis en Minería de Datos puede ser útil para detectar comportamientos anómalos que pueden proponer intrusos, comportamientos indeseados, fraudes, fallos u otros.

 

Fuentes:

  • "Introducción la Minería de Datos", Hernández Orallo y otros.
  • SuperDataScience.com, Kirill Eremenko.

 

Temas destacados

análisisDeDatos clasificación code Data Science Diario Concepción emprendimiento En la prensa estadística Estilo de vida identidad innovación instalación linux machineLearning MacOSX Mapuche mapudungun mineríaDeDatos opinión regresiones rubyOnRails Tips en el computador turismo viajes