A continuación, se listan las principales ventajas y desventajas de los modelos de regesión más relevantes en Data Science.
Regresión lineal
Ventajas
- Trabaja con cualquier tamaño de muestra.
- Informa sobre la relevancia de cada variable dependiente.
Desventaja
- Asume que los datos se comportan de forma lineal
Regresión polinomial
Ventajas
- Funciona con cualquier tamaño de muestra.
- Trabaja bien sobre datos no lineales.
Desventaja
- Se requiere elegir el grado correcto del polinomio para una buena relación sesgo/varianza.
Support Vector Regression
Ventajas
- Se adapta fácilmente a distintos tipos de muestra.
- Funciona bien en problemas no lineales.
- No cae en sesgos por datos atípicos o outliers.
Desventajas
- Requiere aplicar escalamiento de dimensiones.
- No es muy conocido.
- Más complicado de comprender.
Árboles de Decisión
Ventajas
- Interoperabilidad.
- No requiere escalamiento de dimensiones.
- Funciona con problemas lineales y no lienales.
Desventajas
- Desmpeño deficiente con muestras pequeñas.
- Fácilmente es posible que se produzca un sobreajuste.
Bosque Aleatorio
Ventajas
- Potente y preciso.
- Buen rendimiento en muchos problemas, incluidos los no lineales.
Desventajas
- Necesidad de elegir el número de árboles.
- No permite interpretabilidad.
- El sobreajuste puede ocurrir fácilmente.
(Te puede interesar leer: "¿Qué modelo de regresión lineal utilizar?")
Fuente: SuperDataScience.com
Temas destacados
análisisDeDatos apellido argentina chile clasificación Data Science Diario Concepción emprendimiento En la prensa estadística Estilo de vida identidad innovación instalación investigación machineLearning MacOSX Mapuche mapudungun mineríaDeDatos opinión regresiones rubyOnRails Tips en el computadorLo más leído
Hoy:
- Coeficiente de determinación corregido o R-cuadrado ajustado
- Comparación de métodos de agrupamiento o clustering
- Noción de R-cuadrado o Coeficiente de Determinación
- Evitar los cortes de palabras en LaTeX
Histórico:
- Coeficiente de determinación corregido o R-cuadrado ajustado
- Evaluación de modelos de clasificación: Matriz de Confusión y Curva ROC
- Comparación de métodos de agrupamiento o clustering
- Noción de R-cuadrado o Coeficiente de Determinación