A continuación, se listan las principales ventajas y desventajas de los modelos de clasificación más relevantes en Data Science.
Regresión Logística
Ventajas
- Enfoque probabilístico, proporciona información sobre el significado estadístico de las características
Desventajas
- Los supuestos de Regresión Logística
k Nearest Neighbor (k-NN)
El vecino más cercano, utiliza tanto atributos numéricos como categóricos
Ventajas
- Simple de entender, rápido y eficiente
Desventajas
- Requiere escoger una cantidad 'k' de vecinos
- No genera un modelo
Support Vector Machine (SVM)
Solo se aplica para atributos numéricos
Ventajas
- Rendimiento, no sesgado por valores atípicos, no sensible al sobre ajuste
Desventajas
- No es apropiado para problemas no lineales, no es la mejor opción para un gran número de características
Kernel SVM
Ventajas
- Alto rendimiento en problemas no lineales, no sesgado por valores atípicos, no sensible al sobreajuste
Desventajas
- No es la mejor opción para un gran número de características, más complejas
Naive Bayes
Ventajas
- Eficiente, no sesgado por valores atípicos, trabaja en problemas no lineales, enfoque probabilístico
Desventajas
- Partiendo del supuesto de que las características tienen la misma relevancia estadística
Árbol de decisión para clasificación
Ventajas
- Interpretabilidad, sin necesidad de escalar características, funciona tanto en problemas lineales como no lineales.
Desventajas
- Resultados deficientes en conjuntos de datos demasiado pequeños, puede producirse fácilmente un sobreajuste
Bosque aleatorio para clasificación
Ventajas
- Potente y preciso, buen rendimiento en muchos problemas, incluidos los no lineales
Desventajas
- No hay interpretabilidad, el sobreajuste puede ocurrir fácilmente, la necesidad de elegir el número de árboles
Fuente: SuperDataScience.com
Temas destacados
análisisDeDatos clasificación code Data Science Diario Concepción emprendimiento En la prensa estadística Estilo de vida identidad innovación instalación linux machineLearning MacOSX Mapuche mapudungun mineríaDeDatos opinión regresiones rubyOnRails Tips en el computador turismo viajesLo más leído
Hoy:
- Noción de R-cuadrado o Coeficiente de Determinación
- Coeficiente de determinación corregido o R-cuadrado ajustado
- Análisis comparativo sobre modelos de regresión
- Evitar los cortes de palabras en LaTeX
Histórico:
- Coeficiente de determinación corregido o R-cuadrado ajustado
- Comparación de métodos de agrupamiento o clustering
- Evaluación de modelos de clasificación: Matriz de Confusión y Curva ROC
- Evitar los cortes de palabras en LaTeX