Noción de R​-cuadrado o Coeficiente de Determinación

Publicado por Eric Melillanca... el Vie, 08/06/2018 - 11:46

En modelos estadísticos, fundamentales en la implementación de tipos de Machine Learning (por ende, parte de lo que es Big Data), un concepto fundamental para evaluar la bondad de un modelo (qué tan buen modelo es), un indicador de qué tan bueno es su poder predictivo se encuentra en el parámetro R2. Muy utilizado, pero poco comprendido; básicamente se entiende que mientras más se acerque su valor a 1 es bueno, por el contrario mientras más se acerque a 0 es malo.

Aquí intento explicar brevemente su significado con un ejemplo en dos dimensiones, aplicable a otros problemas.Diagrama de regresión lineal

Supongamos un problema de dos dimensiones para el cual existe un modelo de regresión lineal. La diferencia entre el valor predicho y el valor real se le denomina residuo. Para calcular el coeficiente de determinación (R2) es necesario obtener la Suma de los Cuadrados Residuales (SSres). expresado en la fórmula:

Fórmula de Suma de Cuadrados Residuales


Para el mismo problema es posible trazar un promedio, la diferencia entre el valor real y el valor del promedio se lleva a la Suma Total de los Cuadrados (SStot), expresado en la fórmula:

Fórmula de Suma Total de Cuadrados

Para obtener el valor de R2, se necesitan estos dos Sumas de Cuadrados expresados de la siguiente forma:

Fórmula de Suma Total de Cuadrados

Es importante tener en cuenta que para un modelo de regresión siempre es necesario minimizar la diferencia entre el valor predicho y el valor real de la variable dependiente, aquí representado por SSres, para tener un mejor modelo. De esta forma el valor de R2 muestra qué tan buena es la linea del modelo de regresión (lineal) comparada con la linea promedio entre los valores para el que se está calculando.

Al observar la fórmula es posible notar que a medida que SSres aumenta, el valor de R2 disminuye; por el contrario al obtener un bajo valor de SSres (que es lo deseado) el valor de R2 aumenta. El ideal, sería llegar a un SSres con valor cero, lo que generaría un valor de uno para R2. Si bien esto es muy poco probable, lo ideal es acercarse lo más posible a uno.

Valores negativos de R2 son posibles, esta situación se daría en el caso que el modelo fuera menos ajustado que el promedio. De todas formas, para efectos interpretativos en algunas áreas sería recomendable interpretarlo como cero.

 

Temas destacados

análisisDeDatos apellido argentina chile clasificación Data Science Diario Concepción emprendimiento En la prensa estadística Estilo de vida identidad innovación instalación investigación machineLearning MacOSX Mapuche mapudungun mineríaDeDatos opinión regresiones rubyOnRails Tips en el computador