domingo, 11 de febrero de 2024

Mplus | Análisis de regresión logística

El concepto de regresión suele ir unido al de regresión lineal. Sin embargo, sería una equivocación pensar que solo está este tipo de regresión. Cuando tenemos que trabajar con variables dependientes categóricas (por ejemplo, calificación del alumno según las categorías "suspenso", "aprobado", "notable" y "sobresaliente") nos daremos cuenta que el análisis de regresión lineal no sirve. Sería como usar un destornillador para clavar un clavo. En su lugar, deberemos efectuar la conocida regresión logística.

Al igual que ocurre con la regresión lineal, Mplus puede realizar cálculos de regresiones logísticas de una manera sencilla y directa. No obstante, como pasaba con la regresión lineal, se aconseja que este tipo de análisis se haga con otros programas estadísticos porque tienen una mayor facilidad en su interpretación. Puedes hacer clic en el siguiente botón para aprender o recordar cómo se realiza una regresión lineal en Mplus. 


Caso práctico

Una investigación pretende analizar las relaciones existentes que hay en las calificaciones de la asignatura de Inglés y las horas de estudio de 30 estudiantes de 6º de Educación Primaria [11 - 12 años]. Las calificaciones están codificadas en dos categorías: suspenso (código 1) y  aprobado (código 2). El equipo directivo de la escuela quiere saber si hay un efecto estadístico significativo sobre aprobar la asignatura en función de las horas de estudio de cada alumno. Asimismo se están preguntando la relación que tiene cada hora de estudio de la asignatura en la calificaicón final.


Para este ejemplo, se usará la versión gratuita de Mplus8 Demo empleando la base de datos que se puede descargar pulsando el siguiente botón y que tiene como título Asignatura.dat



En efecto, démonos cuenta que para este análisis tenemos dos tipos de variables: una variable cuantitativa independiente (horas de estudio) y una variable categórica dependiente (calificación de inglés en dos categorías). Por tanto, lo que se deberá hacer es una regresión logística. Con una variable binomial también se puede realizar un análisis con el modelo probit; pero los resultados serán muy similares y la decisión será una cuestión más bien de gustos.



Procedimiento

En primer lugar, debemos elaborar el input file (fichero de entrada) con toda la información necesaria para abrir la base de datos, numerar las variables y realizar el análisis pertinente. Para ello, como viene siendo habitual en Mplus, escribiremos la siguiente sintaxis [En rojo se marca lo que seguramente sea distinto en otros ordenadores]:

Title:
    Modelo de regresión logística

Data:
    File is "C:/Users/MJSD/Mplus/ingles.dat";

Variable:
    Names are CalIng Horas;
    Categorical is CalIng;

Analysis:
    Estimator = ML;
  
Model:
    CalIng ON Horas;

Output:
    standardized;


En primer lugar, en Title:, pondremos un título a nuestro análisis. A continuación, en Data:, especificaremos el lugar en el que se encuentra la base de datos en formato .dat. Para ello, tendremos que usar el directorio de Windows (cambiando las barras de "\" a "/"). La dirección que ves arriba será distinta en tu caso. Después, en Variable:, nombraremos todas las variables (names are) y con el comando categorial is notificaremos cual de las dos es la variable categórica (binomial). A continuación, en Analysis:, especificaremos que vamos a usar el estimador de Máxima verosimiltud (Maximum Likelihood en inglés). Esto es un estimador importante a la hora de realizar análisis de regresión logística. En Model:, especificaremos el modelo de regresión, que consiste en usar la palabra clave ON entre medias de la variables categórica dependiente (Calificación de inglés) y la otra variable independiente (Horas de estudio). Por último, en Output:, especificaremos la forma en la que se obtendrán los resultados. En este caso pediremos soluciones estandarizadas (standardized).

Finalmente, tal y como se muestra en la siguiente ilustración, haremos clic en la tecla RUN para que se realice el análisis que hemos indicado en la sintaxis.




Resultados e interpretación

Al igual que ya se vio con la regresión múltiple en Mplus, vamos a juntar el apartado de resultados e interpretación para una mejor comprensión de todo el procedimiento. El documento de resultados es muy similar a lo que se obtiene tras realizar cualquier análisis básico en Mplus. Por tanto, si ya has usado Mplus anteriormente, las tablas te resultarán muy familiares. 

En primer lugar, como viene siendo habitual, en la ventana de resultados encontraremos un resumen global del modelo (no tiene mucha relevancia esta interpretación más allá de verificar que el estimador sea ML y el link sea LOGIT; cuadrados naranjas en la siguiente imagen).



A continuación, veremos una primera tabla con resultados descriptivos como el conteo y el porcentajes de la variable categórica. Esto es muy similar a otras tablas que muestran otros programas estadísticos. Después, y solo si estamos usando la versión Mplus8 (o, posiblemente, posteriores), veremos los estadísticos descriptivos de la variable Horas de estudio tales como la media y la varianza, la asimetría y curtosis o la mediana, entre otros estadísticos. A continuación, veremos los resultados de ajuste del modelo. Aquí, a diferencia de otros procedimientos, tenemos información relativa al Loglikelihood, al AIC o al BIC. En esencia, estos resultados nos permiten comparar estos datos con otros modelos.


Una de las tablas que más relevancia puede tener para nuestra interpretación de los datos es la siguiente. Se trata del Model result. Recordemos que la primera tabla hace referencia a los pesos no estandarizados. Aquí (o en la siguiente tabla estandarizada que se mostrará a continuación de la siguiente ilustración) nos tendremos que fijar en el p-valor y el estimador para ver el posible incremento (o descenso) de aprobar la asignatura de inglés cuando se incrementa una unidad (es decir, 1) las horas de estudio. Otra de las tablas que más nos interesará consultar será la de Logistic regression odds ratio results. En ella, podremos ver la razón de odds (Odds ratios en inglés). Su interpretación se incluye en la siguiente imagen.



La siguiente tabla es muy similar a la ya vista anteriormente, se trata de los estadísticos estandarizados (z-scores). Llegados aquí es conveniente interpretar la tabla STDYX (que tiene en cuenta las varianzas de las variables observadas y latentes) y cambiar el nombre de las columnas por otros términos más adecuados reflejados en la siguiente imagen. Por último, conviene ver el famoso estadístico R al cuadrado, que es el porcentaje de la variación en la variable de respuesta que se explica mediante la variable predictora.



¿Qué es lo que debemos concluir con este procedimiento? Lo más aconsejable es  elaborar una tabla similar a la STDYX que incluya el coeficiente estimado, el error estándar, el valor z y el p-valor [véase siguiente ilustración]. Entonces, simplemente, tomando el p-valor podremos analizar el número del estimador de la variable Horas de estudio. Además, para dar respuesta a lo que planteaba el equipo directivo de la escuela descrito en el apartado Caso práctico, deberemos de hacer una sencilla operación con la calculadora científica. 


Entonces, podemos concluir (a través de un informe mucho más formal) que existe un efecto estadístico significativo sobre aprobar la asignatura en función de las horas de estudio. En concreto, se estima que por cada hora adicional de estudio se está incrementando la oportunidad de aprobar Inglés. Además, también se puede concluir que cada hora extra de estudio está multiplicando por 2,85 las probabilidades de aprobar la asignatura, suponiendo que los criterios de evaluación se mantengan igual. 


Jacob Sierra Díaz y Alti

No hay comentarios:

Publicar un comentario