domingo, 18 de febrero de 2024

Mplus | Procedimiento rápido: AFC con valores perdidos

Este es un procedimiento resumido de un hipotético supuesto en el que se desea realizar un Análisis Factorial Confirmatorio (Confirmatory Factor Analysis, en inglés) con tres factores y tres variables continuas asociados a cada uno de los factores. En este caso, habrá valores perdidos en alguno de los hipotéticos ítems. Por otro lado, las variables observables se distribuyen siguiendo la normalidad.


Estructura del modelo

Esta es la estructura básica del modelo objeto de análisis:




Procedimiento básico

Para este modelo, y de acuerdo con el objetivo de realizar un Análisis Factorial Confirmatorio con tres factores y nueve variables continuas, la sintaxis que se debe introducir en Mplus es la siguiente:

Title:
    Análisis Factorial Confirmatorio - Modelo 02


Data:
    File is "C:/Ordenador/Lugardelarchivo.sav";


Variable:
    Names are IF11 IF12 IF13 IF21 IF22 IF23 IF31 IF32 IF33;
    Missing are all (99);


Analysis:
    Type is missing;
    Estimator is ML;
    Iteractions = 1000;
    Convergence = 0.00001;


Model:
    FCTR1 BY IF11 IF12 IF13;
    FCTR2 BY IF21 IF22 IF23;
    FCTR3 BY IF31 IF32 IF33;


Output:
    STDYX MODINDICES
    (1) RESIDUAL;


Los valores perdidos que se han debido introducir en la base de datos deben codificarse como 99. Dichos valores perdidos serán tratados por FIML (por defecto, por lo que no es necesario especificarlo en la sintaxis).


Anotaciones importantes

  • Se trata de un modelo muy similar a la entrada de ayer que no contemplaba valores perdidos. La única excepción aquí es introducir la sintaxis de valores perdidos y la forma de tratar dichos valores ausentes.


Jacob Sierra Díaz y Alti

sábado, 17 de febrero de 2024

Mplus | Procedimiento rápido: AFC de tres factores

Este es un procedimiento resumido de un hipotético supuesto en el que se desea realizar un Análisis Factorial Confirmatorio (Confirmatory Factor Analysis, en inglés) con tres factores y tres variables continuas asociados a cada uno de los factores. En este supuesto, las variables observables se distribuyen siguiendo la normalidad y no hay valores perdidos.


Estructura del modelo

Esta es la estructura básica del modelo objeto de análisis:




Procedimiento básico

Para este modelo, y de acuerdo con el objetivo de realizar un Análisis Factorial Confirmatorio con tres factores y nueve variables continuas, la sintaxis que se debe introducir en Mplus es la siguiente:

Title:
    Análisis Factorial Confirmatorio - Modelo 01


Data:
    File is "C:/Ordenador/Lugardelarchivo.sav";


Variable:
    Names are IF11 IF12 IF13 IF21 IF22 IF23 IF31 IF32 IF33


Analysis:
    Estimator is ML;
    Iteractions = 1000;
    Convergence = 0.00001;


Model:
    FCTR1 BY IF11 IF12 IF13;
    FCTR2 BY IF21 IF22 IF23;
    FCTR3 BY IF31 IF32 IF33;


Output:
    STDYX MODINDICES (.5)
    RESIDUAL;



Anotaciones importantes

  • Por defecto, la carga de del primer indicador del factor (primera variable mostrada después de la primera BY -en este caso IF11-) se ajusta a 1; las covariables entre los pares de variables exógenas latentes están libremente estimadas y el error de camino está ajustada a 1.
    • Es posible cambiar la configuración por defecto de la primera carga factorial del primer factor. Para ello, debemos liberar la primera carga factorial y notificar el ajuste de la carga alternativa a 1 usando la siguiente sintaxis en Model, FCTR1 BY IF11* IF12@1 IF13;
      • El * significa que el ajuste a 1 del primer factor (IF11) se cambia al segundo factor (IF12) puesto que se ha indicado @1.

  • Así pues, también se puede configurar el ajuste de la varianza a 1 en lugar de solamente en una de sus cargas. Para ello se usará en Model, FCTR1 BY IF11* IF12 IF13; FCTR1 @ 1;

  • Por último, también puede ser relevante cambiar la configuración de la correlación interfactor a 0. Para ello usaremos la sintaxis @0 junto con WITH en Model, por ejemplo:FCTR1 WITH FCTR2 @ 0;


Jacob Sierra Díaz y Alti

viernes, 16 de febrero de 2024

Mplus | Modelo Exploratorio de Ecuación Estructural

Cuando efectuamos un Análisis Factorial Confirmatorio (Confirmatory Factor Analysis, en inglés) nos daremos cuenta que los ítems objeto de estudio se fuerzan para que carguen en uno (y solo en uno) de los factores. Esto hace que el análisis sea muy restrictivo y que los resultados puedan no dar los índices esperados.

Además, a la hora de hacer este tipo de análisis, conviene recordar un par de cuestiones o "cláusulas" (Kelloway, 2015):

  • No realizar un análisis exploratorio y confirmatorio con los mismos sujetos, es decir, no se pueden solapar las muestras.

  • No realizar un Análisis Factorial Exploratorio con el fin de obtener una estructura factorial con el único objetivo de confirmar dicho modelo con Análisis Factorial Confirmatorio compartiendo la misma muestra, puesto que sucederán errores sustanciales.

Imaginemos que un ítem de un cuestionario carga muy satisfactoriamente en el factor indicado (o deseado) pero también carga moderadamente en otro factor. En ese caso, el modelo confirmatorio básico, que no tiene en cuenta la carga moderada, no se ajustará con los datos (dando resultados en el apartado de Model Fit Information poco deseables). Por fortuna, el Modelo Exploratorio de Ecuación Estructural (Exploratory Structural Equation Model, en inglés; ESEM abreviado en dicho idioma) nos ayuda a superar esta limitación puesto que combina las fortalezas de los análisis exploratorios y confirmatorios sin el encorsetamiento de que un ítem cargue en un único factor.

Lo que permite el Modelo Exploratorio de Ecuación Estructural es una comparación anidada del modelo. En el análisis factorial confirmatorio "clásico" se obtienen X cargas factoriales (correspondiente a los números de ítems que se quieran confirmar; supongamos un cuestionario de 10 ítems, por ejemplo) frente a un nuevo modelo que estima X · Y cargas factoriales (siendo X el número de ítems totales e Y el número de factores totales; 50 cargas factoriales siguiendo con el ejemplo anterior porque son 10 ítems · 5 factores).



Caso práctico

Con el objetivo de comparar los posibles resultados que se obtienen de este análisis con el que se obtuvieron del análisis Factorial Confirmatorio básico visto en la anterior entrada, vamos a reutilizar el caso práctico anterior: 

En un equipo de baloncesto se quiere medir la personalidad de sus jugadores. Para ello, se ha usado un cuestionario tipo Likert que contiene 18 ítems distribuidos en cinco rasgos generales de personalidad, propuestos por el Modelo Ocean (también conocido como Five-factor model of personality): neuroticismo, extraversión, afabilidad, escrupulosidad y apertura a la experiencia.

Pero antes de poder tomar estos datos del equipo de baloncesto, se ha recogido esta información en 200 jugadores de baloncesto de distintos clubes nacionales con el objetivo de conocer la dimensionalidad de la escala y poder validarla adecuadamente para este grupo poblacional.


Por tanto, para este ejemplo, se usarán las siguiente base de datos con la respuesta ficticia de 200 jóvenes. El cuestionario se compone de 18 ítems, que son cada una de las columnas que formarán parte de esta base de datos. Puedes descargar la base de datos haciendo clic en el siguiente botón:

Como viene siendo habitual, para este ejemplo se usará la versión Mplus7 en un ordenador Windows 10 empleando la base de datos que se puede descargar pulsando el siguiente botón y que tiene como título Personalidad.dat




Procedimiento

En primer lugar, deberemos redactar los comandos de este nuevo análisis. Este será muy similar que el que se realiza para el Análisis Factorial Confirmatorio salvo con algunas diferencias:

Title:
    Modelo Exploratorio de Ecuación Estructural

Data:
    File is "C:/Root/Mplus/Personalidad.dat";

Variable:
    Names are Item1-Item18;

Model:
    Fact1-Fact5 BY Item1-Item18(*1);

Output:
    Standardized modindices (all);

  • En efecto, la principal diferencia la encontramos en Model: En este caso, especificamos que el análisis se compondrá de cinco factores (Fact1 al Fact5). Démonos cuenta que no podremos nombrar a los factores como si de un Análisis Factorial Confirmatorio se tratase puesto que no sabremos qué factores son realmente. Así, pues, se indicará que los cinco factores estarán relacionados con los 18 ítems (Item1 al Item18) junto con un *1 que indica que la carga de los ítems debe ir a través de los cinco factores.

Como ya se sabe, una vez incluida toda la información, pulsaremos sobre RUN. 



Resultados

Como es habitual en Mplus, la primera parte de los resultados corresponde con un resumen del procedimiento.



A continuación, nos encontramos con los resultados de ajuste del modelo. Como hemos usado la misma base de datos ficticia que para el Análisis Confirmatorio Básico, podremos compararlas y observar que en este caso, los índices han mejorado (aunque es posible, como ocurre en este caso, que no sea un ajuste perfecto).



Ahora viene la parte más importante que tal vez requiera de imprimir las tablas de resultado puesto que lo que se debe hacer es analizar en qué factor carga mejor (más grande) cada ítem. Entonces, consiste en marcar para cada ítem el Estimate (B) mayor en cada uno de los factores, tal y como se muestra en la siguiente ilustración. Para esta misión también nos deberemos de ayudar de sus correspondientes significaciones. Finalmente, deberemos ver si los ítems coinciden y tienen sentido con la estructura factorial del cuestionario con la que estamos trabajando. En este caso, el Factor 1 corresponde con los ítems 1, 5 y 7. En función de lo que digan estos ítems, podremos cambiar el nombre del factor (en este caso son los ítems relativos a Escrupulosidad) y así con el resto de factores.

    • ATENCIÓN. En este ejemplo hemos hecho la comparación con la primera parte de los resultados (corresponden con la no estandarización). Normalmente, en las investigaciones se realiza este procedimiento pero con la parte de STDYX Standarization.

Finalmente, puede ser interesante reflejar los resultados de las correlaciones entres los factores (correlación interfactor) que se suele presentar en una tabla cruzada (de doble entrada). Nuevamente, en la siguiente imagen se muestran los resultados no estandarizados. Tal vez sería interesante reportar los resultados de la sección STDYX. 



Fuente bibliográfica

Referencia en estilo APA-7: 
  • Kelloway, E. K. (2015). Using Mplus for Structural Equation Modeling: a researcher's guide. Sage. 


Jacob Sierra Díaz y Alti

jueves, 15 de febrero de 2024

Mplus | Análisis Factorial Confirmatorio básico

El Análisis Factorial Confirmatorio (AFC; Confirmatory Factor Analysis en inglés) es un conjunto de técnicas que se emplean para la validación de cuestionarios. Es decir, permite conocer la operacionalización de un modelo de medida (Kelloway, 2015). Esta estrategia de análisis será adecuada cuando haya un debate entorno a la dimensionalidad de la estructura factorial de la escala de medida objeto de estudio.

Caso práctico

En un equipo de baloncesto se quiere medir la personalidad de sus jugadores. Para ello, se ha usado un cuestionario tipo Likert que contiene 18 ítems distribuidos en cinco rasgos generales de personalidad, propuestos por el Modelo Ocean (también conocido como Five-factor model of personality): neuroticismo, extraversión, afabilidad, escrupulosidad y apertura a la experiencia.

Pero antes de poder tomar estos datos del equipo de baloncesto, se ha recogido esta información en 200 jugadores de baloncesto de distintos clubes nacionales con el objetivo de conocer la dimensionalidad de la escala y poder validarla adecuadamente para este grupo poblacional.


Por tanto, para este ejemplo, se usarán las siguiente base de datos con la respuesta ficticia de 200 jóvenes. El cuestionario se compone de 18 ítems, que son cada una de las columnas que formarán parte de esta base de datos. Puedes descargar la base de datos haciendo clic en el siguiente botón:

Como viene siendo habitual, para este ejemplo se usará la versión Mplus7 en un ordenador Windows 10 empleando la base de datos que se puede descargar pulsando el siguiente botón y que tiene como título Personalidad.dat




Procedimiento

En primer lugar, para un análisis confirmatorio necesitaremos solicitar distintas ecuaciones estructurales. Aquí tampoco nos deberemos preocupar en exceso por las formas de dichas ecuaciones. Más bien, deberemos definir las variables latentes (o variables no observadas) que corresponderán con los factores que deseamos obtener (cinco en este caso; correspondientes con los tipos de personalidad). Para ello, especificaremos en el apartado de Model los factores y los ítems que están relacionados con  ellos (los que mayor carga factorial hayan obtenido en un posible Análisis Factorial Exploratorio). 

La sintaxis que solicitaremos para un análisis confirmatorio básico será:

Title:
    Análisis Factorial Confirmatorio - Personalidad

Data:
    File is "C:/Root/Mplus/Personalidad.dat";

Variable:
    Names are Item1-Item18;

Model:
    Neuras BY Item10 Item12 Item16 Item18;
    Extra BY Item2 Item4 Item9 Item14;
    Afabi BY Item3 Item6 Item11 Item17;
    Escru BY Item1 Item5 Item7;
    Apert BY Item8 Item13 Item15;

Output:
    Standardized modindices (all);

  • En Title: pondremos un título a nuestro análisis (esto solo es para que el usuario sepa el nombre del análisis). 
  • A continuación, en Data:, especificaremos el lugar en el que se encuentra la base de datos en formato .dat. Para ello, tendremos que usar el directorio de Windows (cambiando las barras de "\" a "/"). La dirección que ves arriba será distinta en tu caso. 
  • Después, en Variable: nombraremos todas las variables (names are). Puesto que en este caso las variables se llaman similar salvo el número del ítem podemos usar la función elemento inicial-elemento final (Item1-Item4) para indicarle cómo las debe nombrar automáticamente siguiendo el orden de aparición en la base de datos.
  • En el apartado de Model: especificaremos los factores que deberemos confirmar junto con los ítems que pertencen a dicho factor a través de la fórmula Factor BY Relación de ítems.
  • Finalmente, en el apartado de Output: especificaremos la forma que mostrará todos los resultados.

Cuando ponemos esta sintaxis en Mplus y le damos al botón RUN, el programa hace distintos cálculos y procesos por defecto. En primer lugar, el software permite que las variables latentes (factores) se puedan correlacionar. En el caso contrario (en el caso que queramos realizar un análisis factorial ortogonal) debemos declarar que estas correlaciones sean cero en con la siguiente sintaxis en el apartado de Model:

Model:
    Neuras BY Item10 Item12 Item15 Item20;
    Extra BY Item2 Item4 Item9 Item14;
    Afabi BY Item3 Item6 Item11 Item17;
    Escru BY Item1 Item5 Item7;
    Apert BY Item8 Item13 Item15;

Neuras WITH Extra @ 0; 
Neuras WITH Afabi @ 0; 
Neuras WITH Escru @ 0;  
Neuras WITH Apert @ 0;

Y así sucesivamente hasta que estén cubiertas todas las correlaciones.

En segundo lugar, las variables latentes se definen por defecto como variables no observadas y por lo tanto no tienen escala de medida. Por tanto, Mplus configura el primer parámetro de cada variable latente igual a 1. Por tanto, la variable latente se mide en la misma escala que las variables observadas (los ítems). Estos parámetros no se estiman, más bien se simplifican a 1. Entonces, si se quiere que las variables latentes sean estimadas por cualquier otra variable indicadora, deberemos indicar en el apartado de Model: que se libere el parámetro por defecto (uso del asterisco) y que se asigne un nuevo parámetro. Veamos esto último con un ejemplo:

Model:
    Neuras BY Item10 Item12 Item15 Item20;
    Extra BY Item2 Item4 Item9 Item14;
    Afabi BY Item3 Item6 Item11 Item17;
    Escru BY Item1 Item5 Item7;
    Apert BY Item8 Item13 Item15;

Escru BY Item1 *;
Escru BY Item4 @ 1;

Estas dos cosas que acabamos de ver, no las vamos a aplicar de momento en nuestro análisis, pero sí que merecía la pena introducirlas para futuras modificaciones del análisis. 


Resultados

Vamos a subdividir el apartado de resultados en varias secciones. Comencemos por la Estimación. La primera parte de los resultados, nos muestra el número de participantes que rellenaron el cuestionario, el número de variables dependientes y sus nombres (que corresponde con el número del ítem del ficticio cuestionario), el número de variables latentes y sus nombres (que corresponde con el nombre de las variables). Además, también se muestra el tipo de estimador usado (máxima verosimilitud por defecto). Nótese que como las variables observables son causadas por las variables latentes, estas son propuestas como variables dependientes.



A continuación, obtenemos la evaluación del ajuste (Assessment of fit o Model fit information). Se trata de un conjunto de resultados que establecen la idoneidad del modelo. De manera práctica hay que ver que ciertos índices tengan un valor superior o inferior a un estándar, tal y como se muestra en la siguiente tabla de la ilustración.

Esta sección evalúa el ajuste de un modelo basado en cinco factores según si dicho modelo ofrece un ajuste absoluto de los datos y si el modelo presenta un ajuste adecuado frente a otras especificaciones. En este caso, y sin ánimo de entrar en profundidad en este análisis básico, observamos que los índices más importantes del ajuste son satisfactorios aunque no excelentes.



A continuación, nos encontramos con los resultados del modelo propiamente dichos. Aquí nos vamos a encontrar similares tablas cambiando únicamente el tipo de estandarización. La primera subsección que nos encontraremos será la de la solución no estandarizada (Unstandarized estimates):



A continuación, en la sección de resultados podemos encontrar los resultados estandarizados de tres manera distintas: STDYX (Estandariza según las varianzas de las variables observadas y latentes), STDY (Estandariza según las varianzas de las variables observadas) y STD (Estandariza según las varianzas de las variables latentes). Estos tres resultados se interpretan de manera muy similar, por lo que aquí simplemente se va a mostrar los resultados según la STDYX:



A continuación, debemos analizar la R al cuadrado, que viene después de las subsecciones de resultados estandarizadas. Estas son las comunalidades de la solución o lo que es lo mismo, el porcentaje de la varianza de cada ítem explicada por el modelo hipotetizado.



A continuación, nos encontramos el apartado de la modificación de índices, que indica la cantidad de valor del Chi-cuadrado que descenderá si un parámetro dado es liberado. Por ejemplo, si liberásemos la correlación residual entre el Ítem 18 con el Ítem 3 (ITEM18 WITH ITEM3) disminuiría el valor Chi-cuadrado hasta 19,535. A continuación, podemos observar como Mplus también reporta el cambio del parámetro esperado: por tanto, si liberásemos esta correlación residual, el parámetro no estandarizado (EPC) sería 0,378, el parámetro estandarizado STD sería también 0,378 y el parámetro estandarizado STDYX tomaría el valor de 0,359.




Informe de resultados

Puesto que lo que se está mostrando en esta entrada consiste en un análisis básico, no profundizaremos en cómo interpretar los resultados más allá de lo que ya hemos visto. Lo que sí que haremos será decir de donde se sacan todos los valores que se suelen emplear para escribir el apartado de resultados cuando se usan este tipo de análisis:
  • Ajuste del modelo - MODEL FIT INFORMATION | Mirar RMSEA, CFI/TLI y SRMR (para un análisis más complejo también se mira el Chi-Square Test of Model fit)
  • Comportamiento de las cargas factoriales para cada ítem y factor - Diagrama | Aconsejable observar los valores STDYX.
  • Correlación interfactor - Apartado WITH de los resultados principales (aconsejable que sea la tabla correspondiente con STDYX)

Por supuesto todo esto puede ser mucho más complejo. Sin embargo, con esto hemos cubierto lo más básico del Análisis Factorial Confirmatorio.


Seguir aprendiendo

Haz clic en el siguiente botón para seguir aprendiendo sobre la realización de un modelo menos restrictivo al Análisis Factorial Confirmatorio:




Jacob Sierra Díaz y Alti

miércoles, 14 de febrero de 2024

Mplus | Análisis Factorial Exploratorio Básico

El Análisis Factorial Exploratorio (AFE; Exploratory Factor Analysis en inglés) es uno de los motivos principales por el que muchos investigadores emplean el software Mplus. De hecho, con este programa podemos efectuar ciertos análisis que con otros sería imposible realizarlos (por lo menos hasta el momento de la creación de esta entrada) tales como incluir valores perdidos en el análisis o incluso hacer un análisis con variables categóricas.

En esta entrada simplemente vamos a aprender los pasos esenciales para hacer este análisis, dejando para otro momento procedimientos o interpretaciones más complejas que pueden entorpecer a todos aquellos que estén empezando a familiarizarse con Mplus. Por supuesto, la mejor forma de aprenderlo de una manera rápida y precisa es a través de un ejemplo.


Caso práctico

Una investigación pretende elaborar un cuestionario que analice los motivos principales por los que los deportista jóvenes de entre 18 y 25 años dejan la práctica de actividad físico-deportiva. Para ello, se han redactado una serie de ítems que el encuestado debe marcar su grado de acuerdo o desacuerdo en una escala Likert de 4 puntos (donde el 1 expresa un desacuerdo total y el 4 expresa un acuerdo total). La elaboración de estos ítems han surgido de reuniones con paneles de expertos y revisión de la literatura e incluyen una gran cantidad de información incluyendo motivos familiares, personales y sociales.


Una vez redactado el cuestionario, se ha procedido a realizar un estudio piloto con 100 participantes de entre 18 y 25 años. Se pretende saber si los ítems que forman el cuestionario se pueden agrupar en algún factor relativo a los motivos de abandono deportivo.


Para este ejemplo, se usarán las siguiente base de datos con la respuesta ficticia de 100 jóvenes. El cuestionario piloto se compone originalmente de 10 ítems, que son cada una de las columnas que formarán parte de esta base de datos. Puedes descargar la base de datos haciendo clic en el próximo botón.

Para este ejemplo se usará la versión Mplus7 en un ordenador Windows 10 empleando la base de datos que se puede descargar pulsando el siguiente botón y que tiene como título Abandono.dat




Procedimiento

En primer lugar, y como ya es habitual en el procedimiento con Mplus, debemos elaborar el input file con aquella información relevante para nuestro análisis. Para ello, dividiremos este archivo en varias secciones: TitleDataVariable Analysis. En este caso en concreto solicitaremos un análisis factorial exploratorio que contemple de entre 1 a 4 factores. A continuación, completaremos toda la información pertinente en cada una de las secciones quedando un archivo similar al siguiente:

Title:
    Análisis Factorial Exploratorio - Abandono

Data:
    File is "C:/Mplus/Abandono.dat";

Variable:
    Names are Item1-Item10;

Analysis:
    Type is EFA 1 4;


  • En Title: pondremos un título a nuestro análisis (esto solo es para que el usuario sepa el nombre del análisis). 
  • A continuación, en Data: especificaremos el lugar en el que se encuentra la base de datos en formato .dat. Para ello, tendremos que usar el directorio de Windows (cambiando las barras de "\" a "/"). La dirección que ves arriba será distinta en tu caso. 
  • Después, en Variable: nombraremos todas las variables (names are). Puesto que en este caso las variables se llaman similar salvo el número del ítem podemos usar la función elemento inicial-elemento final (Item1-Item4) para indicarle cómo las debe nombrar automáticamente siguiendo el orden de aparición en la base de datos.
  • Para un análisis básico simplemente en Analysis: especificaremos el tipo de análisis. En este momento debemos indicar cuántos factores queremos tener en cuenta. En este ejemplo, estimamos la generación de cuatro factores puesto que los abandonos pueden deberse por causas sociales, lesiones, esfuerzo, problemas u otras actividades más llamativas; y los ítems van encaminados a abordar todos estos factores
Podríamos meter más información como por ejemplo la orden de rotación varimax (ortogonal) en el apartado de Analysis. Por defecto, si no indicamos nada, se realiza una rotación geomin. Sin embargo, al ser un análisis básico solo solicitaremos lo imprescindible. 

Una vez introducida la sintaxis podremos hacer clic sobre el botón RUN




Resultados

Vamos a dividir esta sección en varias tablas que aparecerán en una nueva ventana de Mplus. Aquí nos centraremos en un pequeño resumen de los resultados y simplemente se mencionará lo más básico.

- La primera tabla, después de repetir lo que se le ha introducido a Mplus (input), corresponde con un pequeño resumen de lo que se ha ejecutado. Aquí, lo interesante sería ver si el tamaño muestral (n) coincide con nuestra base de datos y si el nombre de las variables es el correcto. 



- La segunda tabla corresponde con los autovalores de las variables introducidas, esto nos indica la varianza de cada factor y no suele ser tan imprescindible para un análisis factorial básico.



A partir de esta parte comienza lo más importante que habrá que mirar. Démonos cuenta que lo que primero que saldrá será un modelo exploratorio teniendo en cuenta un solo factor. Estas tablas se irán reiterando dependiendo de los factores que hayamos sugerido al programa en el input: en este caso de 1 al 4 (EFA 1 4;), es decir, comenzará con el análisis de un solo factor y continuará, hasta que estime adecuado hasta el análisis con cuatro factores.

- Model Fit information. En la primera parte de estas tablas tenemos los índices del modelo de ajuste. Lo práctico y relevante es mirar los valores del Root Mean Square Error of Approximation (RMSEA; cuanto más pequeño mejor), el Comparative Fit Index / Tuckey Lewis Index (CFI / TLI; cuanto más cercano a uno mejor) y el Standardized Root Mean Residual (SRMR; cuanto más pequeño mejor).


En este caso los índices no son los mejores que nos podremos encontrar. Por tanto, lo recomendable es bajar a las parte en la que comienza el análisis con 2 factores (Exploratory Factor Analysis with 2 Factor(s)) y ver si mejoran mencionados índices. No obstante, para explicar todos los resultados que contiene Mplus, vamos a seguir con el de un factor. 


- Geomin Rotated Loadings. La siguiente parte de los resultados que nos encontraremos debajo de lo que acabamos de ver son las famosas cargas factoriales rotadas junto con sus correspondientes correlaciones factoriales. Esto es lo que se suele poner en los informes estadísticos o en las publicaciones. En este caso, como estamos en el análisis de un solo factor, solo tendremos una única columna con un único factor. Lo más rápido será ver dónde tiene cada ítem un peso mayor (acompañado de un asterisco), puesto que nos indicará que el ítem mide adecuadamente bien el determinado factor. A continuación, se muestran los errores estándar de las cargas factoriales. 



- La siguiente y última tabla de este apartado (análisis exploratorio de un solo factor) nos indica la carga factorial teniendo en cuenta la estandarización de las medidas. A veces, en los artículos se hace referencia a esta tabla en lugar de la anterior, pero su interpretación es la misma que antes salvo que aquí está todo estandarizado.



Tal y como ya hemos mencionado, si vamos bajando por los resultados, nos encontraremos una estructura muy similar a la que acabamos de ver, sin embargo, esta vez será teniendo en cuenta dos o más factores. Cuando tenemos dos o más factores, además, de las secciones anteriores aparecerá una tabla de la estructura factorial. La siguiente imagen, que procede de un análisis factorial exploratorio, contiene una explicación al respecto.  





SINTETIZANDO LO ESENCIAL:

Vamos a ver un resumen de lo que deberíamos ver en los resultados de Mplus para gente con prisas. Para ello, debemos ir a la sección que tenga por título EXPLORATORY FACTOR ANALYSIS WITH X FACTOR(S):
  • En primer lugar, miramos los valores de Model Fit Information. Si hay algún valor que no cumpla los siguientes supuestos, deberíamos ir a mirar otra estructura con más o menos factores.
      • RMSEA debe ser menor que 0,050
      • CFI/TLI debe ser mayor que 0,900
      • SRMR debe ser menor que 0,050
      • ¡Ojo! Hay otros índices (como el Chi-Square) que también merece la pena observar, aunque para un análisis básico son suficiente esos tres).

    • Observar los  la carga factorial de GEOMIN FACTOR LOADINGS y ver en qué factor tiene cada ítem una carga mayor (vendrá con un asterisco). Esto significará que el ítem mide lo que implique el factor en el que esté. 

    • Observar la correlación de factores en GEOMIN FACTOR CORRELATION y ver la correlación entre los factores del estudio.


    Interpretación

    Una vez analizado los modelos factoriales exploratorios, se puede llegar a la conclusión de que el cuestionario planteado no es adecuado para poder analizar los motivos de abandono de la práctica deportiva puesto que los índices de ajuste del modelo no son adecuados. No obstante, si observamos las cargas factoriales, el cuestionario se estructura mejor para dos factores que para uno solo. 


    En definitiva, o bien se recomienda incrementar el número de encuestados para ver si los datos mejoran o bien se debería volver a redactar de otra forma los ítems del cuestionario atendiendo a un panel de expertos. 



    Seguir aprendiendo

    Haz clic en el siguiente botón para seguir aprendiendo sobre la realización del Análisis Factorial Confirmatorio:




    Jacob Sierra Díaz y Alti

    martes, 13 de febrero de 2024

    Mplus | Ausencia de las pruebas KMO y Bartlett

    Es habitual que para realizar un Análisis Factorial Exploratorio en primer lugar se realice una serie de test estadísticos para comprobar que la estructura de los datos es adecuada para poder ser analizada por factores. Dichas pruebas reciben el nombre de medidas de adecuación muestral. Los más famosos son el test de adecuación de Kaiser-Meyer Olkin (KMO) y la prueba de esfericidad de Bartlett. 

    Pues bien, estas pruebas no están disponibles en las versiones actuales de Mplus (v. 8 o anteriores), tal y como menciona el propio creador del software en su página web. Más allá de entrar en detalles estadísticos sobre esta prueba, se destaca que si la prueba KMO y de esfericidad de Bartlett deben efectuarse se deberán realizar mediante otro software como SPSS.

    Para realizar esta prueba en SPSS (versión 27) debemos hacer clic en:

     Analizar >  Reducción de dimensiones > Factor...

    A continuación, tal y como se muestra en la siguiente ilustración, debemos hacer clic en el botón Descriptivos... y, a continuación, marcar la opción KMO y prueba de esfericidad de Bartlett.



    Su interpretación es muy sencilla:
    • Test KMO - Analiza el grado de relación conjunta entre las variables y permite valorar el grado en el que cada una de las variables puede ser predicha a partir de las demás. Se distribuye en valores entre 0 y 1, siendo más adecuado cuanto más cerca esté el resultado en 1. Kaiser (1974) recomienda que el valor sea igual o superior a 0,80.

    • Prueba de esfericidad de Bartlett - Test de hipótesis estadística en la que la hipótesis nula es que las variables analizadas no están correlacionadas en la muestra. Valores altos del estadístico junto con valores bajos en el p-valor (p < 0,050) permiten rechazar la hipótesis nula y concluir que las variables de la muestra están suficientemente correlacionadas entre sí para realizar el análisis factorial (López-Aguado y Gutiérrez-Provecho, 2019).


    Fuentes bibliográficas

    Referencias en estilo APA-7: 
    • López-Aguado, M., y Gutiérrez-Provecho, L. (2019). Cómo realizar e interpretar un análisis factorial exploratorio utilizando SPSS. REIRE, 12(2), 1-14. http://doi.org/10.1344/reire2019.12.227057 
    • Kaiser, H. F. (1974). An index of factorial simplicity. Psychometrika, 39(0), 31-36.


    Jacob Sierra Díaz y Alti

    domingo, 11 de febrero de 2024

    Mplus | Análisis de regresión logística

    El concepto de regresión suele ir unido al de regresión lineal. Sin embargo, sería una equivocación pensar que solo está este tipo de regresión. Cuando tenemos que trabajar con variables dependientes categóricas (por ejemplo, calificación del alumno según las categorías "suspenso", "aprobado", "notable" y "sobresaliente") nos daremos cuenta que el análisis de regresión lineal no sirve. Sería como usar un destornillador para clavar un clavo. En su lugar, deberemos efectuar la conocida regresión logística.

    Al igual que ocurre con la regresión lineal, Mplus puede realizar cálculos de regresiones logísticas de una manera sencilla y directa. No obstante, como pasaba con la regresión lineal, se aconseja que este tipo de análisis se haga con otros programas estadísticos porque tienen una mayor facilidad en su interpretación. Puedes hacer clic en el siguiente botón para aprender o recordar cómo se realiza una regresión lineal en Mplus. 


    Caso práctico

    Una investigación pretende analizar las relaciones existentes que hay en las calificaciones de la asignatura de Inglés y las horas de estudio de 30 estudiantes de 6º de Educación Primaria [11 - 12 años]. Las calificaciones están codificadas en dos categorías: suspenso (código 1) y  aprobado (código 2). El equipo directivo de la escuela quiere saber si hay un efecto estadístico significativo sobre aprobar la asignatura en función de las horas de estudio de cada alumno. Asimismo se están preguntando la relación que tiene cada hora de estudio de la asignatura en la calificaicón final.


    Para este ejemplo, se usará la versión gratuita de Mplus8 Demo empleando la base de datos que se puede descargar pulsando el siguiente botón y que tiene como título Asignatura.dat



    En efecto, démonos cuenta que para este análisis tenemos dos tipos de variables: una variable cuantitativa independiente (horas de estudio) y una variable categórica dependiente (calificación de inglés en dos categorías). Por tanto, lo que se deberá hacer es una regresión logística. Con una variable binomial también se puede realizar un análisis con el modelo probit; pero los resultados serán muy similares y la decisión será una cuestión más bien de gustos.



    Procedimiento

    En primer lugar, debemos elaborar el input file (fichero de entrada) con toda la información necesaria para abrir la base de datos, numerar las variables y realizar el análisis pertinente. Para ello, como viene siendo habitual en Mplus, escribiremos la siguiente sintaxis [En rojo se marca lo que seguramente sea distinto en otros ordenadores]:

    Title:
        Modelo de regresión logística

    Data:
        File is "C:/Users/MJSD/Mplus/ingles.dat";

    Variable:
        Names are CalIng Horas;
        Categorical is CalIng;

    Analysis:
        Estimator = ML;
      
    Model:
        CalIng ON Horas;

    Output:
        standardized;


    En primer lugar, en Title:, pondremos un título a nuestro análisis. A continuación, en Data:, especificaremos el lugar en el que se encuentra la base de datos en formato .dat. Para ello, tendremos que usar el directorio de Windows (cambiando las barras de "\" a "/"). La dirección que ves arriba será distinta en tu caso. Después, en Variable:, nombraremos todas las variables (names are) y con el comando categorial is notificaremos cual de las dos es la variable categórica (binomial). A continuación, en Analysis:, especificaremos que vamos a usar el estimador de Máxima verosimiltud (Maximum Likelihood en inglés). Esto es un estimador importante a la hora de realizar análisis de regresión logística. En Model:, especificaremos el modelo de regresión, que consiste en usar la palabra clave ON entre medias de la variables categórica dependiente (Calificación de inglés) y la otra variable independiente (Horas de estudio). Por último, en Output:, especificaremos la forma en la que se obtendrán los resultados. En este caso pediremos soluciones estandarizadas (standardized).

    Finalmente, tal y como se muestra en la siguiente ilustración, haremos clic en la tecla RUN para que se realice el análisis que hemos indicado en la sintaxis.




    Resultados e interpretación

    Al igual que ya se vio con la regresión múltiple en Mplus, vamos a juntar el apartado de resultados e interpretación para una mejor comprensión de todo el procedimiento. El documento de resultados es muy similar a lo que se obtiene tras realizar cualquier análisis básico en Mplus. Por tanto, si ya has usado Mplus anteriormente, las tablas te resultarán muy familiares. 

    En primer lugar, como viene siendo habitual, en la ventana de resultados encontraremos un resumen global del modelo (no tiene mucha relevancia esta interpretación más allá de verificar que el estimador sea ML y el link sea LOGIT; cuadrados naranjas en la siguiente imagen).



    A continuación, veremos una primera tabla con resultados descriptivos como el conteo y el porcentajes de la variable categórica. Esto es muy similar a otras tablas que muestran otros programas estadísticos. Después, y solo si estamos usando la versión Mplus8 (o, posiblemente, posteriores), veremos los estadísticos descriptivos de la variable Horas de estudio tales como la media y la varianza, la asimetría y curtosis o la mediana, entre otros estadísticos. A continuación, veremos los resultados de ajuste del modelo. Aquí, a diferencia de otros procedimientos, tenemos información relativa al Loglikelihood, al AIC o al BIC. En esencia, estos resultados nos permiten comparar estos datos con otros modelos.


    Una de las tablas que más relevancia puede tener para nuestra interpretación de los datos es la siguiente. Se trata del Model result. Recordemos que la primera tabla hace referencia a los pesos no estandarizados. Aquí (o en la siguiente tabla estandarizada que se mostrará a continuación de la siguiente ilustración) nos tendremos que fijar en el p-valor y el estimador para ver el posible incremento (o descenso) de aprobar la asignatura de inglés cuando se incrementa una unidad (es decir, 1) las horas de estudio. Otra de las tablas que más nos interesará consultar será la de Logistic regression odds ratio results. En ella, podremos ver la razón de odds (Odds ratios en inglés). Su interpretación se incluye en la siguiente imagen.



    La siguiente tabla es muy similar a la ya vista anteriormente, se trata de los estadísticos estandarizados (z-scores). Llegados aquí es conveniente interpretar la tabla STDYX (que tiene en cuenta las varianzas de las variables observadas y latentes) y cambiar el nombre de las columnas por otros términos más adecuados reflejados en la siguiente imagen. Por último, conviene ver el famoso estadístico R al cuadrado, que es el porcentaje de la variación en la variable de respuesta que se explica mediante la variable predictora.



    ¿Qué es lo que debemos concluir con este procedimiento? Lo más aconsejable es  elaborar una tabla similar a la STDYX que incluya el coeficiente estimado, el error estándar, el valor z y el p-valor [véase siguiente ilustración]. Entonces, simplemente, tomando el p-valor podremos analizar el número del estimador de la variable Horas de estudio. Además, para dar respuesta a lo que planteaba el equipo directivo de la escuela descrito en el apartado Caso práctico, deberemos de hacer una sencilla operación con la calculadora científica. 


    Entonces, podemos concluir (a través de un informe mucho más formal) que existe un efecto estadístico significativo sobre aprobar la asignatura en función de las horas de estudio. En concreto, se estima que por cada hora adicional de estudio se está incrementando la oportunidad de aprobar Inglés. Además, también se puede concluir que cada hora extra de estudio está multiplicando por 2,85 las probabilidades de aprobar la asignatura, suponiendo que los criterios de evaluación se mantengan igual. 


    Jacob Sierra Díaz y Alti

    sábado, 10 de febrero de 2024

    Mplus | Primer análisis de regresión múltiple

    ¿Qué sentido tiene hacer un análisis de regresión en un programa como Mplus cuando, precisamente, hay otros programas estadísticos que hacen este proceso de una manera más intuitiva para el usuario? Debemos pensar que un análisis de regresión múltiple estándar (standard multiple regression analysis en inglés) no es ni más ni mino que un tipo de modelo de ecuación estructural (structural equation model en inglés). De hecho, los modelos de regresión son, como su propio nombre indica, modelos saturados que no tienen grados de libertad porque ofrecen un ajuste perfecto de los datos

    El motivo de por qué vamos a realizar un análisis de regresión con Mplus es más bien para ir cogiendo soltura con la interfaz del programa y así, interiorizar pasos que serán muy importantes para otros análisis más complejos. Y para ello, la mejor forma de hacerlo es a través de un ejemplo.


    Caso práctico

    El objetivo principal de una investigación es analizar las relaciones existentes que hay en las calificaciones de algunas asignaturas de alumnos de 2º de Bachillerato [17-18 años]. En concreto, queremos analizar la relación que hay entre la calificación de Matemáticas con el resto de asignaturas científicas (Física, Biología y Química). Para ello, tenemos una base de 21 alumnos que contiene las calificaciones de Matemáticas, Física, Biología, Química, Lengua Castellana y Literatura e Historia del Arte. El equipo directivo quiere saber el porcentaje de la variación de la nota de Matemáticas que puede explicarse por su relación lineal con el resto de asignaturas científicas (Física, Biología y Química).

    Para este ejemplo, se usará el programa Mplus7 empleando la base de datos que se puede descargar pulsando el siguiente botón y que tiene como título asignatura.dat



    En efecto, date cuenta que vamos a tener que hacer análisis únicamente con algunas variables; en concreto con Matemáticas, Física, Biología y Química. Por tanto, deberemos usar el comando usevariable para que el programa ignore el resto de variables (Lengua e Historia del Arte). Para más información sobre este comando, haz clic en el siguiente botón.




    Procedimiento

    En primer lugar, debemos elaborar el input file (fichero de entrada) con toda la información necesaria para abrir la base de datos, numerar las variables y realizar los análisis pertinentes. Para ello, podemos escribir en Mplus la siguiente sintaxis [en rojo se marca lo que seguramente sea distinto en otros ordenadores]:

    Title:
        Modelo de regresión de asignaturas

    Data:
        File is "C:/Users/JSD/Mplus/Asignatura.dat";

    Variable:
        Names are Mat Fis Bio Quim  LCL HisA;
        Usevariable are Mat Fis Bio Quim;

    Model:
        Mat ON Fis Bio Quim;

    Output:
        sampstat standardized modindices (all);


    En primer lugar, en Title:, pondremos un título a nuestro análisis. A continuación, en Data:, especificaremos el lugar en el que se encuentra la base de datos en formato .dat. Para ello, tendremos que usar el directorio de Windows (cambiando las barras de "\" a "/"). La dirección que ves arriba será distinta en tu caso. Después, en Variable:, nombraremos todas las variables (names are) y con el comando usevariable citaremos solamente aquellas objeto de estudio. A continuación, en Model:, especificaremos el modelo de regresión, que consiste en usar la palabra clave ON entre medias de las variables predictoras (Física, Biología y Química) y la variable predicha o dependiente (Matemáticas). Por último, en Output:, especificaremos la forma en la que se obtendrán los resultados. En este caso pediremos estadística muestral (sampstat), soluciones estandarizadas (standardized) y modificaciones de índices (modindices) en todas las variables objeto de estudio (all).

    Finalmente, tal y como se muestra en la siguiente ilustración, haremos clic en la tecla RUN para que se realice el análisis que hemos indicado en la sintaxis.



    Resultados e interpretación

    Como será poco habitual realizar un modelo de regresión con Mplus (recordemos que esto se puede realizar de manera más intuitiva en otros programas estadísticos como SPSS), hemos aglutinado los resultados y su interpretación en una misma sección.

    En primer lugar, en la ventana de resultados encontraremos un resumen global del modelo (no tiene mucha relevancia en la interpretación de los resultados). Simplemente cabe destacar que el estadístico que se emplea en este modelo es el de máxima verosimilitud



    Bajando por la hoja de resultados, tras el resumen del procedimiento, nos encontraremos con las medias, la tabla de covarianzas y la matriz de correlaciones. Esta última, es la que programas como SPSS también puede generar. Es aquí donde habrá que mirar el valor del coeficiente de correlación (r) y su interpretación. En concreto, la matriz de correlaciones ofrece el conocido como coeficiente de correlación de Pearson (r) [nótese en la siguiente imagen que los resultados de las tablas de correlación en Mplus y en SPSS coinciden]. 
    • Recordemos que r puede tomar valores entre -1 a 1 y que el 0 indica la ausencia de relación entre las dos variables objeto de estudio.


    A continuación, tenemos la información de los estadísticos de ajuste del modelo. Con este modelo no tiene mucho sentido analizarlo puesto que, sin ánimos de entrar en detalles matemáticos, los modelos de regresiones siempre se ajustan a la perfección.


    Tras la información de los ajuste de modelos, nos encontraremos las tablas de los pesos de las regresiones. En esta parte encontraremos cuatro tablas similares. Comenzamos viendo la tabla de la regresión no estandarizada. Por otro lado, veremos tres tablas estandarizadas: STDYX, STDY y STD. Si observamos rápidamente las cuatro tablas (en la siguiente ilustración solo se muestran las dos primeras), veremos que a penas hay diferencias en los resultados. Cuando trabajamos con modelos de regresión múltiple en Mplus, es indiferente la tabla que se elija en este apartado (puesto que las conclusiones son similares). Esto no pasa así cuando estamos realizando otro tipo de análisis más complejo. 
    • Independientemente de la tabla elegida, la primera columna contiene el nombre de nuestras variables predictoras (Física, Biología y Química). Nótese que en la parte de arriba tenemos el nombre de la variable predicha seguido de un ON (regresión según Mplus; Matemáticas ON).
    • El la siguiente ilustración se explica lo que significa cada columna. Las columnas más importantes para este análisis (independientemente de si se elije la tabla no estandarizada, la STDYX, la STDY o la STD) es el valor beta (Estimate) y su correspondiente signficatividad (Two-Tailed p-Value).
      • Deberemos ver qué variable predictora es significativa (p < 0.050). En nuestro ejemplo, solamente la calificación de Física es una predictor significativo de la calificación de matemáticas (B = 0,879; p < 0,001).



    En la siguiente imagen, observamos las dos tablas restantes estandarizadas (STDY y STD), así como la información sobre la R al cuadrado. Esta información es una de las más importantes del análisis. El coeficiente de determinación (R al cuadrado) representa el porcentaje de variabilidad de la variable dependiente (Matemáticas en este caso) explicada por el modelo de regresión. A diferencia del coeficiente de correlación visto más arriba, esta toma valores entre 0 y 1. Simplemente deberemos multiplicar el valor de esta tabla por 100 para obtener el porcentaje de variación de los resultados. En este caso, el 85% de la variación de la calificación en Matemáticas se puede explicar por su relación lineal con la calificación en el resto de asignaturas científicas. Con esta interpretación, hemos dado respuesta a la pregunta que se planteaba el equipo directivo del centro.



    En definitiva, toda esta información es la que si reiteramos el análisis en otro programa estadístico (pongamos SPSS) será similar a los resultados e interpretación que acabamos de hacer en Mplus. Como ya hemos dicho en la introducción, este análisis tan sencillo puede ser útil para comenzar a familiarizarse con las posibilidades de Mplus para cuando realicemos análisis mucho más complejo y más común para este tipo de software.


    Seguir aprendiendo

    Haz clic en el siguiente botón para seguir aprendiendo sobre otros análisis en Mplus:



    Jacob Sierra Díaz y Alti