viernes, 15 de noviembre de 2024

R - Estadística | Contraste chi-cuadrado de homogeneidad

Cuando queremos comparar las diferencias significativas entre dos grupos con una variable categórica nominal u ordinal (que contenga frecuencias o recuentos) no podemos emplear las técnicas estadísticas vistas en los días anteriores que analiza las varianzas de dos grupos. En consecuencia, deberemos usar la prueba chi-cuadrado (X2de homogeneidad para varias muestras. En realidad, esta prueba se puede usar para dos o más poblaciones (o, de manera práctica, grupo). 



Caso práctico

Se quiere saber si existen o no diferencias significativas entre estudiantes universitarios fumadores y no fumadores en dos cursos del grado de Pedagogía. Por tanto, la muestra se compone de estudiantes  del primer y segundo curso que han querido participar en el estudio. Los resultados se han clasificado en fumadores y no fumadores en la siguiente especie de tabla:

Curso                  Fumadores        No fumadores
PRIMERO               16                        23
SEGUNDO              19                        28


Cuando se plantea este tipo de casos, estadísticamente hablando debemos preguntarnos: ¿se puede considerar homogéneo las dos poblaciones respecto al hábito fumador? Específicamente observamos que la variable categórica (hábito fumador) se compone de dos clases (fumador y no fumador), que a su vez está clasificada en una variable independiente (curso) de dos grupos (primero y segundo). Esta información se puede resumir en una tabla de frecuencias donde tenemos desglosada las frecuencias observadas (16, 23, 19 y 28 en este ejemplo) y se pueden calcular el sumatorio o total de la muestra. En efecto, lo que debemos hacer para responder a la pregunta del caso práctico será un test chi-cuadrado (X2) de homogeneidad. En concreto, se deberá realizar el estadístico de Pearson (la suma de las frecuencias observadas menos las esperadas) para contrastar la hipótesis nula (Ho) de que los grupos son homogéneos.

Para este ejemplo, se empleará directamente el entorno R (versión 4.4.2) en un ordenador Lenovo YB1-X91F (con sistema operativo Windows 10). Este mismo proceso se puede hacer en un ordenador Mac. Por supuesto, este mismo proceso se puede ejecutar en RStudio. Los datos se introducirán directamente en la consola de R, tal y como se mostrará a continuación.


Procedimiento

En primer lugar, debemos introducir los valores en forma de tabla de frecuencias, tal y como aparece en el caso práctico. Para ello, deberemos recurrir a la función matrix (c(...)). Como esta matriz va a tener dos columnas, que son las categorías "Fumadores" y "No fumadores" deberemos especificarlo en la instrucción ncol =. El orden para introducir los datos será por columnas o vertical (metemos ordenadamente los datos de la primera columna y pasamos a meter los datos ordenados de la segunda). A esta matriz, la vamos a llamar Habito.

> Habito = matrix (c(16, 19, 23, 28), ncol=2)


Para que la matriz se parezca a una tabla de frecuencias, podremos los nombres de cada fila y columna con los comandos colnames (nombre matriz) = c ("nombre de la columna 1", "nombre de la columna 2") y rownames (nombre matriz) = c ("nombre de la fila 1", "nombre de la fila 2"). Entonces, para este ejemplo:

> colnames (Habito) = c("Fumadores", "No fumadores")
> rownames (Habito) = c("Primero", "Segundo")

 
Podemos invocar el nombre de la matriz para visualizar si hemos metido bien la información.

A continuación, es hora de solicitar el test chi-cuadrado de homogeneidad. Esto se hace sencillamente con la función chisq.test (nombre de la matriz). Entonces en este caso, será

> chisq.test (Habito)


Adicionalmente podemos solicitar la tabla de frecuencias esperadas añadiendo a la función anterior. $ expected. Es decir:

> chisq.test (Habito) $ expected


Resultados e interpretación

Lo que se debe observar en este test es el p-valor. Si este es menor de 0,050 (suele ser lo deseable) se puede rechazar la hipótesis nula (Ho) de homogeneidad y concluir que existen diferencias significativas en ambos grupos. Tal y como se muestra en la siguiente ilustración, también es recomendable comparar los datos con las frecuencias esperadas y darse cuenta si esas diferencias son significativas. Los resultados de este test también dan el estadístico de Pearson (x-squared) con los grados de libertad (df).


  • El p-valor dela prueba de homogeneidad chi-cuadrado es 1, lo que puede confirmar la hipótesis de que los dos grupos (el curso) son homogéneos respecto a los hábitos fumadores. En otras palabras, no hay diferencias significativas entre los estudiantes de primero y de segundo relativas a fumar o no fumar.


Seguir aprendiendo

Hasta aquí la serie de pruebas de contraste de hipótesis para únicamente dos grupos. En las siguientes entradas, veremos las familia de pruebas para más de dos grupos. Puedes hacer clic en el siguiente botón para acceder al procedimiento de Análisis de Varianza:




Jacob Sierra Díaz y Alti

No hay comentarios:

Publicar un comentario