En Estadística Aplicada es habitual comparar dos grupos. De hecho, en las entradas anteriores hemos visto los casos en los que debemos realizar una comparación mediante métodos paramétricos en función de la naturaleza de las variables. Puedes hacer clic en los siguientes botones para recordar cómo se efectúa una prueba T de Student (normalidad y homocedasticidad), el test de Welch (normalidad) y el test basado en la normal (muestras grandes), respectivamente.
Entonces, cuando se comparan dos grupos, debemos tener en cuenta unos supuestos previos que indicarán la prueba más idónea. Por supuesto, en esta entrada veremos la familia de contrastes no paramétricos (cuando no se puede asumir que los datos de los dos grupos proceden de poblaciones normales o cuando los tamaños del efecto no son lo suficientemente grandes).
- Hoy vamos a mostrar cómo se efectúa en el entorno R la prueba de Wilcoxon-Mann-Whitney.
Supuestos previos
Para esta prueba, debemos tener datos en la variable dependiente de tipo cuantitativo continuo (como el resto de pruebas que hemos ido viendo estos días). Además, no es necesario admitir que los datos procedan de poblaciones normales. Puedes hacer clic en el siguiente botón para acceder a la forma en la que se realizan estas pruebas en el entorno de R. Por supuesto, realizar esta prueba para estas pruebas sería una pérdida de tiempo. No obstante, puedes hacer clic en el siguiente botón para acceder al contenido.
Caso práctico
Un pequeño estudio quiere saber si un resultado en una puebla de japonés es igual entre chicos y chicas de una misma clase. La clase se componía de 12 alumnos y 12 alumnas y los resultados van de la más baja calificación, que es 0, a la más alta, que es 100. Los datos de las pruebas fueron:
- Alumnos: 88, 87, 81, 86, 89, 84, 83, 89, 93, 82, 89, 87
- Alumnas: 91, 94, 90, 93, 88, 83, 90, 92, 94, 90, 94, 85
El estudio quiere saber si hay diferencias significativas en sus medianas poblacionales. Es decir, la hipótesis nula será M del grupo1 = M del grupo 2 y, por tanto, la hipótesis alternativa será M del grupo 1 ≠ M del grupo 2; siendo "M" las medianas poblacionales.
Ya que se ha especificado claramente que el contraste se debe hacer con medianas poblacionales, debemos ejecutar el test Wilcoxon-Mann-Whitney. De esta forma, no será necesario hacer la comprobación del supuesto de normalidad (tests K-S o S-W). Para este ejemplo, se empleará directamente el entorno R (versión 4.3.1) en un ordenador MacBook Pro (con sistema operativo MacOS Ventura). Este mismo proceso se puede hacer en un ordenador con sistema operativo Windows. Por supuesto, este mismo proceso se puede ejecutar en RStudio. Los datos se introducirán directamente en la consola de R mediante dos variables vectoriales con los nombres del sexo de los residentes.
Procedimiento
En primer lugar, se introducirán los datos en modo de variable vectorial. En concreto, se crearán dos variables poniendo los datos separados por comas. En este caso, el orden de los datos no importan.
> Alumnos = c(88, 87, 81, 86, 89, 84, 83, 89, 93, 82, 89, 87)
> Alumnas = c(91, 94, 90, 93, 88, 83, 90, 92, 94, 90, 94, 85)
A continuación, efectuaremos el contraste Wilcoxon-Mann-Whitney con la función wilcox.test (grupo1, grupo2, alternative = "two.sided", mu = 0) en donde "grupo1" y "grupo2" son los nombres de la variable de ambos grupos. Two.sided hace referenciaa los constraste bilaterales y mu es el valor de la hipótesis nula. Entonces, en este caso, la función será:
> wilcox.test (Alumnos, Alumnas, alternative ="two.sided", mu =0)
Resultados e interpretación
Los resultados de esta prueba son iguales de interpretar que cuando se hacen pruebas paramétricas. En concreto, se debe mirar el p-valor y si este es menor de 0,050 (lo deseable) tenemos evidencias como para rechazar la hipótesis alternativa y admitir que no hay igualdad entre las medianas de ambas poblaciones (asumiendo un nivel de significación de 0,050).
Los resultados de este ejemplo, se muestran en la siguiente imagen. Debemos mirar que los resultados del estadístico de contraste es la W (27,5 en este caso) y el p-valor es inferior a 0,050, por lo que se puede asumir desigualdad de medianas entre alumnos y alumnas.
- El p-valor de este contraste confirma que hay diferencia de medianas significativas entre las calificaciones de japonés de los chichos y de las chicas.
Seguir aprendiendo
A continuación,
Jacob Sierra Díaz y Alti