lunes, 11 de noviembre de 2024

R - Estadística | El test de Welch en R

Uno de los procedimientos más usados de la Estadística Aplicada es la de la comparación de poblaciones. Ya que es imposible comparar poblaciones, se recurren a grupos muestrales. Por tanto, el objetivo de la comparación de grupos es la de contrastar la hipótesis de partida (o nula) de que ambos grupos son iguales. 


Dependiendo de la naturaleza de los datos de una investigación, hay que seleccionar adecuadamente el test de contraste más adecuado para evitar una interpretación incorrecta. De esta forma, la comparación más básica que se puede presentar es cuando hay dos grupos a comparar. En este caso, tal y como se muestra en la siguiente imagen, tenemos una variable independiente binomial (grupo A y grupo B) y una o varias variables dependientes cuantitativas discretas o continuas. Aquí, en función de algunos supuestos se deberá seleccionar un tipo de contraste distinto.
  • Hoy vamos a mostrar cómo se efectúa en el entorno R la prueba de Welch



Supuestos previos

Anteriormente se vio la forma de efectuar la prueba T de Student. Esta prueba requiere que se cumplan dos supuestos: el de normalidad de los datos y el de la igualdad de varianzas. Puedes hacer clic en el siguiente botón para recordar cómo se efectúa este test.



Cuando los datos de ambos grupos proceden de distribuciones normales (supuesto de normalidad) pero sus varianzas no son iguales, no se debería realizar la prueba T de Student. En su lugar, se debería emplear el test que vamos a ver hoy. Puedes hacer clic en el siguiente botón para recordar cómo se efectúa una prueba de homocedasticidad básica en el entorno R. 



Caso práctico

Una residencia universitaria ha analizado la velocidad en la que sus residentes comen (medido en minutos). En concreto, quieren saber si hay diferencias significativas entre la velocidad en la que comen los chicos y la velocidad en la que lo hacen las chicas. A los alumnos se les pidió permiso para analizar las cámaras de seguridad del comedor y medir el tiempo en el que cogen la bandeja, comen y la vuelven a dejar para evitar la medida in situ no sesgue los resultados. Los resultados de velocidad son los siguientes:
    - Chicos: 5,3; 6,3; 7,8; 8,6; 8,9; 10,3; 11,5; 12,1; 13,3; 17,6; 14,3
    - Chicas: 11,5; 12,1; 16,3; 17,8; 24; 28,9; 40,6; 34,3; 33

Está claro que tenemos una variable independiente con dos grupos (chicos y chicas) y una variable dependiente (precio de la noche). El objetivo es comparar los dos grupos y ver si el precio de un barrio es mayor que el otro estadísticamente significativo. Todo apunta a que el test T de Student es el más aconsejable de realizar si se consiguen los supuestos de normalidad y homocedasticidad. Si solo se consigue el supuesto de normalidad, se deberá hacer el test t de Welch.


Para este ejemplo, se empleará directamente el entorno R (versión 4.3.1) en un ordenador MacBook Pro (con sistema operativo MacOS Ventura). Este mismo proceso se puede hacer en un ordenador con sistema operativo Windows. Por supuesto, este mismo proceso se puede ejecutar en RStudio. Los datos se introducirán directamente en la consola de R mediante dos variables vectoriales con los nombres del sexo de los residentes.


Procedimiento

En primer lugar, se introducirán los datos en modo de variable vectorial. En concreto, se crearán dos variables poniendo los datos separados por comas. En este caso, el orden de los datos no importa, aunque mantendremos el mismo que se indicó en el enunciado

> Chicos = c(5.3, 6.3, 7.8, 8.6, 8.9, 10.3, 11.5, 12.1, 13.3, 17.6, 14.3)

> Chicas = c(11.5, 12.1, 16.3, 17.8, 24, 28.9, 40.6, 34.3, 33)


A continuación, se debe verificar la normalidad de los datos. Para ello, se usará el test S-W ya que es el más restrictivo y la muestra del caso práctico es muy pequeña. Este test en el entorno R se debe hacer para cada grupo. Entonces, sería: 

> shapiro.test (Chicos)
> shapiro.test (Chicas)

  • En caso de que queramos analizar la variable dependiente (velocidad a la hora de comer) como un conjunto único, es decir unir los datos de la variable "Chicos" y de "Chicas" deberemos crear una nueva variable en la que pondremos el nombre de los grupos y solicitar el test S-W con el nombre de esa nueva variable.
> velocidad = c(Chicos, Chicas)     > shapiro.test (velocidad)

 

Ahora, deberemos verificar la homocedasticidad. Para ello vamos a emplear la función básica que viene por defecto en el entorno R. Aquí, sí que debemos incluir en la misma función a los dos grupos. Si el p-valor que de como resultado es superior a 0,050 podemos asumir la igualdad de varianzas entre los dos grupos y, por tanto, se puede hacer la T de Student. Si, por el contrario, es inferior a 0,050 deberemos realizar la prueba de Welch.

> var.test (Chicos, Chicas)


Entonces, para solicitar el test de Welch, deberemos usar la siguiente función t.test (var1, var2, var.equal = F). En var1 colocaremos el nombre del primer grupo ("Chicos" en nuestro caso, por ejemplo) y en var2 colocaremos el nombre del otro grupo ("Chicas" en este ejemplo). Nótese que para solicitar este test deberemos poner la F en var.equal. Por tanto, para este ejemplo, la función quedará de esta forma:

> t.test (Chicos, Chicas, var.equal = F)


Resultados e interpretación

Los resultados de las funciones descritas en el apartado anterior, saldrán cada vez que pulsemos la tecla Intro. En este ejemplo no vamos a repasar los resultados de la prueba de normalidad y homocedasticidad puesto que ya se ha comentado que para esta prueba la normalidad debe ser un p-valor superior a 0,050 y la homocedasticidad debe ser un p-valor superior a 0,050.

Tampoco se va a proceder a realizar un análisis exhaustivo de cada uno de los componentes de los resultados. El objetivo de esta entrada es conocer el valor que debemos de mirar para saber si hay diferencias estadísticamente significativas entre los dos grupos. Por tanto, deberemos mirar el p-valor y si, a diferencia de los dos anteriores, es menor que 0,050 podemos rechazar la hipótesis nula y tener evidencias para concluir que existen diferencias entre los grupos.


  • El p-valor del test de Welch sugiere rechazar la hipótesis nula de igualdad de ambos grupos de datos. Por tanto, podemos confirmar que hay diferencias significativas en la velocidad de comida entre chicos y chicas en la residencia universitaria.

Seguir aprendiendo

A continuación, veremos cómo se realiza este tipo de pruebas para muestras grandes (aproximadamente 30 participantes). Puedes hacer clic en el siguiente botón para acceder al contenido:



Jacob Sierra Díaz y Alti

No hay comentarios:

Publicar un comentario