Uno de los procedimientos más usados de la Estadística Aplicada es la de la comparación de poblaciones. Al ser prácticamente imposible la comparación real de poblaciones (ya que requeriría que todos los individuos o elementos formasen parte de la comparación), se suele reducir a grupos representativos de las poblaciones. Entonces, el objetivo de la comparación de grupos es la de emplear contrastes de hipótesis para determinar si los conjuntos de datos de los grupos pueden considerarse iguales o si, por el contrario, son estadísticamente significativo sin considerar el mero azar.
Dependiendo de la naturaleza de los datos de una investigación, hay que seleccionar adecuadamente el test de contraste más adecuado para evitar una interpretación incorrecta. De esta forma, la comparación más básica que se puede presentar es cuando hay dos grupos a comparar. En este caso, tal y como se muestra en la siguiente imagen, tenemos una variable independiente binomial (grupo A y grupo B) y una o varias variables dependientes cuantitativas discretas o continuas. Aquí, en función de algunos supuestos se deberá seleccionar un tipo de contraste distinto.
- Hoy vamos a mostrar cómo se efectúa en el entorno R la prueba T de Student.
Supuestos previos
Antes de realizar esta prueba, los datos deben "superar" unas pruebas. En primer lugar, se deben hacer un test de normalidad. Lo recomendable es usar el test Kolmogorov-Smirnov (muestras mayores de 50 participantes) o el test Shapiro-Wilk (muestras menores de 50 participantes, más restrictivo). Puedes hacer clic en el siguiente botón para recordar la forma de hacer este análisis en el entorno R.
Además, tal y como se muestra en la ilustración superior; a parte de la normalidad de los datos; se debe comprobar la homocedasticidad. Puedes hacer clic en el siguiente botón para recordar la forma de hacer este análisis básico en el entorno R.
Caso práctico
Un grupo de economistas quieren estudiar si el precio de la noche de los hoteles en dos barrios de una ciudad capital de provincia son estadísticamente distintos. Para ello, han obtenido los siguientes precios por noche de todos los hostales y hoteles de los dos barrios:
- Bellavista: 4€, 8€, 26€, 11€, 16€, 7€, 13€, 26€ y 15€
- Fuentezarza: 58€, 54€, 50€, 48€, 43€, 31€, 30€, 22€ y 11€
Está claro que tenemos una variable independiente (Bellavista y Fuentezarza) y una variable dependiente (precio de la noche). El objetivo es comparar los dos grupos y ver si el precio de un barrio es mayor que el otro estadísticamente significativo. Todo apunta a que el test T de Student es el más aconsejable de realizar si se consiguen los supuestos previamente expuestos.
Para este ejemplo, se empleará directamente el entorno R (versión 4.3.1) en un ordenador MacBook Pro (con sistema operativo MacOS Ventura). Este mismo proceso se puede hacer en un ordenador con sistema operativo Windows. Por supuesto, este mismo proceso se puede ejecutar en RStudio. Los datos se introducirán directamente en la consola de R mediante dos variables vectoriales con los nombres de los barrios.
Procedimiento
En primer lugar, se introducirán los datos en modo de variable vectorial. En concreto, se crearán dos variables poniendo los datos separados por comas. En este caso, el orden de los datos no importa, aunque mantendremos el mismo que se indicó en el enunciado
> Bellavista = c(4, 8, 26, 11, 16, 7, 13, 26, 15)
> Fuentezarza = c(58, 54, 50, 48, 43, 31, 30, 22, 11)
A continuación, se debe verificar la normalidad de los datos. Para ello, usaremos el test S-W ya que es el más restrictivo. Realmente se deberá efectuar dos veces el test, una para el barrio "Bellavista" y otra para el barrio "Fuentezarza". Si ambos test dan como resultado un p-valor superior a 0,050 se puede asumir la normalidad de los datos y, por tanto, se continua con los procedimientos paramétricos.
> shapiro.test (Bellavista)
> shapiro.test (Fuentezarza)
- En caso de que queramos analizar la variable dependiente (el precio de la noche) como un conjunto único, es decir unir los datos de la variable "Bellavista" y de "Fuentezarza" deberemos crear una nueva variable en la que pondremos el nombre de las anteriores variables y solicitar el test S-W con el nombre de esa nueva variable.
> precio = c(Bellavista, Fuentezarza) > shapiro.test (precio)
Ahora, deberemos verificar la homocedasticidad. Para ello vamos a emplear la función básica que viene por defecto en el entorno R. Aquí, sí que debemos incluir en la misma función a los dos grupos. Si el p-valor que de como resultado es superior a 0,050 podemos asumir la igualdad de varianzas entre los dos grupos y, por tanto, se puede hacer la T de Student.
> var.test (Bellavista, Fuentezarza)
Entonces, para solicitar la prueba T de Student, deberemos usar la siguiente función t.test (var1, var2, var.equal = T). En var1 colocaremos el nombre del primer grupo (el barrio de "Bellavista" en nuestro caso, por ejemplo) y en var2 colocaremos el nombre del otro grupo (el barrio de "Fuentezarza" en este ejemplo). Por tanto, para este ejemplo, la función quedará de esta forma:
> t.test (Bellavista, Fuentezarza, var.equal = T)
Resultados e interpretación
Los resultados de las funciones descritas en el apartado anterior, nos saldrán cada vez que pulsemos la tecla Intro. En este ejemplo no vamos a repasar los resultados de la prueba de normalidad y homocedasticidad ya que se ha comentado que cuando el p-valor es superior a 0,050 se puede proceder a realizar la prueba objeto de esta entrada.
Tampoco se va a proceder a realizar un análisis exhaustivo de cada uno de los componentes de los resultados. El objetivo de esta entrada es conocer el valor que debemos de mirar para saber si hay diferencias estadísticamente significativas entre los dos grupos (que es lo que contrasta el test T de Student). Por tanto, deberemos mirar el p-valor y si, a diferencia de los dos anteriores, es menor que 0,050 podemos rechazar la hipótesis nula y tener evidencias para concluir diferencias entre los grupos.
- El p-valor de la prueba T-Student es de menos de 0,050 (p = 0,0007). Por tanto, tenemos suficiente evidencia para concluir que el precio por noche de los hoteles es distinta en el barrio de Bellavista que en el barrio de Fuentezarza.
No hay comentarios:
Publicar un comentario