En la entrada anterior vimos la forma de crear un diagrama de cajas básico con el entorno de R. Puedes hacer clic en el siguiente botón para acceder a ese contenido y refrescar conocimientos. Entre las utilidades que tiene el diagrama de cajas se destaca la de analizar la homocedasticidad o la igualdad de varianzas.
No es objeto de esta entrada profundizar en el concepto de homocedasticidad. Se trata de la condición en la que los errores de un modelo de regresión presentan una varianza constante con respecto a la variable independiente (predictor). La homocedasticidad es un supuesto que se tiene que confirmar para poder hacer algunos análisis estadísticos (García-Pérez, 2015). En esta entrada veremos la forma de hacer un diagrama de caja teniendo en cuenta una misma variable dependiente dividida en dos grupos (variable independiente).
Caso práctico
Un estudio ha comparado el uso de una vitamina para mejorar el rendimiento de una prueba de memoria. Para ello, se ha empleado a un grupo de participantes de más de 50 años que están matriculados en un programa formativo en una universidad. El primer grupo recibió una pastilla con la vitamina y el segundo grupo recibió una pastilla sin la vitamina (placebo). A continuación, se procedió a realizar la prueba de memoria. El resultado de esta prueba es un valor que oscila entre 0 y 50, siendo el 0 la peor calificación y 50 la mejor. Se quiere comprobar el supuesto de homocedasticidad de ambos grupos visualmente con el diagrama de cajas.
Los datos de los resultados de la prueba se muestran a continuación:
- Grupo experimental: 28,5; 19,5; 22,8; 25,9; 14,5; 23,3; 24,5; 26,4; 28,1; 29,6; 25,7; 21,9
- Grupo control: 34,5; 26, 36,5; 35,7; 29,5; 26,9; 25,7; 34,8; 29,9; 19,6; 17,4; 21,9
Para este ejemplo, se empleará directamente el entorno R (versión 4.3.1) en un ordenador MacBook Pro (con sistema operativo MacOS Ventura). Este mismo proceso se puede hacer en un ordenador con sistema operativo Windows. Por supuesto, este mismo proceso se puede ejecutar en RStudio. Los datos se introducirán directamente en la consola de R mediante dos variables vectoriales con los nombres experimental y control respectivamente.
Procedimiento
En primer lugar, se introducirán los datos en modo de variable vectorial. Esta vez debemos crear dos variables vectoriales; una para el grupo experimental y otra distinta para el grupo control. Recordemos que en R debemos separar cada dato con comas y la separación decimal irá con puntos. En este caso, el orden de los datos no importa, aunque mantendremos el mismo que se indicó en el enunciado
> experimental = c(28.5, 19.5, 22.8, 25.9, 14.5, 23.3, 24.5, 26.4, 28.1, 29.6, 25.7, 21.9)
> control = c(34.5, 26, 36.5, 35.7, 29.5, 26.9, 25.7, 34.8, 29.9, 19.6, 17.4, 21.9)
Se recuerda que una vez introducido los datos, con invocar (para este caso) el nombre "experimental" o "control" los valores introducidos en la respectiva variable. Además, usando la función length (...) nos dirá el número total de casos en las variables (en otras palabras, la n). Por ejemplo, para saber el número de participantes en la primera variable del grupo experimental escribiremos la función:
> length (experimental)
[1] 12
Ahora, para solicitar el diagrama de caja (box plot) conjunto es necesario crear dos nuevas variables vectoriales:
- La primera de ellas es relativa a los grupos y se llamará grupos. En ella tendremos que usar la función rep ("1", n) donde el "1" es el valor que se repetirá y que indicará el orden del grupo (al haber dos grupos el primer rep debe ser "1" y el segundo debe ser "2") y la n es el tamaño muestral de cada grupo. Entonces:
> grupos = c(rep ("1", 12), rep ("2", 12))
- La segunda variable será relativa a todo el conjunto de datos. Para ello, juntaremos en una única variable el grupo experimental y el grupo control. Le vamos a poner el nombre de memoria ya que así, tendremos todo el conjunto de datos en una sola variable (sin separar por grupos).
> memoria = c(experimental, control)
- Ahora ya podremos solicitar el diagrama de cajas con la función boxplot (...). Dentro del paréntesis tendremos que poner primero el conjunto de todos los datos (que, en este ejemplo, ha recibido el nombre de "memoria"), seguido del símbolo de la virgulilla (~) junto con la variable relativa a los grupos. En la siguiente ilustración se explica cómo se acciona este caracter en teclados de Mac y Windows. Podemos complementar esta función del diagrama de cajas con los códigos de colores (col = nº), que se mostró en la entrada anterior relativa al diagrama de cajas básico. Entonces, la función quedará de esta forma:
> boxplot (memoria ~ grupos, col = 3)
Resultados e interpretación
Al darle a la tecla Intro, se obtendrá el box plot compartido que servirá para analizar visualmente la varianza entre los dos grupos, tal y como se muestra a continuación:
- Visualmente se observa que el grupo control (2 en el diagrama) tiene una mayor varianza que el grupo experimental (1) puesto que el tamaño general del diagrama es mucho más grande. No obstante, se requieren pruebas estadísticas de contraste que permitan determinar si hay homocedasticidad o igualdad de varianzas.
Fuente bibliográfica
Referencia en estilo APA-7:
- García-Pérez, A. (2015). La interpretación de los dato: una introducción a la Estadística Aplicada. Librería UNED.
Seguir aprendiendo
En realidad, los box plot sirven principalmente para analizar visualmente la homocedasticidad. En la siguiente entrada veremos cómo llevar a cabo pruebas estadísticas para el análisis de homocedasticidad. Puedes pulsar en el siguiente botón para acceder al contenido:
Jacob Sierra Díaz y Alti
No hay comentarios:
Publicar un comentario