martes, 30 de enero de 2024

SPSS Básico | Prueba T de Student (muestras independientes)

El estadístico T para muestras independientes es una prueba estadística de contraste de hipótesis que se usa cuando se desea comparar las medias de (únicamente) dos grupos de participantes diferentes. El término "muestras independientes" alude al hecho de que las medias proceden de dos poblaciones independientes. Esto quiere decir que los participantes de un grupo son distintos a los participantes de otro grupo en una o varias variables independientes. Un ejemplo muy característico de este caso sería la variable independiente sexo; cuyos valores son (únicamente) masculino o femenino

La configuración ideal para esta prueba es que los sujetos que forman cada uno de los dos grupos de un hipotético experimento se hayan asignado aleatoriamente a dichos grupos con el fin de que cualquier diferencia se deba al experimento y no a otros factores externos. 

En resumidas cuentas, tal y como se muestra en el siguiente esquema, cuando se asumen los supuestos de normalidad y se tiene que comparar una (o varias) variables dependientes cuantitativas en únicamente dos grupos, emplearemos la prueba T de Student para muestras independientes.



Caso práctico

El objetivo principal de una investigación es averiguar si un programa de entrenamiento aeróbico
intensivo de una semana mejora significativamente la cantidad de oxígeno que el organismo puede absorber, transportar y consumir en un momento determinado (VO2 máximo). 

Para ello, se dispone de una muestra de 100 participantes que se distribuirán aleatoriamente en dos grupos de 50 participantes cada uno: 
  • El primer grupo recibirá el paquete de entrenamiento aeróbico intensivo (grupo experimental)
  • El segundo grupo recibirá sesiones prácticas tradicionales (grupo de control). 

Tras la semana de intervención (aplicación de ambos programas de entrenamiento), se midió y se registró el VO2 máximo de cada participante en una prueba aeróbica con el tapiz rodante. 


Estos datos ficticios se introdujeron en una base de datos de SPSS (formato .sav) para su posterior análisis estadístico. Se empleó la versión 27 de IBM-SPSS en Windows 10. Puedes hacer clic en el siguiente botón para acceder a la base de datos y practicar la ejecución de la prueba que se describe a continuación. La contraseña de dicha base de datos es Stadistica




Procedimiento

Una vez abierta la base de datos en SPSS deberemos realizar un estudio de la normalidad de los datos. Esto no se va a cubrir en esta entrada, pero sí que cabe recordar que para poder efectuar la prueba T-Student para muestras independientes, la significación (p-valor) del contraste de hipótesis de la prueba de normalidad que se realice deberá ser superior a 0,050.

Para hacer el análisis de la prueba T-Student usaremos la interfaz gráfica de usuario de SPSS. En primer lugar, daremos clic a Analizar, buscaremos Comparar media y haremos clic en Prueba T de muestras independientes...



En la siguiente ventana, deberemos introducir las variable dicotómica (variable que tiene dos agrupaciones correspondientes con el grupo experimental o grupo de control) en Variable de agrupación. Ahora, meteremos la(s) variable(s) dependiente(s) en Variable de prueba. Recuerda que para meter las variables deberemos seleccionar la variable y hacer clic en la flecha correspondiente al lado del tipo de variable que se quiera introducir. 

En este caso particular, meteremos la variable Grupo en Variable de agrupación y la variable VO2max en variable de prueba, tal y como se muestra en la siguiente imagen.



Ahora, tenemos que definir los grupos de la variable dicotómica. Para ello, nos tendremos que acordar de la codificación que hemos usado. Hacemos clic en Definir grupos... e introducimos el código numérico que tengamos para el grupo 1 (normalmente 1 o 0) y el código numérico usado para el grupo 2 (normalmente 1 o 2). Recuerda que no importa el orden en el que se pongan los grupos.

En este caso, hemos codificado el grupo experimental como 1 y el grupo control como 2. Entonces, introduciremos en el Grupo 1 el 1 y en el Grupo 2 el 2, tal y como se muestra en la siguiente imagen.



Finalmente, haremos clic en Aceptar




Resultados

Varias son las tablas que generará SPSS (versión 27) para la prueba T de Student de muestras independientes. 

La primera tabla tiene el nombre de Estadísticas de grupo. En ella se refleja la muestra (n) , la media, la desviación estándar y la media del error estándar de cada grupo. En versiones de SPSS anteriores, a la media del error estándar se le conocía como error típico de la media. Se trata de un valor que cuantifica las desviaciones de la media muestran teniendo en cuenta la media poblacional. Dicho en otras palabras,  se trata de un valor que indica cuánto se apartan los valores de la media de la población. Este valor sirve para elaborar los intervalos de confianza de la media correspondiente.




La siguiente tabla es la que más nos interesa. Tiene el nombre de Prueba de muestras independientes. puesto que recoge los resultados de la prueba propiamente dicha. Aquí, en primer lugar, debemos observar las columnas correspondientes a la prueba de Levene de igualdad de varianzas. Este test verifica la homocedsticidad (uno de los requisitos para asumir la distribución normal de los datos). En concreto, debemos observar el p-valor (sig.) para tomar una decisión:
  • p-valor (sig.) superior a 0,050 | Es lo deseable. Significa que podemos suponer igualdad de varianzas. Entonces, continuaremos interpretando esta tabla atendiendo exclusivamente a la primera fila de resultados.
  • p-valor (sig.) inferior a 0,050 | En este caso debemos suponer que las varianzas de ambos grupos son distintas. 
En efecto, la interpretación del test de Levene es contraria a lo que en el resto de pruebas debemos mirar del p-valor. En este caso, lo deseable es encontrar el p-valor superior a 0,050.

A continuación, de manera práctica, deberíamos mirar el p-valor (sig.) de la siguiente parte de esta tabla. En este ejemplo se mirará la primera fila puesto que con el test de Levene se asume igualdad de varianzas (p-valor superior a 0,050). Aquí pueden ocurrir dos cosas:
  • p-valor (sig.) superior a 0,050 | Las medias son iguales en ambos grupos. En este caso se acepta la hipótesis nula de que los resultados de la variable dependiente son independientes a cada grupo; es decir, las posibles diferencias entre grupos se debe al azar y no hay pruebas de que procedan de la intervención.
  • p-valor (sig.) inferior a 0,050 | Lo ideal (en la mayoría de casos). Las medias son distintas en cada grupo. En esta situación, la variable dependiente depende o está relacionada con la variable independiente. Esto significa que los resultados de la variable dependiente (VO2 max en este ejemplo) están condicionados al grupo de la variable independiente (grupo experimental y grupo control en este ejemplo). En otras palabras, no hay pruebas para rechazar que los resultados se deban al azar y es (estadísticamente) probable que las diferencias entre grupos se deban, precisamente a la distribución de los grupos (y sus intervenciones experimentales distintas).

Esto es lo que habría que mirar de manera práctica. Ahora bien, tenemos que reportar otra información contenida en esta tabla. En concreto, habría que reportar el estadístico t acompañado de su nivel de significación (p-valor). También sería interesante reportar los límites del intervalo de confianza. En concreto, debemos observar el límite inferior y superior del intervalo de confianza: si dentro de ese rango no se incluye el 0, se puede asumir con total seguridad que se puede rechazar la hipótesis nula (Ho) de igualdad de medias en ambos grupos.

Para saber cuánta ha sido la diferencia de medias, deberemos ir a la tabla anterior (Prueba de muestras independientes).




Por último, las versiones recientes de SPSS (como es el caso de la versión 27), ofrecen una tercera tabla. Esta tabla tiene el título de Tamaños de efecto de muestras independientes. En concreto, podemos observar tres estadísticos del tamaño del efecto que siempre son recomendables acompañar con el p-valor. El más usado en este tipo de pruebas es la d de Cohen. Este test es muy apropiado para la comparación de medias y nos da información sobre la diferencia media estandarizada de un efecto. Su interpretación es muy sencilla: el tamaño del efecto es grande (y por tanto deseable) cuando su valor es superior a 0,800.




Interpretación

Inferencia estadística | Para realizar una interpretación correcta de esta prueba debemos recordar que se trata de un test de contraste de hipótesis en la que la hipótesis nula es que no hay diferencias de medias en las dos muestras (o grupos) independientes y, que en caso de existir, se debe exclusivamente al azar.

La interpretación de estos resultados es muy sencilla de realizar. Simplemente deberemos informar si hay diferencias significativas (H1) o no (Ho). Para ello, necesitaremos apuntar los valores que se han dicho anteriormente de las tablas de SPSS de la siguiente forma: t (grados de libertad - gl) = estadístico t; p = valor de sig.. Previamente se deberán reportar las medias y las desviaciones típicas de ambos grupos. Aunque no es necesario, se puede reportar los resultados e interpretación de la prueba de Levene. Lo que sí que es recomendable es reportar el tamaño del efecto d de Cohen (junto con su interpretación). Se recomienda usar un tiempo verbal pasado. 

Veamos un ejemplo básico en español y en inglés sobre cómo poder reflejar los resultados de nuestro caso práctico:
  • Se observaron diferencias significativas en el VO2 máximo entre el grupo experimental (M = 65,04; DT = 1,77) y el grupo control (M = 60,04; DT = 1,98) [t (98) = -13,270; p < 0,001]. El tamaño del efecto se considera grande (d = 1,884).
  • There was a significant difference in VO2 max between the experimental group (M = 65.04; SD = 1.77) and the control group (M = 60.04; SD = 1.98) [t (98) = -13.70; p <0.001]. Effect size was assumed as large (d = 1.884).


Jacob Sierra Díaz y Alti

sábado, 6 de enero de 2024

Teoría | Tipos básicos de contraste de hipótesis

En la rama de Estadística Inferencial, se realizan los denominados contraste de hipótesis. Se trata de distintos procedimientos que se emplean para descubrir el comportamiento de una o varias variables en función de la información recogida y del objeto de estudio. Sin embargo, no todas las pruebas estadísticas son iguales. Como ya se habrá visto en entradas anteriores, en función de la naturaleza de las variables objeto de estudio deberemos realizar un tipo de prueba u otro. Entonces, es muy habitual contar con algún tipo de guía o apoyo que nos oriente sobre las pruebas más adecuada que debemos realizar en función de nuestro objetivo principal de estudio y en función de la naturaleza de nuestros datos. 

A continuación, se muestra una tabla de doble entrada en la que se relacionan las variables más frecuentes en los análisis estadísticos y las pruebas que se deben realizar siempre y cuando se satisfagan los supuestos que dichos contrastes implican:


Así, por ejemplo, sabemos que para un estudio en el que tenemos calificaciones de los alumnos de una asignatura (variable cuantitativa continua) y el sexo de los mismo (variable cualitativa nominal) debemos realizar una regresión logística de nuestros datos.


Puedes hacer clic en el siguiente botón para acceder y descargar la imagen anterior en formato .pdf para poder imprimirla y consultarla cuando quieras.




Jacob Sierra Díaz y Alti

jueves, 4 de enero de 2024

Teoría | Tipos de análisis según las variables

Ya hemos visto la definición de variable y la clasificación clásica de variables (cualitativa o cuantitativa). Además, también hemos aprendido la diferencia entre una variable dependiente y una independiente. Puedes hacer clic en los siguientes botones para volver a leer sobre esto:


Bien es sabido que el objetivo de cualquier análisis estadístico es la de analizar una determinada variable o grupo de variables en algunos individuos de una población (García-Pérez, 2011). Por tanto, en función del número de variables implicadas en el análisis se deberán tener en cuenta distintas dimensiones y proceder de una manera concreta.
  • Cuando se desea analizar una sola variable (por ejemplo, número de pulsaciones por minuto en pacientes que acaban de sufrir un infarto de miocardio) hablamos de un análisis unidimensional. Es decir, tenemos una única dimensión (variable) objeto de estudio en cada uno de los individuos.
  • Cuando se desean analizar varias variables (por ejemplo, el peso y la talla de los estudiantes de una academia de preparación para policías) para cada uno de los individuos que forman la muestra de la investigación hablamos de un análisis multidimensional. Este, se puede especificar en función del número de variables que están implicadas en el proceso: análisis bidimensional (dos variables), análisis tridimensional (tres variables) y así sucesivamente. 

¿Por qué es esto importante? Principalmente porque en función del análisis habrá que hacer unas pruebas estadísticas específicas. De esta forma, es imposible realizar un análisis de la varianza (ANOVA) cuando solo tenemos una variable (análisis unidimensional). Del mismo modo, es posible que un análisis de frecuencias se quede corto en una investigación en el que se han obtenido varias variables (análisis multidimensional). El siguiente diagrama, ilustra la clasificación de análisis básicos que se pueden realizar en función del número de variables.



miércoles, 3 de enero de 2024

Teoría | Variable independiente y variable dependiente

En el análisis estadístico hay varias formas de clasificar y enumerar a las variables (que ya vimos que era una característica medible). Puedes hacer clic en el siguiente botón para acceder a la clasificación clásica de variables:




Cuando necesitamos realizar ciertas pruebas estadísticas necesitamos conocer la naturaleza de las variables con el fin de conocer bien el tipo de prueba que se puede realizar. Paralelamente a la clasificación que vimos en la entrada anterior, las variables se pueden a su vez clasificar en dos grandes grupos: las variables independientes (también conocidas como Factores) y las variables dependientes. En esencia, la distinción entre estos dos grupos es la alteración o cambio de sus valores a lo largo del tiempo. Cuando estas no cambian (por ejemplo, el género no cambia a lo largo de una investigación) son denominadas variables independientes o factores. Por el contrario, las variables susceptibles a cambio debido a la intervención (u otros fenómenos) son denominadas variables dependientes, puesto que dependen precisamente de las variables independientes (por ejemplo, el grado de aburrimiento de una actividad monótona). En otras palabras:
  • Variables independientes [o también llamadas Factores]. Son variables que le vienen dadas al investigador y que no se pueden cambiar (o serán casi imposibles que cambien a lo largo del tiempo o de la investigación). La fecha de nacimiento, la edad, el grupo de investigación (control o experimental) son ejemplos de este tipo de variables. Estas variables vienen "de serie" en el sujeto u objeto que se desea investigar.

  • Variables dependientes. Como su propio nombre indica, son aquellas que dependen de algo (de las variables independientes o factores) y que en función de eso, podrán tener distintos valores. Por ejemplo, la estatura depende, en términos generales de la edad y el género (ambas variables ya vienen "de serie" en el individuo y son independientes). Además, estas variables pueden variar a lo largo del tiempo o gracias una intervención (cosa que no ocurre con el otro grupo de variables). Por ejemplo, si se aplica un nuevo método para mejorar la lectura en escolares, lo más seguro es que se observe un grupo que haya mejorado la velocidad de lectura y que por lo tanto antes de la intervención (pre-test) tuviese peores resultados que después de la misma (post-test).




Proceso de diferenciación

Para saber diferenciar estos tipos de variables hazte la siguiente pregunta: 

¿La variable X DEPENDE del factor Y

Si la respuesta es Sí, la variable X es una variable dependiente. 

Por ejemplo, la tasa de mortalidad y los hábitos de fumar (si un sujeto es fumador o no). ¿Las muertes PUEDEN DEPENDER de que una persona fume o no? Sí, por lo tanto la tasa de mortalidad es la variable dependiente y los hábitos de fumar es la variable independiente (esta ya viene predefinida, no se puede hacer nada con esta variable, no se puede alterar que un fumador deje de fumar en términos de una intervención en una investigación).


Jacob Sierra Díaz y Alti

martes, 2 de enero de 2024

Teoría | Clasificación clásica de variables

En la primera entrada hemos visto una definición de variable a través de un ejemplo cercano. Puedes hacer clic en el siguiente botón para acceder a dicha entrada y recordar el concepto. Se abrirá en la misma ventana. Para volver aquí, bastará con darle a la flecha de retroceso de tu navegador.




Existen dos grandes categorías de variables: aquellas que usan palabras para definir sus atributos (por ejemplo, el color de pelo de una muestra de personas) y aquellas que emplean números (por ejemplo, la estatura de esa misma muestra). Esta es la clasificación clásica más básica de variables, aunque no hay que olvidar que hay muchas otras formas de realizar taxonomías de variables. En esencia, cuando una variable se define con palabras se denomina variable cualitativa; y si, por el contrario, se define con números se denomina variable cuantitativa.
  • Variables cualitativas. Se describen empleando palabras. Por ejemplo, el género (hombre, mujer u otro), el color de los ojos (marrón, verde o azul), las clases de Quinto de Primaria (Grupo A, B y C) o los hábitos de fumar (nada, poco o mucho).

  • Variables cuantitativas. Son aquellas que emplean números para describirlas. Por ejemplo, la nota de un examen final (4, 5, 9...), la media de la frecuencia cardiaca después de una prueba física (120 pulsaciones por minuto, 125 ppm, 145 ppm...), el peso (77 kg, 85 kg, 70 kg...) o la motivación intrínseca ante una actividad medida con una escala de tipo Likert (10, 12, 13... -estos valores se obtienen de sumar las puntuaciones individuales de cada ítem-).

Cada una de estos dos tipos de variable se subdividen a su vez en dos subcategorías. Empezando por las variables cualitativas, seguramente puedes pensar que en muchas ocasiones no necesitamos establecer un orden (por ejemplo, en el color favorito de una persona o el sexo -no van primero los hombres y luego las mujeres o viceversa-); y que en otras situaciones el orden es necesario  (por ejemplo, la posición de una carrera -primero, segundo, tercero...-). Así, la variable cualitativa se subdivide en variables cualitativas nominales y variables cualitativas ordinales.
  • Variable cualitativa (Palabras)
    • Variable cualitativa nominal. No establece un orden. Por ejemplo, género, grupo de investigación (experimental o control) o color de la piel.

    • Variable cualitativa ordinal. Implica un orden en las categorías o valores. Por ejemplo, posición en una carrera (primero, segundo, tercero...), nivel de inglés (básico, intermedio o avanzado) o nivel socioeconómico (bajo, medio o alto).

Algo similar ocurre con las variables cuantitativas. En determinadas ocasiones simplemente es necesario emplear números enteros (por ejemplo, número de hijos); y en otras situaciones se requiere el uso de números decimales (por ejemplo, la estatura o el tiempo en realizar una prueba). Por tanto, las variables cuantitativas se subdividen en:
  • Variable cuantitativa (Números)
    • Variable cuantitativa discreta. Implica que los números sean enteros y no decimales. Por ejemplo, el número de hermanos (1, 2, 3... pero nunca podrá ser 1,5).

    • Variable cuantitativa continua. Implica que puede ser cualquier número de la recta numérica (incluido los decimales), es decir puede ser cualquier valor comprendido en un rangos de la recta numérica. Por ejemplo, el tiempo que tarda una persona en realizar un circuito de habilidad motora (6,750 segundos, 7,891 segundos, 5,001 segundos...).


En resumen, conocer esta clasificación clásica de variables nos ayudará a saber qué tipo de comparación entre variables deberemos realizar y, por tanto, supone la base del estudio estadístico.




lunes, 1 de enero de 2024

Teoría | El concepto de variable

Una de las primeras cosas que debemos conocer cuando nos introducimos en el mundo del análisis estadístico es el concepto de variable. La mejor forma de entender este término es a través de un sencillo ejemplo:

Piensa en un coche y haz mentalmente una lista de características que puede tener el coche que has pensado: color de la carrocería, color de la llanta, marca del neumático, número de puertas, precio, número de marchas, número de asientos, nivel de comodidad del asiento, diámetro del volante, combustible que usa el motor... y muchas otras características que se pueden redactar. Pues bien, esta lista de características es en realidad una lista de variables y esto se puede ver claramente cuando sustituimos dichos elementos de cada característica por un número o una palabra (que se puede sustituir por un número), tal y como vemos en la siguiente ilustración: 



Entonces, definimos variable como un atributo o característica medible que puede variar (de ahí el nombre de variable) o tomar valores distintos en función de la naturaleza de la investigación (Salamanca Castro, 2013).


Si volvemos al ejemplo anterior del coche, y realizamos un tabla similar a la que se muestra en la ilustración pero con varios coches, podremos observar que las variables toman distintos valores (de ahí el nombre de variable); lo que nos permitirá realizar estudios estadísticos que en función de la naturaleza de investigación. Por ejemplo, con una lista de 10 coches teniendo en cuenta las variables como el motor, el número de puertas y el precio total podremos realizar un pequeño análisis sobre qué coche ofrece mejores prestaciones a un menor precio. 


En definitiva, las investigaciones trabajan con infinitud de variables con el fin de obtener conclusiones de una muestra. De hecho, es la base de todo procedimiento estadístico: observar variables, medir variables, codificar variables, analizar variables y obtener resultados de las variables. Cabe destacar que si este trabajo se realiza de manera rigurosa, las conclusiones pueden generalizarse al resto de objetos o seres vivos que compartan esa misma característica o variable.


Referencia bibliográfica

Estilo APA-7:
  • Salamanca Castro, A. B. (2013). El aeiou de la investigación en Enfermería. Fuden.


Seguir aprendiendo

Esta sección naranja está destinada a enlazar contenidos entre entradas. Haciendo clic en el siguiente botón accederás al siguiente contenido que será el recomendable para seguir aprendiendo de una manera mucho más efectiva e integral.



Jacob Sierra Díaz y Alti