Estrategia Estadística: enero 2024

martes, 30 de enero de 2024

SPSS Básico | Prueba T de Student (muestras independientes)

El estadístico T para muestras independientes es una prueba estadística de contraste de hipótesis que se usa cuando se desea comparar las medias de (únicamente) dos grupos de participantes diferentes. El término "muestras independientes" alude al hecho de que las medias proceden de dos poblaciones independientes. Esto quiere decir que los participantes de un grupo son distintos a los participantes de otro grupo en una o varias variables independientes. Un ejemplo muy característico de este caso sería la variable independiente sexo; cuyos valores son (únicamente) masculino o femenino.

La configuración ideal para esta prueba es que los sujetos que forman cada uno de los dos grupos de un hipotético experimento se hayan asignado aleatoriamente a dichos grupos con el fin de que cualquier diferencia se deba al experimento y no a otros factores externos.

En resumidas cuentas, tal y como se muestra en el siguiente esquema, cuando se asumen los supuestos de normalidad y se tiene que comparar una (o varias) variables dependientes cuantitativas en únicamente dos grupos, emplearemos la prueba T de Student para muestras independientes.

Caso práctico

El objetivo principal de una investigación es averiguar si un programa de entrenamiento aeróbico
intensivo de una semana mejora significativamente la cantidad de oxígeno que el organismo puede absorber, transportar y consumir en un momento determinado (VO2 máximo).

Para ello, se dispone de una muestra de 100 participantes que se distribuirán aleatoriamente en dos grupos de 50 participantes cada uno:

El primer grupo recibirá el paquete de entrenamiento aeróbico intensivo (grupo experimental)

El segundo grupo recibirá sesiones prácticas tradicionales (grupo de control).

Tras la semana de intervención (aplicación de ambos programas de entrenamiento), se midió y se registró el VO2 máximo de cada participante en una prueba aeróbica con el tapiz rodante.

Estos datos ficticios se introdujeron en una base de datos de SPSS (formato .sav) para su posterior análisis estadístico. Se empleó la versión 27 de IBM-SPSS en Windows 10. Puedes hacer clic en el siguiente botón para acceder a la base de datos y practicar la ejecución de la prueba que se describe a continuación. La contraseña de dicha base de datos es Stadistica.

Procedimiento

Una vez abierta la base de datos en SPSS deberemos realizar un estudio de la normalidad de los datos. Esto no se va a cubrir en esta entrada, pero sí que cabe recordar que para poder efectuar la prueba T-Student para muestras independientes, la significación (p-valor) del contraste de hipótesis de la prueba de normalidad que se realice deberá ser superior a 0,050.

Para hacer el análisis de la prueba T-Student usaremos la interfaz gráfica de usuario de SPSS. En primer lugar, daremos clic a Analizar, buscaremos Comparar media y haremos clic en Prueba T de muestras independientes...

En la siguiente ventana, deberemos introducir las variable dicotómica (variable que tiene dos agrupaciones correspondientes con el grupo experimental o grupo de control) en Variable de agrupación. Ahora, meteremos la(s) variable(s) dependiente(s) en Variable de prueba. Recuerda que para meter las variables deberemos seleccionar la variable y hacer clic en la flecha correspondiente al lado del tipo de variable que se quiera introducir.

En este caso particular, meteremos la variable Grupo en Variable de agrupación y la variable VO2max en variable de prueba, tal y como se muestra en la siguiente imagen.

Ahora, tenemos que definir los grupos de la variable dicotómica. Para ello, nos tendremos que acordar de la codificación que hemos usado. Hacemos clic en Definir grupos... e introducimos el código numérico que tengamos para el grupo 1 (normalmente 1 o 0) y el código numérico usado para el grupo 2 (normalmente 1 o 2). Recuerda que no importa el orden en el que se pongan los grupos.

En este caso, hemos codificado el grupo experimental como 1 y el grupo control como 2. Entonces, introduciremos en el Grupo 1 el 1 y en el Grupo 2 el 2, tal y como se muestra en la siguiente imagen.

Finalmente, haremos clic en Aceptar.

Resultados

Varias son las tablas que generará SPSS (versión 27) para la prueba T de Student de muestras independientes.

La primera tabla tiene el nombre de Estadísticas de grupo. En ella se refleja la muestra (n) , la media, la desviación estándar y la media del error estándar de cada grupo. En versiones de SPSS anteriores, a la media del error estándar se le conocía como error típico de la media. Se trata de un valor que cuantifica las desviaciones de la media muestran teniendo en cuenta la media poblacional. Dicho en otras palabras, se trata de un valor que indica cuánto se apartan los valores de la media de la población. Este valor sirve para elaborar los intervalos de confianza de la media correspondiente.

La siguiente tabla es la que más nos interesa. Tiene el nombre de Prueba de muestras independientes. puesto que recoge los resultados de la prueba propiamente dicha. Aquí, en primer lugar, debemos observar las columnas correspondientes a la prueba de Levene de igualdad de varianzas. Este test verifica la homocedsticidad (uno de los requisitos para asumir la distribución normal de los datos). En concreto, debemos observar el p-valor (sig.) para tomar una decisión:

p-valor (sig.) superior a 0,050 | Es lo deseable. Significa que podemos suponer igualdad de varianzas. Entonces, continuaremos interpretando esta tabla atendiendo exclusivamente a la primera fila de resultados.

p-valor (sig.) inferior a 0,050 | En este caso debemos suponer que las varianzas de ambos grupos son distintas.

En efecto, la interpretación del test de Levene es contraria a lo que en el resto de pruebas debemos mirar del p-valor. En este caso, lo deseable es encontrar el p-valor superior a 0,050.

A continuación, de manera práctica, deberíamos mirar el p-valor (sig.) de la siguiente parte de esta tabla. En este ejemplo se mirará la primera fila puesto que con el test de Levene se asume igualdad de varianzas (p-valor superior a 0,050). Aquí pueden ocurrir dos cosas:

p-valor (sig.) superior a 0,050 | Las medias son iguales en ambos grupos. En este caso se acepta la hipótesis nula de que los resultados de la variable dependiente son independientes a cada grupo; es decir, las posibles diferencias entre grupos se debe al azar y no hay pruebas de que procedan de la intervención.

p-valor (sig.) inferior a 0,050 | Lo ideal (en la mayoría de casos). Las medias son distintas en cada grupo. En esta situación, la variable dependiente depende o está relacionada con la variable independiente. Esto significa que los resultados de la variable dependiente (VO2 max en este ejemplo) están condicionados al grupo de la variable independiente (grupo experimental y grupo control en este ejemplo). En otras palabras, no hay pruebas para rechazar que los resultados se deban al azar y es (estadísticamente) probable que las diferencias entre grupos se deban, precisamente a la distribución de los grupos (y sus intervenciones experimentales distintas).

Esto es lo que habría que mirar de manera práctica. Ahora bien, tenemos que reportar otra información contenida en esta tabla. En concreto, habría que reportar el estadístico t acompañado de su nivel de significación (p-valor). También sería interesante reportar los límites del intervalo de confianza. En concreto, debemos observar el límite inferior y superior del intervalo de confianza: si dentro de ese rango no se incluye el 0, se puede asumir con total seguridad que se puede rechazar la hipótesis nula (Ho) de igualdad de medias en ambos grupos.

Para saber cuánta ha sido la diferencia de medias, deberemos ir a la tabla anterior (Prueba de muestras independientes).

Por último, las versiones recientes de SPSS (como es el caso de la versión 27), ofrecen una tercera tabla. Esta tabla tiene el título de Tamaños de efecto de muestras independientes. En concreto, podemos observar tres estadísticos del tamaño del efecto que siempre son recomendables acompañar con el p-valor. El más usado en este tipo de pruebas es la d de Cohen. Este test es muy apropiado para la comparación de medias y nos da información sobre la diferencia media estandarizada de un efecto. Su interpretación es muy sencilla: el tamaño del efecto es grande (y por tanto deseable) cuando su valor es superior a 0,800.

Interpretación

Inferencia estadística | Para realizar una interpretación correcta de esta prueba debemos recordar que se trata de un test de contraste de hipótesis en la que la hipótesis nula es que no hay diferencias de medias en las dos muestras (o grupos) independientes y, que en caso de existir, se debe exclusivamente al azar.

La interpretación de estos resultados es muy sencilla de realizar. Simplemente deberemos informar si hay diferencias significativas (H1) o no (Ho). Para ello, necesitaremos apuntar los valores que se han dicho anteriormente de las tablas de SPSS de la siguiente forma: t (grados de libertad - gl) = estadístico t; p = valor de sig.. Previamente se deberán reportar las medias y las desviaciones típicas de ambos grupos. Aunque no es necesario, se puede reportar los resultados e interpretación de la prueba de Levene. Lo que sí que es recomendable es reportar el tamaño del efecto d de Cohen (junto con su interpretación). Se recomienda usar un tiempo verbal pasado.

Veamos un ejemplo básico en español y en inglés sobre cómo poder reflejar los resultados de nuestro caso práctico:

Se observaron diferencias significativas en el VO2 máximo entre el grupo experimental (M = 65,04; DT = 1,77) y el grupo control (M = 60,04; DT = 1,98) [t (98) = -13,270; p < 0,001]. El tamaño del efecto se considera grande (d = 1,884).

There was a significant difference in VO2 max between the experimental group (M = 65.04; SD = 1.77) and the control group (M = 60.04; SD = 1.98) [t (98) = -13.70; p <0.001]. Effect size was assumed as large (d = 1.884).

Jacob Sierra Díaz y Alti

lunes, 8 de enero de 2024

SPSS Básico | Insertar tabla de contingencia

Una de las formas para introducir datos en el programa SPSS es asignando una fila a cada participante en la ventana de Vista de datos. Puedes hacer clic en el siguiente botón para recordar cómo se elabora una base de datos básica en este programa.

Sin embargo, hay datos que en las investigaciones se representan en las denominadas tablas de contingencia o tablas cruzadas. Se trata de unas tablas o matrices de doble entrada en la que se organiza de manera visual los datos de dos variables específicas. En la siguiente imagen se muestra un ejemplo de tabla de doble entrada que aúna la variable género con la variable de si come las piezas de fruta recomendadas a diario.

Si quisiésemos trabajar con estos datos en SPSS, ¿hay alguna forma de poder decirle al programa que en este caso cada fila en Vista de datos no es un caso particular? La respuesta rápida es que sí. La respuesta un poco más larga es igual de sencilla: a través de la opción Ponderación de casos.

Ponderación de casos

Cuando queramos introducir una tabla de contingencia como la que hemos visto arriba en SPSS, tenemos que pensar de manera distinta a cómo introduciríamos los datos normalmente. En este caso, cada variable deberá tener su propia columna (una para las frutas y otra para el género en este ejemplo) y una para los recuentos de cada combinación. Lo que vamos a hacer es poner cada combinación posible de las categorías cada variable junto con su recuento. Para el ejemplo anterior, la base de datos debe configurarse según se muestra en la siguiente imagen:

Ahora lo importante es "decirle a SPSS" que tenga en cuenta el recuento de cada combinación de categorías. Para ello iremos a:

Datos > Ponderar casos...

En la ventana que aparece ponderaremos los casos según la variable Recuento.

Comprobación de la tabla de contingencia

Esto sería todo. A partir de ahí ya podemos hacer lo que queramos con esta tabla. Para comprobar que se han insertado bien los datos, podemos solicitar una tabla de contingencia, tal y como se muestra en la siguiente imagen en la ruta:

Analizar > Estadísticas descriptivas > Tablas cruzadas

Con estos resultados podemos cotejar que la tabla de doble entrada se ha metido adecuadamente, lo que servirá, por ejemplo, para hacer un análisis de Kappa de Cohen.

Jacob Sierra Díaz y Alti

domingo, 7 de enero de 2024

SPSS Básico | Generador de muestra aleatoria

En investigación es muy común escuchar términos como muestreo aleatorio. Se trata de un procedimiento probabilístico para seleccionar una muestra de una población de tal manera que cada individuo o sujeto tenga la misma probabilidad de ser elegido. Con este método se consigue que los resultados del análisis sean representativos de esa población total, evitando así el sesgo de selección. Hoy vamos a ver uno de los procedimientos que se pueden realizar en SPSS previo a la intervención para conseguir un muestreo aleatorio.

Obtención del tamaño muestral real

En primer lugar, tenemos que tener la información de la población objeto de estudio. Bastará con tener identificado a cada sujeto con un número. A continuación, deberemos obtener el tamaño de la muestra que deberemos seleccionar. Como el objetivo de esta entrada no es profundizar en este paso, vamos simplemente a mencionar que este proceso se puede hacer con calculadoras específicas online, como las que se muestran en la siguiente imagen:

Generación de números aleatorios en SPSS

En SPSS debemos crear una primera variable con el nombre ID. A continuación, deberemos poner tantos números como sujetos queramos obtener (en este caso 132 filas).

Ahora, debemos ir a la ruta:

Transformar > Calcular variable

A continuación se abre una ventana. Aquí, (1) deberemos especificar el nombre de la variable nueva (Aleatorio en este caso), (2) en el grupo de funciones debemos buscar Número aleatorio y (3) en las subfunciones buscar Rev.Uniform. (4) Hacer clic en la flecha para arriba para subir la función a la Expresión numérica.

Ahora debemos sustituir los dos "?" de la función por el rango de números que queremos que nos aleatorice. En este caso, como tenemos 200 individuos de la población total, el rango será 1 - 200. Una vez que hayamos acabado de poner los números, daremos clic a Aceptar.

Con este proceso, se generará una nueva variable (con nombre Aleatorio, el que hemos puesto) y con los números aleatorios. Por supuesto, si esto lo repites en tu SPSS te generará números distintos.

Tal vez quieras quitar los decimales que por defecto genera. En tal caso, debemos ir a Vista de variable y poner a 0 la casilla Decimales.

Ahora, lo que tenemos que hacer es buscar a esos sujetos con ese ID para que formen parte de la muestra aleatoria de nuestro experimento.

Seguir aprendiendo

En la siguiente entrada

Jacob Sierra Díaz y Alti

sábado, 6 de enero de 2024

SPSS Básico | Cálculo de edad con la fecha de nacimiento

En los cuestionarios o entrevistas es muy habitual preguntar por la fecha de nacimiento de los participantes. Con esta pregunta ya no es necesario hacer otra pregunta relativa a la edad, ya que podríamos calcularla con la variable anterior. El SPSS incluye una función muy sencilla para conocer de manera precisa la edad de cada uno de los participantes que están en la base de datos con solamente saber la fecha de nacimiento. Hoy vamos a ver el método para calcularlo mediante CTIME.DAYS.

1 | Introducir la variable nacimiento

En Vista de variables, en la fila que corresponda, debemos escribir el nombre de la variable en Nombre (por ejemplo, Nacimiento). A continuación, en Tipo, hacemos clic sobre los tres puntos de la derecha de la casilla y haremos clic en Fecha. Por defecto nos viene el formato día - mes - año. Este se puede cambiar en el cuadro de la derecha de la ventana. En la columna Medida podemos indicar que el tipo de variable es Nominal.

En Vista de datos introduciremos la fecha de nacimiento de cada participantes bajo el formato por defecto (que en este caso es día - mes - año; DD - MM - AAAA) usando guiones para separar las dos cifras del día, las dos cifras del mes y las cuatro cifras del año. El mes se introducirá de manera numérica y automáticamente SPSS lo cambiará a abreviatura inglesa.

2 | Cálculo de la edad

Para obtener una nueva variable con la edad debemos seguir la siguiente ruta:

Transformar > Calcular variable

En la siguiente ventana que aparece debemos introducir, en primer lugar, el nombre de la nueva variable (Edad en este ejemplo) en Variable objeto.

A continuación, en Grupo de funciones debemos buscar Extracción de duración de tiempo. Y, en Funciones y variables especiales seleccionamos Ctime.Days. Debemos hacer doble clic para que se refleje en la zona de Expresión numérica o, en su defecto, hacer clic en la flecha hacia arriba.

Una vez hecho esto veremos como CTIME.DAYS(?) se muestra arriba en Expresión numérica. Ahora, en Grupo de funciones debemos buscar Creación de fechas. Y, en Funciones y variables especiales seleccionamos Date.Dmy. Esta nueva función debe estar dentro de los paréntesis de la función anterior.

Ahora aparecerá la función CTIME.DAYS(DATE.DMY(?,?,?) en Expresión numérica. Lo que tenemos que hacer es sustituir (?,?,?) por la fecha de hoy o de la que queramos obtener la edad en formato DD,MM,AAAA. Ahora, (fuera del paréntesis de la función Date.Dmy) ponemos el signo menos. A continuación, introduciremos nuestra variable de fecha de nacimiento. Por último, fuera de todos los paréntesis pondremos el signo de división (/) seguido del número 365.25 (días del año teniendo en cuenta los años bisiestos). En efecto, aquí los decimales se separan con puntos. Esto se resume en la función:

CTIME.DAYS (DATE.DMY (DD,MM,AAAA)-fecha_nacimiento)/365.25

3 | Creación de la nueva variable

Por último, haremos clic en Aceptar. En la Vista de variables podremos ver que ahora hay una nueva variable llamada Edad. Nótese que lo que hemos visto aquí solo se puede hacer cuando hayamos acabado de introducir todos los datos en la base de datos ya que introducir un nuevo sujeto no hará que se calcule automáticamente la edad (y habría que volver a hacer este proceso).

Seguir aprendiendo

En la siguiente entrada veremos una forma de realizar el procedimiento de muestreo aleatorio con SPSS. Puedes hacer clic en el siguiente botón para acceder rápidamente al contenido:

Jacob Sierra Díaz y Alti

Teoría | Tipos básicos de contraste de hipótesis

En la rama de Estadística Inferencial, se realizan los denominados contraste de hipótesis. Se trata de distintos procedimientos que se emplean para descubrir el comportamiento de una o varias variables en función de la información recogida y del objeto de estudio. Sin embargo, no todas las pruebas estadísticas son iguales. Como ya se habrá visto en entradas anteriores, en función de la naturaleza de las variables objeto de estudio deberemos realizar un tipo de prueba u otro. Entonces, es muy habitual contar con algún tipo de guía o apoyo que nos oriente sobre las pruebas más adecuada que debemos realizar en función de nuestro objetivo principal de estudio y en función de la naturaleza de nuestros datos.

A continuación, se muestra una tabla de doble entrada en la que se relacionan las variables más frecuentes en los análisis estadísticos y las pruebas que se deben realizar siempre y cuando se satisfagan los supuestos que dichos contrastes implican:

Así, por ejemplo, sabemos que para un estudio en el que tenemos calificaciones de los alumnos de una asignatura (variable cuantitativa continua) y el sexo de los mismo (variable cualitativa nominal) debemos realizar una regresión logística de nuestros datos.

Puedes hacer clic en el siguiente botón para acceder y descargar la imagen anterior en formato .pdf para poder imprimirla y consultarla cuando quieras.

Jacob Sierra Díaz y Alti

viernes, 5 de enero de 2024

SPSS Básico | El botón de Etiquetas de valor

Anteriormente hemos visto que SPSS permite insertar valores a una variable. Por ejemplo, en una variable dicotómica de sexo, el 1 puede tener el valor hombre y el 2 puede tener el valor mujer. Puedes hacer clic en el siguiente botón para recordar cómo se construye una base de datos en SPSS.

En el menú de iconos, tenemos un botón que nos ayuda a cambiar los valores numéricos que hemos metido (código) por el nombre de los valores (palabra). Simplemente deberemos hacer clic en el botón de Etiquetas de valor para este cambio, tal y como se muestra en la siguiente imagen:

Seguir aprendiendo

En la siguiente entrada seguiremos hablando de introducir datos en nuestra base de datos. Esta vez hablaremos del cálculo automático de la edad mediante la fecha de nacimiento. Puedes hacer clic en el siguiente botón para acceder al contenido:

Jacob Sierra Díaz y Alti

jueves, 4 de enero de 2024

Teoría | Tipos de análisis según las variables

Ya hemos visto la definición de variable y la clasificación clásica de variables (cualitativa o cuantitativa). Además, también hemos aprendido la diferencia entre una variable dependiente y una independiente. Puedes hacer clic en los siguientes botones para volver a leer sobre esto:

Bien es sabido que el objetivo de cualquier análisis estadístico es la de analizar una determinada variable o grupo de variables en algunos individuos de una población (García-Pérez, 2011). Por tanto, en función del número de variables implicadas en el análisis se deberán tener en cuenta distintas dimensiones y proceder de una manera concreta.

Cuando se desea analizar una sola variable (por ejemplo, número de pulsaciones por minuto en pacientes que acaban de sufrir un infarto de miocardio) hablamos de un análisis unidimensional. Es decir, tenemos una única dimensión (variable) objeto de estudio en cada uno de los individuos.

Cuando se desean analizar varias variables (por ejemplo, el peso y la talla de los estudiantes de una academia de preparación para policías) para cada uno de los individuos que forman la muestra de la investigación hablamos de un análisis multidimensional. Este, se puede especificar en función del número de variables que están implicadas en el proceso: análisis bidimensional (dos variables), análisis tridimensional (tres variables) y así sucesivamente.

¿Por qué es esto importante? Principalmente porque en función del análisis habrá que hacer unas pruebas estadísticas específicas. De esta forma, es imposible realizar un análisis de la varianza (ANOVA) cuando solo tenemos una variable (análisis unidimensional). Del mismo modo, es posible que un análisis de frecuencias se quede corto en una investigación en el que se han obtenido varias variables (análisis multidimensional). El siguiente diagrama, ilustra la clasificación de análisis básicos que se pueden realizar en función del número de variables.

SPSS Básico | Preparación de la base de datos

En la entrada anterior vimos las tres ventanas principales de SPSS: vista de variables, vista de datos y visor de resultados. Puedes hacer clic en el siguiente botón para acceder a este contenido.

Abrir SPSS por primera vez puede resultar algo abrumador si no se está familiarizado con este tipo de interfaz. Así, esta entrada pretende dar respuesta a la pregunta ¿por dónde empiezo? Su respuesta resulta algo sencilla de responder: por la ventana de la vista de variables ya que es el primer paso que hay que dar para crear las variables objeto de estudio.

Introducción del nombre y características de las variables

Antes de comenzar a introducir variables a lo loco, debes conocer una serie de normas y recomendaciones que serán importantes a la hora de crear nuestro listado sin ningún tipo de problemas.

Cada fila (en la ventana Vista de variables) representa una variable. Así, por ejemplo, si tenemos 80 variables, debemos completar las primeras 80 filas.

Las casillas más importantes que especificar a la hora de crear una nueva variable son: Nombre, Tipo, Decimales, Etiquetas, Valores y Medida. Las otras columnas tienen menos relevancia a la hora de especificar las variables.

En la primera casilla (Nombre) es recomendable que uses menos de 8 caracteres para nombrar la variable. Así, por ejemplo, en lugar de llamar a la variable Identificación_Sujeto, acórtalo poniendo simplemente ID.

En la primera casilla (Nombre) no podrás separar el nombre de la variable por espacios.

En caso de que quieras usar un espacio en el nombre de la variable, deberás usar una barra baja ("_") a modo de espacio. Por ejemplo, para la variable del número de hermanos deberás poner Num_Hermanos (o simplemente Hermanos).

Usa la casilla Etiqueta para detallar el nombre de las variables. En este apartado podrás usar espacios e incluso oraciones para describir la variable. Por ejemplo, si una variable se llama Preg_1 en la casilla Etiqueta podrás escribir la pregunta a la que hace referencia el ítem.

En el nombre, no podrás comenzar con un número. Así, por ejemplo, deberás poner Item_1 en lugar de 1_Item.

Es recomendable que para las variables cualitativas o continuas discretas quites los decimales de la casilla Decimales, ya que puede ser molesto o resultar sobrecargado ver 1,00; 2,00; 3,00...

Siempre y cuando tengas una variable (normalmente cualitativa) que esté compuesta por varios grupos (por ejemplo, hombre o mujer) deberás codificar y especificar cada grupo en la casilla Valores.

Tipifica todas las variables cuantitativas como Escala en la casilla Medida.

Caso práctico

Con el objetivo de mejorar la comprensión de los pasos que debemos realizar a la hora de crear nuestra base de datos, vamos a contextualizar el procedimiento con un caso práctico.

Nuestra base de datos estará compuesta por niños y niñas de un colegio público de una gran ciudad. Ya que estamos hablando de personas (de las que previamente se ha obtenido en consentimiento y han aceptado participar en la recogida de datos a través de un cuestionario), las primeras variables serán de tipo sociométricas (género, edad, curso, número de hermanos, por poner varios ejemplos). A continuación, introduciremos las variables de los cuestionarios (mediante escalas de tipo Likert, por ejemplo).

Ten en cuenta que se suelen poner las variables de tipo cualitativas "que vienen dadas por el propio sujeto" (variables independientes) en primer lugar. Después se suelen ubicar las variables dependientes que en su mayoría son de tipo cuantitativo (aunque puede haber otras de tipo cualitativo que pueden ser dependientes; como, por ejemplo, lector o no lector en tiempo libre).

Creando nuestra primera base de datos

La primera variable que debemos crear (independientemente de la naturaleza de la muestra) debería ser la de Identificación. De esta forma, nos permitirá identificar a cada uno de nuestros sujetos que formen la base de datos. Para ello, deberemos tener un documento a parte con la relación de los nombre y el número de identificación. Además, esta variable también nos permitirá ordenar la base de datos en el mismo orden en que se introdujeron los participantes. Esto puede llegar a ser muy útil si previamente hemos ordenado la base con otros criterios como, por ejemplo, el curso académico.

Entonces, la primera variable deberá configurarse de la manera en la que se muestra la imagen:

Al tener una muestra compuesta por hombres y mujeres es necesario crear una variable para el género o el sexo. Esta será una variable de tipo cualitativa y nominal que suele tener dos subgrupos o valores: hombre y mujer.

Recordemos en este punto que la base de datos se compone de números aunque algunos de ellos no tendrán una función aritmética. De este modo, con la función Valores, podremos asignar precisamente un valor (cualitativo) a un número. Por poner un ejemplo típico, asignar un código 1 (o el número que sea) a hombre y un 2 a mujer.

Para poner valor a una variable, debemos hacer clic en los tres punto horizontales de la casilla Valores. A continuación, en la ventana emergente, indicaremos el valor numérico y su correspondencia al grupo (por ejemplo, 1 para chico) y le daremos al botón Añadir. Cuando hayamos acabado de introducir todos los valores o subgrupos haremos clic al botón Aceptar, tal y como se muestra en la siguiente imagen.

Otra variable muy común puede ser la edad de los participantes. Se trata de una variable cuantitativa sin decimal que en Medida se puede poner Ordinal (al establecer un orden cronológico) o Escala (al incluir números con valores aritméticos).

Por último, veremos un ejemplo de cómo incluir cuestiones de tipo Likert. Imaginemos un hipotético cuestionario unidimensional sobre la adherencia a los videojuegos. El cuestionario se compone de tres ítems en una escala Likert de 1 a 5 en el que se expresa el grado de acuerdo o desacuerdo. Para ello, cada variable será un ítem. Podemos resumir el ítem en Etiquetas pero es recomendable que la nomenclatura del nombre de la variable sean las siglas del cuestionario y el número de ítem. Tal y como se muestra en la siguiente imagen, en la pestaña Valores debemos poner la interpretación de cada número que corresponde con la escala Likert. Finalmente, en Medidas estas tres variables se categorizarán como Escala.

Esta es la forma más sencilla de introducir datos básicos en SPSS. Por supuesto, para no perder este trabajo se deberá clicar en el icono de Guardar del menú visual.

Seguir aprendiendo

Existe un caso particular de entrada de datos: la fecha de nacimiento y el cálculo de la edad. Puedes hacer clic en el siguiente botón para conocer una de las formas de obtener la edad de los participantes conociendo su fecha de nacimiento:

Jacob Sierra Díaz y Alti

miércoles, 3 de enero de 2024

Teoría | Variable independiente y variable dependiente

En el análisis estadístico hay varias formas de clasificar y enumerar a las variables (que ya vimos que era una característica medible). Puedes hacer clic en el siguiente botón para acceder a la clasificación clásica de variables:

Cuando necesitamos realizar ciertas pruebas estadísticas necesitamos conocer la naturaleza de las variables con el fin de conocer bien el tipo de prueba que se puede realizar. Paralelamente a la clasificación que vimos en la entrada anterior, las variables se pueden a su vez clasificar en dos grandes grupos: las variables independientes (también conocidas como Factores) y las variables dependientes. En esencia, la distinción entre estos dos grupos es la alteración o cambio de sus valores a lo largo del tiempo. Cuando estas no cambian (por ejemplo, el género no cambia a lo largo de una investigación) son denominadas variables independientes o factores. Por el contrario, las variables susceptibles a cambio debido a la intervención (u otros fenómenos) son denominadas variables dependientes, puesto que dependen precisamente de las variables independientes (por ejemplo, el grado de aburrimiento de una actividad monótona). En otras palabras:

Variables independientes [o también llamadas Factores]. Son variables que le vienen dadas al investigador y que no se pueden cambiar (o serán casi imposibles que cambien a lo largo del tiempo o de la investigación). La fecha de nacimiento, la edad, el grupo de investigación (control o experimental) son ejemplos de este tipo de variables. Estas variables vienen "de serie" en el sujeto u objeto que se desea investigar.

Variables dependientes. Como su propio nombre indica, son aquellas que dependen de algo (de las variables independientes o factores) y que en función de eso, podrán tener distintos valores. Por ejemplo, la estatura depende, en términos generales de la edad y el género (ambas variables ya vienen "de serie" en el individuo y son independientes). Además, estas variables pueden variar a lo largo del tiempo o gracias una intervención (cosa que no ocurre con el otro grupo de variables). Por ejemplo, si se aplica un nuevo método para mejorar la lectura en escolares, lo más seguro es que se observe un grupo que haya mejorado la velocidad de lectura y que por lo tanto antes de la intervención (pre-test) tuviese peores resultados que después de la misma (post-test).

Proceso de diferenciación

Para saber diferenciar estos tipos de variables hazte la siguiente pregunta:

¿La variable X DEPENDE del factor Y?

Si la respuesta es Sí, la variable X es una variable dependiente.

Por ejemplo, la tasa de mortalidad y los hábitos de fumar (si un sujeto es fumador o no). ¿Las muertes PUEDEN DEPENDER de que una persona fume o no? Sí, por lo tanto la tasa de mortalidad es la variable dependiente y los hábitos de fumar es la variable independiente (esta ya viene predefinida, no se puede hacer nada con esta variable, no se puede alterar que un fumador deje de fumar en términos de una intervención en una investigación).

Jacob Sierra Díaz y Alti

SPSS Básico | Las ventanas de SPSS

El software estadístico SPSS, nombre que procedía de Statistical Package for Social Sciences, es uno de los programas más utilizados para el análisis de datos cuantitativos. Se emplea principalmente en las ramas de Ciencias Sociales y de la Salud. Saber usar con confianza este programa u otros similares es una competencia esencial para este tipo de investigaciones.

Al abrir el programa y después de la ventana de bienvenida, podemos ver que SPSS se compone de tres ventanas principales. Nótese que aunque en esta entrada vamos a usar SPSS en un ordenador Mac, la interfaz es exactamente igual en un ordenador con Windows.

Vista de variables

Recordemos que una variable es cada uno de los atributos o fenómenos susceptibles de ser estudios para cada uno de los individuos que componen una muestra (Salamanca-Castro, 2019). Así, por ejemplo, en una muestra de 100 personas, el género, la estatura o la edad serán considerados como variables. Ahora imagina que somos investigadores de materiales deportivos y queremos realizar un estudio con 100 bicicletas. ¿Puedes pensar en al menos cinco variables que podríamos analizar de las bicicletas? Por ejemplo, color, durabilidad, radio de la rueda, tipo de bicicleta o tipo de frenos.

En SPSS, en cada una de las filas en esta ventana introduciremos todas las variables que necesitemos posteriormente para hacer el análisis. En esta ventana podremos especificar las características de las variables tales como los decimales o las categorías que forma una variable.

Vista de datos

En esta segunda ventana es donde introduciremos los datos de cada sujeto tal y como si se tratase de un Excel (o programa similar como Numbers). Aquí las filas representan la información de cada sujeto y las columnas son cada una de las variables objeto de estudio que previamente se deberán haber identificado en la ventana anterior.

Visor de resultados

Cuando se tienen variables y datos en las ventanas correspondientes y se realiza algún tipo de análisis o de transformación en la base de datos, aparecerán los resultados en una nueva ventana llamada visor de resultados. Desde aquí se consultarán las tablas de resultados o los gráficos que hayamos solicitado previamente.

Menú principal y secundario

Por último, si bien es cierto que esto no es una ventana, los menús son uno de los lugares que más se emplearán para poder realizar todos los análisis deseados. La versión de menús de Mac y Windows cambian visualmente como se muestra en la siguiente imagen aunque las dos tengan exactamente la misma configuración.

Fuente bibliográfica

Referencia en estilo APA-7:

Salamanca-Castro, A. B. (2013). El aeiou de la investigación en Enfermería. Fuden.

Seguir aprendiendo

Este apartado tiene el objetivo de enlazar contenidos relacionados para que puedas profundizar en aspectos que no se hayan abordado aquí. Siempre se usará el color naranja para estos casos. En la siguiente entrada vamos a ver el siguiente paso de SPSS: confeccionar una base de datos. Puedes hacer clic en el siguiente botón para acceder al contenido de manera directa y no perderte nada:

Jacob Sierra Díaz y Alti

martes, 2 de enero de 2024

Teoría | Clasificación clásica de variables

En la primera entrada hemos visto una definición de variable a través de un ejemplo cercano. Puedes hacer clic en el siguiente botón para acceder a dicha entrada y recordar el concepto. Se abrirá en la misma ventana. Para volver aquí, bastará con darle a la flecha de retroceso de tu navegador.

Existen dos grandes categorías de variables: aquellas que usan palabras para definir sus atributos (por ejemplo, el color de pelo de una muestra de personas) y aquellas que emplean números (por ejemplo, la estatura de esa misma muestra). Esta es la clasificación clásica más básica de variables, aunque no hay que olvidar que hay muchas otras formas de realizar taxonomías de variables. En esencia, cuando una variable se define con palabras se denomina variable cualitativa; y si, por el contrario, se define con números se denomina variable cuantitativa.

Variables cualitativas. Se describen empleando palabras. Por ejemplo, el género (hombre, mujer u otro), el color de los ojos (marrón, verde o azul), las clases de Quinto de Primaria (Grupo A, B y C) o los hábitos de fumar (nada, poco o mucho).

Variables cuantitativas. Son aquellas que emplean números para describirlas. Por ejemplo, la nota de un examen final (4, 5, 9...), la media de la frecuencia cardiaca después de una prueba física (120 pulsaciones por minuto, 125 ppm, 145 ppm...), el peso (77 kg, 85 kg, 70 kg...) o la motivación intrínseca ante una actividad medida con una escala de tipo Likert (10, 12, 13... -estos valores se obtienen de sumar las puntuaciones individuales de cada ítem-).

Cada una de estos dos tipos de variable se subdividen a su vez en dos subcategorías. Empezando por las variables cualitativas, seguramente puedes pensar que en muchas ocasiones no necesitamos establecer un orden (por ejemplo, en el color favorito de una persona o el sexo -no van primero los hombres y luego las mujeres o viceversa-); y que en otras situaciones el orden es necesario (por ejemplo, la posición de una carrera -primero, segundo, tercero...-). Así, la variable cualitativa se subdivide en variables cualitativas nominales y variables cualitativas ordinales.

Variable cualitativa (Palabras)

Variable cualitativa nominal. No establece un orden. Por ejemplo, género, grupo de investigación (experimental o control) o color de la piel.

Variable cualitativa ordinal. Implica un orden en las categorías o valores. Por ejemplo, posición en una carrera (primero, segundo, tercero...), nivel de inglés (básico, intermedio o avanzado) o nivel socioeconómico (bajo, medio o alto).

Algo similar ocurre con las variables cuantitativas. En determinadas ocasiones simplemente es necesario emplear números enteros (por ejemplo, número de hijos); y en otras situaciones se requiere el uso de números decimales (por ejemplo, la estatura o el tiempo en realizar una prueba). Por tanto, las variables cuantitativas se subdividen en:

Variable cuantitativa (Números)

Variable cuantitativa discreta. Implica que los números sean enteros y no decimales. Por ejemplo, el número de hermanos (1, 2, 3... pero nunca podrá ser 1,5).

Variable cuantitativa continua. Implica que puede ser cualquier número de la recta numérica (incluido los decimales), es decir puede ser cualquier valor comprendido en un rangos de la recta numérica. Por ejemplo, el tiempo que tarda una persona en realizar un circuito de habilidad motora (6,750 segundos, 7,891 segundos, 5,001 segundos...).

En resumen, conocer esta clasificación clásica de variables nos ayudará a saber qué tipo de comparación entre variables deberemos realizar y, por tanto, supone la base del estudio estadístico.