Muchos programas estadísticos permiten la creación de bases de datos para un posterior análisis. Si bien es cierto que en R se puede introducir una gran cantidad de variables, no suele ser recomendable generar las bases de datos en dicho entorno puesto que es mucho menos intuitivo y sencillo que con otros programas. Por ejemplo, la edición de algún valor en la base de datos puede ser ardua si se hace directamente en la consola de R.
Es por ello que la mejor opción suele ser generar (o convertir) una base de datos en un programa adicional para luego importarla en R. Una de las opciones más recomendables es generar la primera base de datos en Excel y, a continuación, importarla en R. Hoy veremos cómo se puede hacer este proceso en la consola de R (aunque lo más recomendable es hacerlo en la ventana de R Commader).
Acciones preliminares
Antes de poder importar ficheros de Excel (formato .xlsx) deberemos tener instalado en el ordenador (ya sea un ordenador con Windows o un Mac con MacOS) el lenguaje de programación de Java (Oracle). La instalación de dicho entorno es gratuita y la página web oficial reconocerá el sistema operativo en el que se querrá instalar.
Paquetes necesarios
Dos son las librerías que necesitaremos instalar (con el comando install.packages ("...")) y, posteriormente, cargar (con el comando library(...)) en el entorno R.
Primero deberemos instalar el paquete rJava. Para ello, solicitaremos el comando y seleccionaremos el CRAN mirror más cercano a nuestra localización. La instalación de este paquete se completará cuando aparezca un nuevo el símbolo ">" en la consola:
> install.packages ("rJava")
*Para que este paquete funcione correctamente deberá estar instalado la versión 4.3.2 o superior de R.
A continuación, instalaremos el paquete xlsx. Seguiremos los mismos pasos que en el caso anterior. La instalación de este paquete se completará cuando aparezca un nuevo el símbolo ">" en la consola:
> install.packages ("xslx")
Estos comandos de instalación solo serán necesarios la primera vez que hemos estrenado R o que hayamos desinstalado todos los paquetes que teníamos.
Cuando tengamos instalado los paquetes, y queramos importar una base de datos de Excel deberemos invocar de la biblioteca (library) ambos paquetes. En esta ocasión, no hará falta poner entre comillas los nombres de los paquetes y tampoco recibiremos ningún mensaje de que se han cargado correctamente en la consola.
> library (rJava)
> library (xlsx)
Nota. En versiones modernas no es necesario ni instalar ni cargar rJava. Es decir, funcionará con solo cargar la biblioteca xlsx.
Cargar el archivo con ruta
Se recuerda que aquí se está hablando de importar una base que previamente ha sido construida en el programa Excel. Es por ello que deberemos tener localizado en el ordenador el archivo Excel que contiene nuestra base de datos. De manera general (y una vez invocadas las bibliotecas rJava y xlsx, vistas en el paso anterior), usaremos el comando:
> read.xlsx ("Ruta del ordenador")
Sin embargo, habrá ligeras modificaciones a tener en cuenta en función de si se usa un ordenador con sistema operativo Windows o con MacOS.
Windows
En primer lugar, necesitamos saber la ubicación (o ruta) de nuestro archivo de Excel. Para ello, bastará con hacer clic derecho sobre el archivo Excel (formato .xlsx), seleccionar Propiedades y copiar la ruta en Ubicación, tal y como se muestra en la siguiente imagen.
Ahora deberemos ir a R y escribir el comando read.xlsx(). Entre los paréntesis y las comillas pegaremos la ruta. A continuación, al finalizar la ruta deberemos indicar el nombre del archivo con la extensión .xlsx (o .xls, en función de la versión de Excel) seguido de una coma y el número de la hoja de Excel en el que se ubique la base de datos (normalmente 1 ya que se suele ubicar en la hoja 1).
En el ejemplo concreto que se ha usado para hacer esta entrada sería:
> read.xlsx ("C:/Users/jsd/Downloads/Demo.xlsx",1)
Observaciones del comando:
- La ruta debe ir entre comillas ("...").
- El nombre del archivo debe ir al final de la ruta y debe tener la extensión .xlsx (o .xls).
- El número final indica la hoja en la que se encuentra la base de datos. En este caso en la Hoja 1.
- Las barras deben ir inclinadas a la derecha ("/"). También funcionará con la doble barra inclinada a la izquierda ("\\"), pero no funcionará con una sola barra a la izquierda ("\").
- La ruta en Windows comienza con una letra en mayúsucla (normalmente C:).
- Si se cambia la ubicación del archivo, se deberá actualizar la ruta.
A continuación, se muestra las formas de cargar un archivo en R en Windows:
Ahora que ya sabemos cómo funciona, deberemos asignarle un nombre para que R sepa a qué base de datos nos estamos refiriendo cuando queramos hacer estadística u otras operaciones. Para ello, deberemos poner el nombre que queramos seguido de un signo "=" o "<-" seguido del comando que hemos visto anteriormente. Por ejemplo, en nuestro caso hemos decidido poner el nombre Demo (mismo nombre que el archivo de Excel):
> Demo = read.xlsx ("C:/Users/jsd/Downloads/Demo.xlsx",1)
Ahora tan solo tendremos que invocar el nombre "Demo" para que R sepa la base de datos con la que tiene que trabajar.
MacOS
Para saber la ruta en la que se encuentra el archivo, bastará con hacer clic derecho sobre el archivo Excel (formato .xlsx), seleccionar Obtener información y sobre Ubicación hacer clic derecho del ratón para Copiar como ruta.
En el ejemplo concreto que se ha usado para hacer esta entrada sería:
> read.xlsx ("/Users/manueljacobsierra-diaz/Downloads/Demo.xlsx",1)
Observaciones del comando:
- La ruta debe ir entre comillas ("...").
- El nombre del archivo debe ir al final de la ruta y debe tener la extensión .xlsx (o .xls).
- El número final indica la hoja en la que se encuentra la base de datos. En este caso en la Hoja 1.
- Las barras deben ir inclinadas a la derecha ("/"). Esto se consigue con SHIFT + 7.
- En Mac no es necesario indicar el disco C: (o la letra que corresponda) como ocurre con Windows.
- Si se cambia la ubicación del archivo, se deberá actualizar la ruta.
Ahora que ya sabemos cómo funciona, deberemos asignarle un nombre para que R sepa a qué base de datos nos estamos refiriendo cuando queramos hacer estadística u otras operaciones. Para ello, deberemos poner el nombre que queramos seguido de un signo "=" o "<-" seguido del comando que hemos visto anteriormente. Por ejemplo, en nuestro caso hemos decidido poner el nombre Demo (mismo nombre que el archivo de Excel):
> Demo = read.xlsx ("/Users/manueljacobsierra-diaz/Downloads/Demo.xlsx",1)
Ahora tan solo tendremos que invocar el nombre "Demo" para que R sepa la base de datos con la que tiene que trabajar, tal y como se muestra en la siguiente imagen:
Base de datos
Haciendo clic en el siguiente botón podrás descargarte la base de datos de Excel (formato .xlsx) para que puedas practicar su importación en R. La base de datos tiene el nombre Demo y la contraseña para acceder al archivo es la misma (Demo). ¡Atención! R no podrá leer archivos con contraseña, será necesario eliminar la contraseña o copiar la base de datos en un nuevo Excel sin contraseña.
No hay comentarios:
Publicar un comentario