ESCUELA DE TELECOMUNICACIONES Y REDES
Antes de profundizar en el conocimiento del lenguaje R, es útil empezar motivándose mediante una interfaz que nos ofrezca la realización de las tareas, al menos de las más sencillas. Para ello, R-Commander es una interfaz ideal que, además de permitirnos interactuar con R para realizar análisis estadísticos básicos, presenta el código en lenguaje R que corresponde a las acciones solicitadas.
Como cualidades podemos destacar:
- Adecuado para un curso de iniciación a la Estadística.
- Numerosa documentación en castellano.
- Módulos adicionales para Estadística avanzada.
- Introduce a la programación de R, al mostrar el código asociado a cada acción de los menús.
- Fácil instalación.
- Editor de datos deficiente. Se recomienda importar los datos y no editarlos directamente.
VENTANAS
Una vez abierto el R-Commander, aparecerá la siguiente ventana:
La ventana consta de las siguientes partes:
- barra de menús;
- barra de elementos activos (conjuntos de datos y modelos);
- área de instrucciones;
- área de resultados;
- área de mensajes.
A continuación se explicarán los comandos básicos para abrir una base con R-Commander.
.
Nuevo conjunto de datos
Este comando permite crear a mano y activar un nuevo conjunto de datos. Una vez asignado un nombre al nuevo conjunto de datos se abrirá una tabla vacía, que el usuario tendrá que rellenar con sus propios datos.
Cargar conjunto de datos
Este comando permite abrir un conjunto de datos ya existente, guardado en un fichero con el formato nativo de R (.rda). En la siguiente figura se representa el procedimiento para abrir la base de datos Turisguay, que seguiremos utilizando a lo largo de los próximos capítulos.
Importar datos
El programa R y el paquete R-Commander no solo permiten crear y trabajar sobre datos con formato nativo, sino que permiten también utilizar ficheros provenientes de otros programas. Los formatos de fichero soportados por R-Commander son
- texto puro (en fichero, portapapeles o dirección URL);
- SPSS;
- Minitab;
- STATA;
- Excel;
- Access.
Como ejemplo, abramos el conjunto de datos dataexcel.xlsx creado en Excel, siguiendo las instrucciones de las figuras a continuación:
Cambiar conjunto de datos
Con R-Commander es posible trabajar con varios conjuntos de datos cargados al mismo tiempo. Sin embargo, solo uno estará activo, y su nombre aparece en la barra de elementos activos a la derecha de Conjunto de datos, como se ilustra en la figura.
Para visualizar todos los conjuntos de datos disponibles, haga doble clic en el recuadro de figura, y aparecerá una ventanita con la lista de los nombres de los conjuntos de datos que están cargados.
Desde la consola de R-Commander es posible cambiar el conjunto de datos activo usando el menú de figura. En este ejemplo se ilustra cómo pasar desde el conjunto de datos Turisguay al conjunto de datosJovenguay.
Todos los análisis y los estadísticos que se calculan en R-Commander se realizan sola y exclusivamente sobre la base de datos activa, así que tenga cuidado cuando maneje varios conjuntos de datos a la vez: ¡asegúrese de trabajar sobre el conjunto apropriado! Es fácil despistarse al crear nuevos conjuntos de datos mediante filtros u otras modificaciones.
Comandos Estadísticos
A continuación se explicará, con tablas y ejemplos, el funcionamiento de los principales comandos disponibles en R-Commander para el cálculo de estadísticos. Los comandos de esta sección se encuentran en el menú de la figura.
Resúmenes
Este menú contiene los estadísticos básicos para resumir el conjunto de datos activo. Los comandos contenidos en este menú aparecen en la figura, y se explicarán en los próximos epígrafes.
Conjunto de datos activos Según la naturaleza de la variable (cuantitativa o cualitativa), tendremos:
- Resúmenes numéricos para variables cuantitativas:
- mínimo y máximo
- media y mediana
- primer y tercer cuartil
Es decir, los cinco cuartiles más la media. - Frecuencias absolutas para variables cualitativas (categóricas, factores).
Resúmenes numéricos Este comando hace el resumen de una variable numérica (o varias). Frente al resumen descrito antes, ofrece además la desviación típica.
Si, por ejemplo, queremos el resumen de la variable numérica ¿Cuántas noches pernoctará en Asturias? (p8), seguiremos las instrucciones de la figura.
Resúmenes numéricos de ¿Cuántas noches pernoctará en Asturias? (p8)
También se pueden calcular los resúmenes de una variable numérica, segmentando los resultados con respecto a una variable categórica. Si por ejemplo queremos conocer los estadísticos de la variable Gasto total diario por persona (gasdia) con respecto a Procedencia de la persona entrevistada (p7), seguiremos los pasos que se muestran en la figura.
FIG. Resúmenes numéricos segmentados
La salida será una tabla parecida a la que aparece en la figura.
Distribución de frecuencias Se usa para calcular las frecuencias de los casos observados en una variable categórica. Si por ejemplo estamos interesados a conocer la frecuencia de turistas asturianos, nacionales y extranjeros (Procedencia de la persona entrevistada (p7)), haremos como se ilustra en la figura.
Número de observaciones ausentes Este comando genera una tabla donde por cada variable se muestra el numero de observaciones ausentes.
Para el conjunto de datos Turisguay, la ejecución del comando genera la tabla de la figura.
Tablas de estadísticos Se pueden hacer tablas con los estadísticos (media, mediana o desviación típica) para comparar varias variables. Si por ejemplo queremos saber cuál es el Gasto total en el viaje por persona(gastotal) medio de los turistas, según sean hombres o mujeres (Sexo de la persona entrevistada (p18)) y según la Procedencia de la persona entrevistada (p7), haremos como se ilustra en la figura.
La salida será una tabla parecida a la que se muestra en la figura.
FIG. Gasto medio según sexo y procedencia
Unas herramientas muy útiles a la hora de hacer estadística son sin duda las gráficas. Muchas veces la visualización de la gráfica adecuada nos ayuda a hacernos una idea preliminar de la variable que queremos analizar.
En lo que sigue aprenderemos a construir distintas gráficas usando el menú apropiado. El menú que permite acceder a los comandos para construir las gráficas está representado en la figura.
Fig. Menú de gráficas
Diagrama de caja
Dibuja el típico diagrama de cajas y bigotes para una variable cuantitativa. Siguiendo las instrucciones de la primera figura, podemos construir la gráfica de la segunda figura, que representa el diagrama de caja de la variable Gasto total diario por persona (gasdia).
También se pueden construir diagramas de cajas para variables cuantitativas segmentadas con respecto a otras variables categóricas. En el ejemplo de figura hemos construido el diagrama para el Gasto total diario por persona (gasdia) con respecto a la Procedencia de la persona entrevistada (p7).
Fig. Diagrama de caja por grupos
Histograma
Este comando permite construir histogramas para variables numéricas. En la figura está representado el histograma del Gasto total diario por persona (gasdia).
¿Cómo cambiar las etiquetas del gráfico?
Siendo las gráficas unas herramientas muy útiles y ampliamente utilizadas en estadística, es necesario que sean lo más claras posible y que se puedan presentar incluso solas, o sea, sin estar acompañadas por datos numéricos; por esta razón deberían ser auto-explicativas en la mayoría de los casos.
Es importante entonces que cada gráfica contenga toda la información necesaria para su interpretación. Uno de los aspectos importantes en este sentido es explicar, con etiquetas, el título de la gráfica y las variables que en ella intervienen.
Desafortunadamente, con R-Commander no es posible modificar estas características, pero en lo que sigue daremos una explicación sencilla de cómo operar con los comandos de R para añadir a una gráfica generada con R-Commander las etiquetas de las variables y del título.
Para empezar, cuando se genera una gráfica con R-Commander, automáticamente se está pidiendo a R seguir algunos comandos específicos, los cuales aparecen reflejados en el área de instrucciones; en el caso de la gráfica representada en la figura anterior, que representa el histograma del gasto diario, el comando sería:
hist (Turisguay$gasdia, scale=~percent~, breaks=~Sturges~, col=~darkgray~)
que corresponde a pedir:
- hist (...) — un histograma...
- Turisguay$gasdia — ...de la variable Gasto total diario por persona (gasdia) en el conjunto de datos Turisguay...
- scale=~percent~ — ...que representa los porcentajes...
- breaks=~Sturges~ — ...calculando el ancho de las columnas con el método de Sturges...
- col=~darkgray~ — ...y pintando las columnas de un color gris oscuro.
Para añadir las etiquetas habrá que usar el comando:
hist (Turisguay$gasdia, main=~Gasto total diario~,
xlab=~Euros~, ylab=~Porcentaje (%)~,
scale=~percent~, breaks=~Sturges~, col=~darkgray~)
xlab=~Euros~, ylab=~Porcentaje (%)~,
scale=~percent~, breaks=~Sturges~, col=~darkgray~)
donde las opciones añadidas significan que:
- main=~Gasto total diario~ — el título será Gasto total diario,
- xlab=Euros~ — el eje horizontal llevará la etiqueta Euros y
- ylab=~Porcentaje (%)~ — el eje vertical llevará la etiqueta Porcentaje ( %).
El resultado de este comando está representado en la figura.
Fig. Histograma con etiquetas
APLICACIONES DEL SOFTWARE EN LA PRUEBA DE HIPÓTESIS
Ejemplos de
Aplicación de los Intervalos de Confianza para contrastar hipótesis
Ejemplo: Con el conjunto de
datos de Pulsos, queremos estudiar la altura media de los hombres solamente,
por medio de un intervalo de confianza al nivel de significación
=0.05, o de confianza del 95%, y utilizarlo para contrastar
la hipótesis de si la altura media de los hombres es de 171 cms. Vamos a
generar un conjunto de datos con las alturas de los hombres.
En principio debemos filtrar la altura por medio del Género para separar los hombres de las mujeres con la secuencia::
>Datos
>Conjunto de datos activos>Filtrar datos.
Como marcamos Incluir
todas las variables, va a generar un
Data.frame con todos
los datos referidos
sólo a Hombres:
Gender==”Male”
El nuevo conjunto
de datos activo, que tiene siempre el tipo
data.frame, se
llamará Alturahombres
El intervalo de
confianza para la media de altiras ,
Emplando el R
Commander, lo producen los menús:
>Estadísticos > Medias >Test para una muestra….
Resultando en la Ventana de resultados de R
Commander
One Sample t-test
data: Alturahombres$Height
t = 206.8254, df = 56, p-value < 2.2e-16
alternative
hypothesis:
true mean is
not equal to 0
95 percent confidence
interval:
70.06908 71.43969
sample
estimates:
mean
of x
70.75439
Basándonos en el
intervalo de confianza para la media de alturas de hombres: (70.06908 71.43969) consideremos ahora
el contraste de hipótesis sobre que la altura media es 171 cms. Pasando esta
altura media a pulgadas, que es la información extraída de la tabla: 171/2.54= 67.3228 pulgadas .
Se concluye afirmando
con el 95% de confianza que la altura media no es 171 cms, pues 67.3228 pulgadas
no está contenido en el intervalo de confianza calculado.
"Saber para Ser" ESPOCH




No hay comentarios:
Publicar un comentario