miércoles, 15 de enero de 2014

MINI MANUAL DE R-COMMANDER (comandos, ventanas y aplicaciones del software en la prueba de hipótesis)



ESCUELA DE TELECOMUNICACIONES Y REDES
Jomaira Aracely Ruilova Rodríguez

R-COMMANDER



Antes de profundizar en el conocimiento del lenguaje R, es útil empezar motivándose mediante una interfaz que nos ofrezca la realización de las tareas, al menos de las más sencillas. Para ello, R-Commander es una interfaz ideal que, además de permitirnos interactuar con R para realizar análisis estadísticos básicos, presenta el código en lenguaje R que corresponde a las acciones solicitadas.

Como cualidades podemos destacar:
  • Adecuado para un curso de iniciación a la Estadística.
  • Numerosa documentación en castellano.
  • Módulos adicionales para Estadística avanzada.
  • Introduce a la programación de R, al mostrar el código asociado a cada acción de los menús.
  • Fácil instalación.
  • Editor de datos deficiente. Se recomienda importar los datos y no editarlos directamente.
VENTANAS
Una vez abierto el R-Commander, aparecerá la siguiente ventana:

PIC

La ventana consta de las siguientes partes:
  • barra de menús;
  • barra de elementos activos (conjuntos de datos y modelos);
  • área de instrucciones;
  • área de resultados;
  • área de mensajes.
COMANDOS
A continuación se explicarán los comandos básicos para abrir una base con R-Commander.
.

PIC 
FIG. Menú datos (primera parte)

Nuevo conjunto de datos
Este comando permite crear a mano y activar un nuevo conjunto de datos. Una vez asignado un nombre al nuevo conjunto de datos se abrirá una tabla vacía, que el usuario tendrá que rellenar con sus propios datos.

PIC FIG. Crear conjunto de datos














Cargar conjunto de datos
Este comando permite abrir un conjunto de datos ya existente, guardado en un fichero con el formato nativo de R (.rda). En la siguiente figura se representa el procedimiento para abrir la base de datos Turisguay, que seguiremos utilizando a lo largo de los próximos capítulos.

PIC FIG. Cargar datos











Importar datos
El programa R y el paquete R-Commander no solo permiten crear y trabajar sobre datos con formato nativo, sino que permiten también utilizar ficheros provenientes de otros programas. Los formatos de fichero soportados por R-Commander son
  • texto puro (en fichero, portapapeles o dirección URL);
  • SPSS;
  • Minitab;
  • STATA;
  • Excel;
  • Access.
Como ejemplo, abramos el conjunto de datos dataexcel.xlsx creado en Excel, siguiendo las instrucciones de las figuras a continuación:

PIC 
FIG. Importar datos desde Excel
Cambiar conjunto de datos
Con R-Commander es posible trabajar con varios conjuntos de datos cargados al mismo tiempo. Sin embargo, solo uno estará activo, y su nombre aparece en la barra de elementos activos a la derecha de Conjunto de datos, como se ilustra en la figura.

PIC 
FIG. Conjunto de datos activo


Para visualizar todos los conjuntos de datos disponibles, haga doble clic en el recuadro de figura, y aparecerá una ventanita con la lista de los nombres de los conjuntos de datos que están cargados.

PIC 
 FIG. Lista de conjuntos de datos disponibles


Desde la consola de R-Commander es posible cambiar el conjunto de datos activo usando el menú de figura. En este ejemplo se ilustra cómo pasar desde el conjunto de datos Turisguay al conjunto de datosJovenguay.

PIC 
FIG. Cambiar conjunto de datos activo


Todos los análisis y los estadísticos que se calculan en R-Commander se realizan sola y exclusivamente sobre la base de datos activa, así que tenga cuidado cuando maneje varios conjuntos de datos a la vez: ¡asegúrese de trabajar sobre el conjunto apropriado! Es fácil despistarse al crear nuevos conjuntos de datos mediante filtros u otras modificaciones.

Comandos Estadísticos

A continuación se explicará, con tablas y ejemplos, el funcionamiento de los principales comandos disponibles en R-Commander para el cálculo de estadísticos. Los comandos de esta sección se encuentran en el menú de la figura.

PIC 
FIG. Menú de estadísticos

Resúmenes
Este menú contiene los estadísticos básicos para resumir el conjunto de datos activo. Los comandos contenidos en este menú aparecen en la figura, y se explicarán en los próximos epígrafes.

PIC 
FIG. Menú de resúmenes


Conjunto de datos activos Según la naturaleza de la variable (cuantitativa o cualitativa), tendremos:
  • Resúmenes numéricos para variables cuantitativas:
    • mínimo y máximo
    • media y mediana
    • primer y tercer cuartil
    Es decir, los cinco cuartiles más la media.
  • Frecuencias absolutas para variables cualitativas (categóricas, factores).

PICFIG. Resúmenes del conjunto de datos activo



Resúmenes numéricos Este comando hace el resumen de una variable numérica (o varias). Frente al resumen descrito antes, ofrece además la desviación típica.
Si, por ejemplo, queremos el resumen de la variable numérica ¿Cuántas noches pernoctará en Asturias? (p8), seguiremos las instrucciones de la figura.

PIC 
Resúmenes numéricos de ¿Cuántas noches pernoctará en Asturias? (p8)

También se pueden calcular los resúmenes de una variable numérica, segmentando los resultados con respecto a una variable categórica. Si por ejemplo queremos conocer los estadísticos de la variable Gasto total diario por persona (gasdia) con respecto a Procedencia de la persona entrevistada (p7), seguiremos los pasos que se muestran en la figura.

PIC 
FIG. Resúmenes numéricos segmentados


La salida será una tabla parecida a la que aparece en la figura.

PIC 
FIG. Descripción del gasto según procedencia


Distribución de frecuencias Se usa para calcular las frecuencias de los casos observados en una variable categórica. Si por ejemplo estamos interesados a conocer la frecuencia de turistas asturianos, nacionales y extranjeros (Procedencia de la persona entrevistada (p7)), haremos como se ilustra en la figura.

PIC 
FIG. Procedencia de los turistas: frecuencias


Número de observaciones ausentes Este comando genera una tabla donde por cada variable se muestra el numero de observaciones ausentes.
Para el conjunto de datos Turisguay, la ejecución del comando genera la tabla de la figura.

PIC 
FIG. Número de ausentes


Tablas de estadísticos Se pueden hacer tablas con los estadísticos (media, mediana o desviación típica) para comparar varias variables. Si por ejemplo queremos saber cuál es el Gasto total en el viaje por persona(gastotal) medio de los turistas, según sean hombres o mujeres (Sexo de la persona entrevistada (p18)) y según la Procedencia de la persona entrevistada (p7), haremos como se ilustra en la figura.

PIC 
FIG. Tablas de estadísticos


La salida será una tabla parecida a la que se muestra en la figura.

PIC 
FIG. Gasto medio según sexo y procedencia


 Gráficas

Unas herramientas muy útiles a la hora de hacer estadística son sin duda las gráficas. Muchas veces la visualización de la gráfica adecuada nos ayuda a hacernos una idea preliminar de la variable que queremos analizar.
En lo que sigue aprenderemos a construir distintas gráficas usando el menú apropiado. El menú que permite acceder a los comandos para construir las gráficas está representado en la figura.

PIC 
Fig. Menú de gráficas

Diagrama de caja
Dibuja el típico diagrama de cajas y bigotes para una variable cuantitativa. Siguiendo las instrucciones de la primera figura, podemos construir la gráfica de la segunda figura, que representa el diagrama de caja de la variable Gasto total diario por persona (gasdia).

PIC 
Fig. Diagrama de caja


PIC 
Fig. Diagrama de caja: gasto diario


También se pueden construir diagramas de cajas para variables cuantitativas segmentadas con respecto a otras variables categóricas. En el ejemplo de figura hemos construido el diagrama para el Gasto total diario por persona (gasdia) con respecto a la Procedencia de la persona entrevistada (p7).

PIC 
Fig. Diagrama de caja por grupos

Histograma
Este comando permite construir histogramas para variables numéricas. En la figura está representado el histograma del Gasto total diario por persona (gasdia).

PIC Fig. Histograma: gasto diario

¿Cómo cambiar las etiquetas del gráfico?
Siendo las gráficas unas herramientas muy útiles y ampliamente utilizadas en estadística, es necesario que sean lo más claras posible y que se puedan presentar incluso solas, o sea, sin estar acompañadas por datos numéricos; por esta razón deberían ser auto-explicativas en la mayoría de los casos.
Es importante entonces que cada gráfica contenga toda la información necesaria para su interpretación. Uno de los aspectos importantes en este sentido es explicar, con etiquetas, el título de la gráfica y las variables que en ella intervienen.
Desafortunadamente, con R-Commander no es posible modificar estas características, pero en lo que sigue daremos una explicación sencilla de cómo operar con los comandos de R para añadir a una gráfica generada con R-Commander las etiquetas de las variables y del título.
Para empezar, cuando se genera una gráfica con R-Commander, automáticamente se está pidiendo a R seguir algunos comandos específicos, los cuales aparecen reflejados en el área de instrucciones; en el caso de la gráfica representada en la figura anterior, que representa el histograma del gasto diario, el comando sería:
hist (Turisguay$gasdia, scale=~percent~, breaks=~Sturges~, col=~darkgray~)
que corresponde a pedir:
  • hist (...) — un histograma...
  • Turisguay$gasdia — ...de la variable Gasto total diario por persona (gasdia) en el conjunto de datos Turisguay...
  • scale=~percent~ — ...que representa los porcentajes...
  • breaks=~Sturges~ — ...calculando el ancho de las columnas con el método de Sturges...
  • col=~darkgray~ — ...y pintando las columnas de un color gris oscuro.
Para añadir las etiquetas habrá que usar el comando:
hist (Turisguay$gasdia, main=~Gasto total diario~,
      xlab=~Euros~, ylab=~Porcentaje (%)~,
      scale=~percent~, breaks=~Sturges~, col=~darkgray~)
donde las opciones añadidas significan que:
  • main=~Gasto total diario~ — el título será Gasto total diario,
  • xlab=Euros~ — el eje horizontal llevará la etiqueta Euros y
  • ylab=~Porcentaje (%)~ — el eje vertical llevará la etiqueta Porcentaje ( %).
El resultado de este comando está representado en la figura.

PIC 
Fig. Histograma con etiquetas


APLICACIONES DEL SOFTWARE EN LA PRUEBA DE HIPÓTESIS

Ejemplos de Aplicación de los Intervalos de Confianza para contrastar hipótesis

Ejemplo: Con el conjunto de datos de Pulsos, queremos estudiar la altura media de los hombres solamente, por medio de un intervalo de confianza al nivel de significación =0.05, o de confianza del 95%, y utilizarlo para contrastar la hipótesis de si la altura media de los hombres es de 171 cms. Vamos a generar un conjunto de datos con las alturas de los hombres.




En principio debemos filtrar la altura por medio del Género para separar los hombres de las mujeres con la secuencia::
>Datos >Conjunto de datos activos>Filtrar datos.

Como marcamos Incluir todas las variables, va a generar un
Data.frame con todos los datos referidos
sólo a Hombres: Gender==”Male”

El nuevo conjunto de datos activo, que tiene siempre el tipo
data.frame, se llamará Alturahombres

El intervalo de confianza para la media de altiras ,
Emplando el R Commander, lo producen los menús:

>Estadísticos > Medias >Test para una muestra….
Resultando en la Ventana de resultados de R Commander





One Sample t-test

data:  Alturahombres$Height
t = 206.8254, df = 56, p-value < 2.2e-16
alternative hypothesis:
 true mean is not equal to 0
95 percent confidence interval:
 70.06908 71.43969
sample estimates:
mean of x
 70.75439

Basándonos en el intervalo de confianza para la media de alturas de hombres: (70.06908 71.43969) consideremos ahora el contraste de hipótesis sobre que la altura media es 171 cms. Pasando esta altura media a pulgadas, que es la información extraída de la tabla: 171/2.54= 67.3228 pulgadas.

Se concluye afirmando con el 95% de confianza que la altura media no es 171 cms, pues 67.3228 pulgadas no está contenido en el intervalo de confianza calculado.

"Saber para Ser" ESPOCH

No hay comentarios:

Publicar un comentario