lunes, 9 de abril de 2012

En el transcurso de estas sesiones se ha empezado con conceptos básicos y generales sobre SAS…a continuación se presentan algunos puntos que se abordaron durante estas sesiones:

En la actualidad se puede observar que se hace uso de los paquetes estadísticos los cuales se han ido adaptado a las nuevas necesidades. Uno de los paquetes que ha ido evolucionando es SAS significa "Statistical Analysis System", el cual en la actual permite crear gráficos, trabajar como una hoja de cálculo, compilar programas en lenguaje C, entre otras funciones.

El programa SAS se encuentra dividido en dos ventanas principales:

- Ventana izquierda "Explorer": contiene accesos directos a los ficheros que interesan, información sobre las librerías y una ventana de resultados dónde aparece la información obtenida de las diferentes ejecuciones desglosadas.

- Ventana derecha: Contiene las ventanas principales log, output, editor.

El modo de trabajo que utiliza SAS se basa en éstas tres ventanas:
  • Ventana EDITOR: Esta ventana corresponde a la ventana de sintaxis, por lo tanto es editable. Para poder ejecutar la sintaxis, se debe pulsar el botón: FALTA AGREGAR ICONO.
Para ejecutar una parte de la sintaxis, primero se selecciona dicha parte y después se pulsa el botón.
  • Ventana LOG: En esta ventana se consulta y revisa todo lo que se ha ejecutado, aparecen mensajes de advertencia y de error en caso necesario y se informa sobre la velocidad de ejecución y recursos.
  • Ventana OUTPUT: Cuando se ejecutan procedimientos de SAS, en esta ventana se muestran los listados, tablas y/o resultados.
Para borrar el contenido de la pantalla activa se puede pulsar el botón: FALTA AGREGAR ICONO..

Para guardar el contenido de la pantalla activa se puede pulsar el botón: FALTA AGREGAR ICONO. 

Para consultar la ayuda de SAS se puede pulsar el botón: FALTA AGREGAR ICONO.

Algunos conceptos básicos que se deben puntualizar para SAS antes de pasar al siguiente puntos son:

SAS es un programa declarativo que se basa en una serie de programas o scripts que realizan las tareas. Existe un interface con ventanas denominada Enterprise Guide que facilita el uso de SAS, pero se vende como un programa aparte.

-Toda sentencia de SAS termina con un punto-y-coma: (;)

-Todas las variables y los nombres de ficheros de datos deben empezar con una letra o con _ y no deben contener signos especiales (raros) como %, #, etc.

-Los comandos de SAS son equivalentes en mayúsculas y minúsculas.

-No hay restricciones en cuanto a donde empiezan los comandos o terminan, o si los comandos se pueden colocar en líneas contiguas, aunque es conveniente evitar los programas confusos.

-Los nombres de variables o conjuntos de datos no pueden tener más de 32 caracteres.


PROCEDIMIENTOS EN SAS

Todos los programas de sintaxis elaborados con SAS contienen tan sólo dos tipos de instrucciones: DATA y PROC.
Con la instrucción DATA nombre se crea un dataset nuevo (o bien se reemplaza). "nombre" es el nombre del nuevo dataset. Un dataset es un conjunto de datos creado con SAS.

Cualquier operación a realizar con un dataset: lectura de datos, creación de variables nuevas, recodificación, cambio de etiquetas, selección de casos, etc. se hace dentro de la instrucción DATA.
Los procedimientos PROC se emplean para trabajar con los datos de un dataset sin modificar su estructura: análisis, tablas, listados, cálculos, estadísticos, etc.

Observaciones:
-Después de cada instrucción es necesario el signo " ; ".

-Los comentarios van precedidos por un signo " * ".
-Después de un paso DATA o de un PROC es útil escribir "RUN; " en el caso que interese ejecutar el programa a trozos.

La instrucción INPUT declara como se leen las variables: nombres de las variables y " $ " a continuación si se trata de una variable alfanumérica.

-La instrucción CARDS sirve para iniciar la lectura de los datos internos.
-El procedimiento PROC PRINT es el procedimiento que lista los datos.
Observando la ventana LOG, se consultan los errores cometidos en la sintaxis del EDITOR.

SAS nos permite definir la forma en qué son listados los valores de las variables. Esta operación se realiza mediante la instrucción FORMAT del paso DATA. Una de estas " formas " se crea mediante el procedimiento FORMAT. Una vez creada, se puede utilizar para cualquier otra variable. Con la instrucción LABEL, se dan etiquetas a las variables, por ejemplo:

PROC PRINT DATA=FIEBRE.FINAL LABEL NOOBS;
VAR NUM_PAC INIC TRATAM SEXO;
LABEL INIC='LABEL TEMPORAL';
RUN;

FUNCIONES DE SAS.


Cuando se trabaja con las variables de la base de datos, es usual generar nuevas variables a partir de aquellas que ya existían utilizando funciones y operadores. Tambien se emplean funciones y operadores para escribir condiciones utilizando, además, símbolos para comparar expresiones. Aunque hay una gran cantidad de funciones las más usuales son:

OPERADORES: + , - , * , / , **.
COMPARADORES : = , < , > , <= , >= , ^= , AND , OR.

Cuando el objetivo del análisis es testar una hipótesis o bien cualquier otro análisis más profundo de los datos, se exploran a detalle las variables y se obtienen otros estadísticos descriptivos así como tests relativos a la distribución de los datos o bien representaciones gráficas. El procedimiento que se utiliza para este tipo de exploración es el PROC UNIVARIATE.
  • El procedimiento UNIVARIATE incorpora estadísticos como los resultados de diferentes tests no paramétricos, tests de normalidad, y estadísticos descriptivos como percentiles, moda y valores más extremos.
  • El procedimiento UNIVARIATE realiza tres tipos diferentes de representaciones de los datos si se especifica la opción PLOT: un diagrama de tallo y hojas, un diagrama de cajas y una gráfica para comparar la función de probabilidades empírica de los datos con la función de probabilidades de una variable aleatoria con distribución Normal con la misma media y desviación que la variable descrita.
  • El procedimiento UNIVARIATE también posibilita el contraste de diferencias entre medias de dos variables relacionadas (datos apareados o medidas repetidas) o bien el contraste para ver si la media de una cierta variable es igual a una determinada constante (en estos casos sólo existe un grupo de observaciones y no dos) estudiando la variable generada a partir de la diferencia (de las dos variables de medidas repetidas o bien de la variable y el valor de contraste) y observando el resultado del t-Test que proporciona.
  • El procedimiento FREQ genera tablas de frecuencias. Este procedimiento, también puede ser útil para observar la calidad de los datos, comprobando si hay valores extraños o faltantes (y poder proceder con su recodificación o corrección) por ejemplo:

PROC FREQ DATA=peso.edad;
TABLES SEXO /OUT=F_SEXO;
RUN;
PROC FREQ DATA=peso.edad;
TABLES SEXO /TESTP=(0.4 0.6);
RUN;
Aquí cabe destacar que para obtener los datos referentes a la tabla de contingencia o la tabla de frecuencias correspondiente en un dataset nuevo es necesaria la opción OUT=dataset_salida (si se realizan diversas tablas al mismo tiempo, sólo se guardan los datos referentes a la última tabla especificada).

El procedimiento para crear gráficas de barras verticales, horizontales o gráficos de tipo pastel es el procedimiento GCHART. Por ejemplo:
PROC GCHART DATA=peso.edad;
VBAR SEXO / DISCRETE GROUP=TRATAM;
RUN;
ó
PROC GCHART DATA=peso.edad;
HBAR SEXO / DISCRETE SUBGROUP=TRATAM TYPE=PERCENT;
RUN;
Esta primera gráfica de barras es vertical ya que utiliza la instrucción VBAR y representa las frecuencias de la variable SEXO. Especificando DISCRETE, el procedimiento reconoce que la variable a mostrar es discreta y respeta los valores de la variable (en caso contrario el resultado es un histograma). Especificando la opción GROUP=nombre_variable se muestra un diagrama de comparación respecto la variable que se indica.

NOTA:
Durante las sesiones se realizaron una serie de ejercicios y algunas actividades extra para practicar en casa. Cabe destacar que SAS engloba mucho más conceptos en etas sesiones se cumplio el objetivo realizar una introducción al SAS. En las siguientes sesiones se seguirá trabajando con esta herramienta.

BIBLIOGRAFIA
Valls Joan y Badiella Llorenc. s/a. Manual de introducción al SAS. Servei d´estadistica. Universitat Autónoma de Barcelona. 50 p.