miércoles, 22 de febrero de 2012

T8A MUESTRAS ALEATORIAS O PROBABILISTICAS

En estadística una muestra estadística, también llamada muestra aleatoria o simplemente muestra, es un subconjunto de casos o individuos de una población estadística.
Las muestras aleatorias tienen en común que cada uno de los elementos que componen el universo tiene una probabilidad conocida y determinada de ser seleccionada en la muestra. 
Las muestras se obtienen con la intención de inferir propiedades de la totalidad de la población, para lo cual deben ser representativas de la misma. Para cumplir esta característica la inclusión de sujetos en la muestra debe seguir una técnica de muestreo. En tales casos, puede obtenerse una información similar a la de un estudio exhaustivo con mayor rapidez y menor coste.
Por otra parte, en ocasiones, el muestreo puede ser más exacto que el estudio de toda la población porque el manejo de un menor número de datos provoca también menos errores en su manipulación. En cualquier caso, el conjunto de individuos de la muestra son los sujetos realmente estudiados.
El número de sujetos que componen la muestra suele ser inferior que el de la población, pero suficiente para que la estimación de los parámetros determinados tenga un nivel de confianza adecuado. Para que el tamaño de la muestra sea  idóneo es preciso recurrir a su cálculo.
Es una muestra sacada de una población de unidades, de manera que todo elemento de la población tenga la misma probabilidad de selección y que las unidades diferentes se seleccionen independientemente.
La teoría de la probabilidad es la parte de las matemáticas que estudia los fenómenos aleatorios o estocásticos. Estos deben contraponerse a los fenómenos determinísticos, los cuales son resultados únicos y/o previsibles de experimentos realizados bajo las mismas condiciones determinadas, por ejemplo, si se calienta agua a 100 grados Celsius a nivel del mar se obtendrá vapor.
Los fenómenos aleatorios, por el contrario, son aquellos que se obtienen como resultado de experimentos realizados, otra vez, bajo las mismas condiciones determinadas pero como resultado posible poseen un conjunto de alternativas, por ejemplo, el lanzamiento de un dado o de una moneda.
La probabilidad mide la frecuencia con la que se obtiene un resultado (o conjunto de resultados) al llevar a cabo un experimento aleatorio, del que se conocen todos los resultados posibles, bajo condiciones suficientemente estables.
Muchos fenómenos naturales son aleatorios, pero existen algunos como el lanzamiento de un dado, donde el fenómeno no se repite en las mismas condiciones, debido a que la características del material hace que no exista una simetría del mismo, así las repeticiones no garantizan una probabilidad definida.
En los procesos reales que se modelizan mediante distribuciones de probabilidad corresponden a modelos complejos donde no se conocen a priori todos los parámetros que intervienen; ésta es una de las razones por las cuales la estadística, que busca determinar estos parámetros, no se reduce inmediatamente a la teoría de la probabilidad en sí.
Muestra aleatoria: muestra elegida independientemente de todas las demás, con la misma probabilidad que cualquier otra y cuyos elementos están elegidos independientemente unos de otros y con la misma probabilidad.
Muestra aleatoria
Una muestra aleatoria es una muestra sacada de una población de unidades, de manera que todo elemento de la población tenga la misma probabilidad de selección y que las unidades diferentes se seleccionen independientemente.
Variables aleatorias y distribuciones
Se llama variable aleatoria aquella que toma diversos valores o conjuntos de valores con distintas probabilidades. Existen 2 características importantes de una variable aleatoria, sus valores y las probabilidades asociadas a esos valores.
Una tabla, gráfico o expresión matemática que dé las probabilidades con que una variable aleatoria toma diferentes valores, se llama distribución de la variable aleatoria.
La inferencia estadística se relaciona con las conclusiones que se pueden sacar acerca de una población de observaciones basándose en una muestra de observaciones. Entonces intervienen las probabilidades en el proceso de la selección de la muestra; en este caso se desea saber algo sobre una distribución con base en una muestra aleatoria de esa distribución.
De tal manera vemos que trabajamos con muestras aleatorias de una población que es más grande que la muestra obtenida; tal muestra aleatoria aislada no es mas que una de muchas muestras diferentes que se habrían podido obtener mediante el proceso de selección. Este concepto es realmente importante en estadística.
La distribución de un estadígrafo en todas las muestras aleatorias de tamaño n tomadas de una población, se llama distribución muestral del estadígrafo para muestras aleatorias de tamaño n.
Para muestras aleatorias de tamaño n de toda población base, la media de la distribución muestral de la media muestral, es la media μ de la población de base.
Para muestras aleatorias de tamaño n de toda población base, la varianza de la distribución muestral de la media muestral, es σ2/ n que es la varianza de la población de base dividida por el tamaño de la muestra.
Para muestras aleatorias de tamaño n de toda población de base, la media de la distribución muestral de la varianza muestral s2, es la varianza σ2 de la población de base.
Una distribución normal de media μ y desviación típica σ se designa por N(μ, σ). Su gráfica es la campana de Gauss:
El área del recinto determinado por la función y el eje de abscisas es igual a la unidad. Al ser simétrica respecto al eje que pasa por x = µ, deja un área igual a 0.5 a la izquierda y otra igual a 0.5 a la derecha.
La probabilidad equivale al área encerrada bajo la curva.
Su importancia se debe fundamentalmente a la frecuencia con la que distintas variables asociadas a fenómenos naturales y cotidianos siguen, aproximadamente, esta distribución.  Caracteres morfológicos (como la talla o el peso), o psicológicos (como el cociente intelectual) son ejemplos de variables de las que frecuentemente se asume que siguen una distribución normal. 

No obstante, y aunque algunos autores han señalado que el comportamiento de muchos parámetros en el campo de la salud puede ser descrito mediante una distribución normal, puede resultar incluso poco frecuente encontrar variables que se ajusten a este tipo de comportamiento.

El uso extendido de la distribución normal en las aplicaciones estadísticas puede explicarse, además, por otras razones.  Muchos de los procedimientos estadísticos habitualmente utilizados asumen la normalidad de los datos observados.  Aunque muchas de estas técnicas no son demasiado sensibles a desviaciones de la normal y, en general, esta hipótesis puede obviarse cuando se dispone de un número suficiente de datos, resulta recomendable contrastar siempre si se puede asumir o no una distribución normal. 

La simple exploración visual de los datos puede sugerir la forma de su distribución.  No obstante, existen otras medidas, gráficos de normalidad y contrastes de hipótesis que pueden ayudarnos a decidir, de un modo más riguroso, si la muestra de la que se dispone procede o no de una distribución normal.  Cuando los datos no sean normales, podremos o bien transformarlos o emplear otros métodos estadísticos que no exijan este tipo de restricciones (los llamados métodos no paramétricos).

MUESTRA PROBABILÍSTICA:

Permite conocer la probabilidad que cada unidad de análisis tiene de ser integrada a la muestra mediante la selección al azar. Este tipo de muestreo comprende los procedimientos de muestreo simple o al azar, estratificado, sistemático y por conglomerados o racimos.

Muestreo de azar simple

De acuerdo con Webster (1998) “una muestra aleatoria simple es la que resulta de aplicar un método por el cual todas las muestras posibles de un determinado tamaño tengan la misma probabilidad de ser elegidas”.

Esta definición refleja que la probabilidad de selección de la unidad de análisis A es independiente de la probabilidad que tienen el resto de unidades de análisis que integran una población. Esto significa que tiene implícita la condición  de equiprobabilidad. (Glass y Stanley 1994)

Consiste en elaborar listas con todas las unidades que configuran el universo, numerando correlativamente a cada una de ellas. Luego mediante un sistema de azarificación, tabla de números, bolicheros se van sorteando estos números hasta el total de unidades de la muestra.

Los pasos para obtener una muestra aleatoria simple son:

Definir la población de estudio.
Enumerar a todas las unidades de análisis que integran la población, asignándoles un número de identidad o identificación.
Determinar el tamaño de muestra óptimo para el estudio.
Seleccionar la muestra de manera sistemática utilizando una tabla de números aleatorios generada por medios computacionales para garantizar que se tiene un orden aleatorio.

Es la muestra en la que interviene un cálculo probabilístico que permite hacer posible la investigación.

Muestreo al azar sistémico

Su idea básica es similar a la del azar simple, partiendo también, en este caso, de un listado completo de las unidades que integran al universo. Luego una vez de proceder a escoger una por una las unidades por los métodos ya señalados se efectúan las siguientes operaciones:

Se calcula la constante K que resulta de dividir el número total de unidades del universo por el número de unidades que han de integrar la muestra.
Calculado K se efectúa un sorteo para elegir un número que sea inferior o igual a su valor.
Elegir la primera unidad el número inicial del sorteo.
Agregar ha dicho número el valor de K, 2K, 3K y así sucesivamente.

Muestreo estratificado

Se conforman grupos homogéneos internamente pero heterogéneos entre sí. Este procedimiento de muestreo determina los estratos que conforman una población de estudio para seleccionar y extraer de ellos la muestra. Se entiende por estrato todo subgrupo de unidades de análisis que difieren en las características que se van a analizar en una investigación.

En este muestreo el universo puede desagregarse en subconjuntos menores, homogéneos internamente, pero heterogéneos entre sí. Es como si se fragmenta el universo en estratos o categorías de unidades, diferenciándolos de acuerdo a alguna variable que resulte de interés para la investigación.

Una modalidad muy precisa en este tipo de muestreo es el procedimiento de muestreo estratificado proporcional. Procedimiento de muestreo que permite seleccionar a las unidades de análisis que integrarán la muestra en proporción exacta al tamaño que tiene el estrato en la población, es decir, “el estrato se encuentra representado en la muestra en proporción exacta a su frecuencia en la población total” (D´Ary, Jacobs y Razavieh, 1982, p. 138).

Los pasos a seguir para seleccionar una muestra proporcionalmente estratificada son:

Definir la población de estudio.
Determinar el tamaño de muestra requerido.
Establecer los estratos o subgrupos.
Determinar la fracción total de muestreo por estrato dividiendo el tamaño del estrato entre el tamaño de la población de estudio.
Multiplica la fracción total de muestreo por estrato por el tamaño de la muestra para obtener la cantidad de unidades de análisis de cada estrato que se integrarán al unidad muestral.

Muestreo por racimos o conglomerados

Se utilizan unidades de muestras encapsuladas o encerradas a efectos de disminuir los costos, tiempos, y esfuerzo. Esta técnica tiene utilidad cuando el universo que se quiere estudiar admite ser subdividido en universos menores, en partes del mismo, de características similares en cuanto a su composición que las del universo total. Cuando es posible asumir esta alternativa se procede subdividir el universo en un número finito de conglomerados.

TAMAÑO DE LA MUESTRA. METODO ALEATORIO SIMPLE

Problema: Una empresa comercializa una pomada marca ZORYVAN útil en el tratamiento del acné rebelde, la psoriasis, hongos  de la piel, dolores musculares y artríticos. Tiene un universo de 10.000 hogares. Se quiere saber que proporción de estos consumen la marca.

Qué tamaño de muestra se requiere para determinar la proporción de hogares que la consumen? 
La fórmula clásica:
Ecuación 1.
n  =  Z2. p. q/ e2

Z2: Se expresa como “Z” al cuadrado
e2: Se expresa como “e” al cuadrado
n = Número de hogares representados en la muestra a estudiar.
z = Factor de probabilidad dado por el nivel de confianza de la investigación.
p = proporción de hogares que consumen la pomada.
q = proporción de hogares que no consumen la pomada.
e = error máximo permitido.

Los niveles de confianza más comunes en la investigación:

90%: Valor estandarizado de Z = 1.64
95%: Valor estandarizado de Z = 1.96
99%: Valor estandarizado de Z = 2.58

Estos valores se encuentran determinados en tablas Z.

Si ya se conoce el tamaño de la población es necesario hacer un ajuste a la muestra:

Ecuación 2.
n´ =      n
         ---------
          1+( n-1)N
Para determinar “p” (no se conoce) por definición, le imputamos un valor entre 0.4-0.6. Lo ideal es 0.5.
Para determinar “q” se tiene: p + q = 1. Luego q = 0.5 
Nos interesa un nivel de confianza del 95% para Z = 1.96
Nos interesa un error del 3% (en valor relativo: 0.03)

Desarrollamos la ecuación 1. Nos da un valor de 1067 hogares. Este es el tamaño si no se conoce el universo. Pero como ya se conoce el tamaño es necesario hacer un ajuste. Para ello se aplica la ecuación 2. El resultado es 964 y este será el tamaño definitivo de la  muestra para realizar el estudio de estimación de la proporción de los hogares que consumen la marca ZORYVAN.

http://www.catedraderamiro.blogspot.com

No hay comentarios:

Publicar un comentario