miércoles, 3 de diciembre de 2008

Distribución de probabilidad continua

Características:


Es generada por una variable continua (x).
x® Es una variable que puede tomar tanto valores enteros como fraccionarios.

x® 1.0, 3.7, 4.0, 4.6, 7.9, 8.0, 8.3, 11.5, .....,¥


f(x)³ 0 Las probabilidades asociadas a cada uno de los valores que toma x deben ser mayores o iguales a cero. Dicho de otra forma, la función de densidad de probabilidad deberá tomar solo valores mayores o iguales a cero. La función de densidad de probabilidad sólo puede estar definida en los cuadrantes I y II.

La sumatoria de las probabilidades asociadas a cada uno de los valores que toma x debe ser igual a 1. El área definida bajo la función de densidad de probabilidad deberá ser de 1.
Hasta el momento se han considerado las distribuciones de probabilidad para variables discretas, donde se podía asignar el valor que toma la función de probabilidad cuando la variable aleatoria tomaba un valor en concreto. Sin embargo, al considerar las variables continuas se encuentra uno el problema de que, lo más probable, los datos que se puedan recabar no sean completamente exactos, o dos o más de ellos no coincidan, por lo que se tienen que trabajar en intervalos y, en ese momento, modelar una función se convierte en un problema serio.

Sin embargo, se pueden realizar aproximaciones y describir la probabilidad a través de modelos teóricos de probabilidad cuya gráfica es una línea continua, a diferencia de las variables discretas que le corresponde un histograma.

Para clarificar cómo se realiza esta aproximación al modelo teórico consideremos el siguiente caso:

Se han registrado los tiempos que le tomó a una empresa de mensajería entregar 190 paquetes con destinatarios diferentes dentro de una misma ciudad. Los datos se han agrupado en una distribución de frecuencias considerando intervalos de cinco días como sigue:


Tiempo de entrega
(días)
No. de
paquetes

[0,5)
115

[5,10)
31

[10,15)
17

[15,20)
12

[20,25)
10

[25,30)
5


Supongamos que un posible cliente, conociendo esta información, quisiera saber qué probabilidad tiene de que su paquete sea entregado en dos días. El problema es que al manejar intervalos de cinco días estamos suponiendo que dentro de cada intervalo los datos se distribuyen uniformemente, cosa que no es real.

Podríamos aumentar la muestra y seguir recogiendo información para hacer una distribución de frecuencias similar a la anterior, pero se tendría el mismo problema: dentro de cada intervalo se está presuponiendo que los datos se distribuyen uniformemente.

Otra posible solución es reducir la amplitud de los intervalos, de tal suerte que podríamos tomar una amplitud de tres días por intervalo y hacer la siguiente distribución de frecuencias:



Tiempo de entrega
(días)
No. de
paquetes
(frec.)

[0,3)
93

[3,6)
30

[6,9)
18

[9,12)
13

[12,15)
9

[15,18)
8

[18,21)
6

[21,24)
6

[24,27)
4

[27,30)
3


Al seguir reduciendo la amplitud a dos días se obtiene la distribución:


Tiempo de entrega
(días)
No. de
paquetes
(frec.)

[0,2)
76

[2,4)
29

[4,6)
18

[6,8)
13

[8,10)
10

[10,12)
8

[12,14)
6

[14,16)
6

[16,18)
5

[18,20)
4

[20,22)
4

[22,24)
4

[24,26)
3

[26,28)
2

[28,30)
2


Y al reducirla a intervalos de un día se tiene la distribución:


Tiempo de entrega
(días)
No. de
paquetes
(frec.)

[0,1)
51

[1,2)
25

[2,3)
17

[3,4)
12

[4,5)
10

[5,6)
8

[6,7)
7

[7,8)
6

[8,9)
5

[9,10)
5

[10,11)
4

[11,12)
4

[12,13)
3

[13,14)
3

[14,15)
3

[15,16)
3

[16,17)
3

[17,18)
2

[18,19)
2

[19,20)
2

[20,21)
2

[21,22)
2

[22,23)
2

[23,24)
2

[24,25)
2

[25,26)
1

[26,27)
1

[27,28)
1

[28,29)
1

[29,30)
1


Ahora, veamos. Lo que le interesa al futuro cliente es la probabilidad de que se haga una entrega en un cierto tiempo, por lo que habría que considerar las frecuencias relativas y, como antes, reducir la amplitud de los intervalos. Con esto se obtendrían las siguientes distribuciones de frecuencias:



Intervalos de dos días



Intervalos de un día



Y podríamos graficar tal información en histogramas para poder ver cómo se aproximan, si es que ocurre, los valores a una curva continua:



donde las barras rosas (y la línea roja) corresponden a los intervalos de cinco días; las barras y línea azules, a los intervalos de tres días; las barras y línea amarillas, a los intervalos de dos días; y las barras y líneas verdes, a los intervalos de un día.

Se han incluido de una vez las líneas que unen los puntos medios de las barras del histograma porque se puede ver que las barras de las frecuencias relativas se "achaparran" y las líneas graficadas están tan separadas del lado izquierdo (en este caso) que no se puede hablar de una aproximación continua a una sóla línea.

Una posible solución es utilizando la densidad del intervalo, que se va a definir como el cociente de la frecuencia relativa entre la amplitud del intervalo:



(De hecho, existe la función de densidad de una distribución de probabilidad, de donde se deriva esta definición de densidad del intervalo.)

De esta manera, a las distribuciones de frecuencias anteriores se les puede añadir la columna correspondiente a la densidad:

Intervalos de cinco días


Intervalo
frec.
frec. rel.
densidad

[0,5)
115
0.605
0.121

[5,10)
31
0.163
0.033

[10,15)
17
0.089
0.018

[15,20)
12
0.063
0.013

[20,25)
10
0.053
0.011

[25,30)
5
0.026
0.005


Intervalos de tres días


Intervalo
frec.
frec. rel.
densidad

[0,3)
93
0.489
0.163

[3,6)
30
0.158
0.053

[6,9)
18
0.095
0.032

[9,12)
13
0.068
0.023

[12,15)
9
0.047
0.016

[15,18)
8
0.042
0.014

[18,21)
6
0.032
0.011

[21,24)
6
0.032
0.011

[24,27)
4
0.021
0.007

[27,30)
3
0.016
0.005


Intervalos de dos días



Intervalos de un día



Intervalo
frec.
frec. rel.
densidad

[20,21)
2
0.011
0.011

[21,22)
2
0.011
0.011

[22,23)
2
0.011
0.011

[23,24)
2
0.011
0.011

[24,25)
2
0.011
0.011

[25,26)
1
0.005
0.005

[26,27)
1
0.005
0.005

[27,28)
1
0.005
0.005

[28,29)
1
0.005
0.005

[29,30)
1
0.005
0.005


y realizar los histogramas correspondientes, que quedan como sigue:



donde las barras rosas, y la línea roja, corresponden a los intervalos de cinco días; las barras y línea verdes, a los intervalos de tres días; las barra y línea amarillas, a los intervalos de dos días; y las barras y línea azules, a los intervalos de un día.

Igual que en el caso anterior, se han graficado simultáneamente las barras y las líneas que unen los puntos medios de éstas para observar que con la densidad sí se aproximan los histogramas a una línea continua (que la mejor aproximación presentada es la línea azul) cuando los intervalos se reducen continuamente.

El resultado es una línea continua que es la gráfica de una cierta función denominada función de densidad de la distribución probabilística.

Ahora, considerando la manera en que se definió la densidad de un intervalo como:



y recordando que la frecuencia relativa es la probabilidad de un evento (en el ejemplo de la mensajería sería la probabilidad de entregar un paquete dentro de un intervalo dado de tiempo):



Entonces, despejando en el primer cociente la frecuencia relativa e igualando con esta segunda expresión obtenemos que

probabilidad del evento = (densidad del intervalo)· (amplitud del intervalo)

Es decir, que la probabilidad de que ocurra un evento corresponde al área de las barras del histograma hecho tomando en cuenta la densidad de los intervalos; y que cuando tales intervalos tienen una amplitud que tiende a cero, y la gráfica se convierte en la curva continua de la función de densidad, entonces la probabillidad de que un evento ocurra en un intervalo (a,b) es el área bajo la curva de la función en ese intervalo:



y, por tanto, el cálculo de tal probabilidad se realiza utilizando cálculo integral:



donde f(x) es la función de densidad de la distribución probabilística correspondiente.

Hay que estar conscientes de que en el caso de las variables continuas sólo se puede calcular la probabilidad de que un evento caiga dentro de un intervalo, debido a que la exactitud de los instrumentos de medición siempre es relativa y muy lejana a la "exactitud" de los cálculos matemáticos.

Por esto, la probabilidad de que la variable aleatoria tome un valor exacto es nula:



Esto se puede explicar de la siguiente manera: si, como ya dijimos, la probabilidad (frecuencia relativa) es igual a la densidad del intervalo por la amplitud del intervalo, entonces no importa qué tan grande sea la densidad de tal intervalo porque, como ya también se dijo, por ser variable continua la amplitud del intervalo tiende a cero y, por tanto, la probabilidad es igual a cero.

Modelos de distribución de probabilidad de variables continuas

Al igual que en el caso de las distribuciones de probabilidad de variables discreta, en el caso de las distribuciones de probabilidad de variables continuas se tienen varios modelos teóricos que en seguida presentamos.

A la derecha de cada modelo aparece la función de densidad correspondiente a cada modelo.


Uniforme. Es la distribución en donde todos los eventos tienen la misma probabilidad.



Exponencial. Se utiliza para estudiar el tiempo entre dos sucesos. La función de Excel que le corresponde es DISTR.EXP.



Beta. Sirve para el estudio de variaciones, a través de varias muestras, de un porcentaje que representa algún fenómeno. La función DISTR.BETA del Excel sirve para obtener sus valores; y la función DISTR.BETA.INV proporciona los valores inversos de la función, es decir, se utiliza como parámetro la imagen de la función y regresa la variabla independiente.



Gamma. Se utiliza para estudiar variables cuya distribución puede ser asimétrica. La función de Excel que le corresponde es DISTR.GAMMA; y la función DISTR.GAMMA.INV es la inversa de la anterior.



ji cuadrada (c²). Es una distribución asociada a la prueba c², y se usa para comparar los valores observados con los esperados. La función DISTR.CHI de Excel sirve para este



Normal. Es la distribución más utilizada porque la mayoría de las variables utilizadas en fenómenos sociales se distribuyen aproximadamente siguiendo este modelo. Es la que tocaremos a continuación y se le llama comúnmente distribución normal.


Cálculo de media y desviación estándar para una distribución continua

Media o valor esperado de x.- Para calcular la media de una distribución de probabilidad continua se utiliza la siguiente fórmula:


Donde:

m = E(x) = media o valor esperado de la distribución

x = variable aleatoria continua

f(x) = función de densidad de la distribución de probabilidad


Desviación estándar.- La fórmula para determinar la desviación estándar de una distribución continua es;


luego:



Ejemplo:


Para la siguiente función,
cuando 0£ x £ 3, f(x) = 0 para cualquier otro valor


Diga si esta función nos define una distribución de probabilidad.

Si la función define una distribución de probabilidad, entonces, determine su media y desviación estándar.

Determine la probabilidad de que 1£ x < 2.
Solución:


Para verificar que la función nos define una distribución de probabilidad, es necesario que cumpla con las características que se habían mencionado.
x ® sí es una variable continua porque puede tomar cualquier valor entre 0 y 3

f(x)³ 0, lo que se comprueba si damos diferentes valores a x para ver que valores toma f(x), dándonos cuenta de que efectivamente f(x) solo toma valores mayores o iguales a cero.




x
f(x)

0
0.0

0.5
0.02778

1.0
0.11111

1.4
0.21778

2.1
0.49

2.7
0.81

3.0
1.0



Para comprobar que la sumatoria de las probabilidades que toma cada valor de x es de 1, se integra la función de 0 a 3 como se muestra a continuación:


A= área bajo la función

Con las operaciones anteriores comprobamos que la función sí nos define una distribución de probabilidad continua.


Cálculo de media y desviación estándar.




Las barras nos indican la evaluación de la integral entre 0 y 3.

c)

La barra nos indica la evaluación de la integral de 1 a 2.

Con las operaciones anteriores nos damos cuenta que para evaluar probabilidades para variables de tipo continuo, es necesario evaluar la función de densidad de probabilidad en el rango de valores que se desea; que vendría siendo el área que se encuentra entre f(x) y el eje de las x y entre el rango de valores definidos por la variable x.


Suponga que el error en la temperatura de reacción, en oC, para un experimento controlado de laboratorio es una variable aleatoria continua x, que tiene la función de densidad de probabilidad:
, para -1< x < 2 y f(x)= 0 en cualquier otro caso


Verifique la tercera condición de la definición de una distribución de probabilidad continua.

Determine la media o valor esperado de la distribución de probabilidad.

Encuentre la probabilidad de que 0< x £ 1.
Solución:


Como la tercera condición es que la sumatoria de las probabilidades asociadas a cada uno de los valores que toma x debe de ser 1, esto se comprueba de la siguiente manera:

No hay comentarios: