miércoles, 3 de diciembre de 2008

TEOREMA DE BAYES

TEOREMA DE BAYES
Probabilidad de que evento produce el fallo
P(Ek/F)= p(F/Ek)p(Ek) / p(F)

Ejemplo:
Cual es la probabilidad de que P(E1/F)=

p(E1/F)=p(F/E1)p(E1) / p(F)= (0.1)(0.20) /0.023= 0.85

El software para detectar fraude en las tarjetas telefónicas en los consumidores registrados todos los dias de areas metropolitanas donde se originan todos las llamadas

Se tiene que 1% de los usuarios legítimos hacen al dia llamadas que se originan en 2 o mas áreas metropolitanas, sin embargo 30% usuarios fraudulentos hacen al dia llamdas desde 2 o mas areas metropolitanas la proporcion de usuarios fraudulentos es 0.01% ,Si el mismo usuario en un dia hace 2 o mas llamadas desde 2 o mas areas metropolitanas,
Cual es la probabilidad de que sea un usuario fraudulento.

A´= P{usuario sea fraudulento}= 0.0001

A= P{Legitimo}= 1-0.01 = 0.999

B= {Llamando 2 o mas areas}

P(B/A)=0.01
P(B/A´)=0.3

P(A´/B)= p(B/A´)p(A´) / p(B) =
p(B)= p(B/A)p(A)+p(B/A´)p(A´)
= (0.3)(0.0001) / (0.1)(0.999)+(0.3)(0.0001) = 0.3

Problemas !!

1.-Se clasifican cada una de las tres partes para maquinadas ya sea por encima o por debajo de la especificada para cada una de ellas.
E= por encima de las especificaciones.
B= por de bajo de las especificaciones.
S={EEE,EBE,EEB,EBB,BBB,BEE,BBE,BEB}


3.-En la inspeccion final de fuentes de alimentacion electrónicas, pueden presentarse tres tipos de problemas: funcionales, menores y estéticos. Las fuentes defectuosas se clasifican adicionalmente con uno de estos tipos de problemas.
F´= fuente de alimentacion electronica no defectuosa
F= fuente de alimentacion electronica defectuosa
f= probelmas funcionales
m= problemas menores
e= problemas esteticos

S= {F´, Ff , Fm , Fe }

5.-en la fabricacion de una cinta de gradación digital, cada uno de las 24 pistas se clasifican de acuerdo con el numero de bits erróneos que contiene: ningún bit, o uno o mas bits erróneos.
N=ningun bit.
U= uno o mas bits
S={(1N,2N,3N,4N,5N,6N,7N,8N,9N,10N,11N,12N,13N,14N,15N,16N,17N,18N,19N,20N,21N,
22N,23N,24N,25N)(1U,2U,3U,4U,5U,6U,7U,8U,9U,10U,11U,12U,13U,14U,15U,16U,17U,
18U,19U,20U,21U,22U,23U,24U,25U) }

7.-Se utiliza una escala con dos decimales para medir, en toneladas, la cantidad de material que ingresa en una planta química.

S= {0.00,0.01,0.02,0.03,0.04,0.05,0.06,0.07,0.08,0.09,0.10,0.11,0.12,0.13,0.14,0.15,0.16,0.17,
0.18,0.19,0.20,0.21,0.22,0.23,0.24,0.25,0.26,0.27,0.28,0.29,0.30,0.31,0.32,0.33,0.34,0.35,0.36,
0.37,0.38,0.39,0.40,0.41,0.42,0.43,0.44,0.45,0.46,0.47,0.48,0.49,0.50,0.51,0.52,0.53,0.54,0.55,
0.56,0.57,0.58,0.59,0.60,0.61,0.62,0.63,0.64,0.65,0.66,0.67,0.68,0.69,0.70,0.71,0.72,0.73,0.74,
0.75,0.76,0.77,0.78,0.79,0.80,0.81,0.82,0.83,0.84,0.85,0.86,0.87,0.88,0.89,0.90,0.91,0.92,0.93,
0.94,0.95,0.96,0.97,0.98,0.99}

9.-Los poros de una varilla de fierro se clasifican como pequeños,medianos o grandes. El numero de poros de cada categoría se mide mediante la inspección visual de la muestra.
P= poros pequeños
M= poros medianos
G= poros grandes

S= { P , M , G }

11.-la orden de pedido de un automovil puede especificar transmision automatica o estandar, con o sin aire acondicionado, y uno de cuatro colores: rojo, azul, negro o blanco. Describe el conjunto de todos los pedidos posibles para este experimento.
A= transmicion automatica
B= transmicion estandar
C= con aire acondicionado
S= sin aire acondicionado
R=rojo
A= azul
N= negro
B= blanco

S={(ACR)(ACA)(ACN)(ACB)(ASR)(ASA)(ASN)(ASB)(BCR)(BCA)(BCN)(BCB)(BSR)(BSA)(BSN)(BSB) }

13.-la orden de compra de un sistema de computo puede especificar memoria de 4, 8 o 12 megabytes, y una capacidad en disco duro de 200,300 o 400 megabytes. Describe el conjunto de todas las posibles ordenes de compra.
4= 4 megabytes memoria
8= 8 megabytes memoria
12= 12 megabytes memoria
200= 200 megabytes disco duro
300= 300 megabytes disco duro
400= 400 megabytes disco duro

S={(4,200)(4,300)(4,400)(8,200)(8,300)(8,400)(12,200)(12,300)(12,400)}

15.-En un dispositivo de almacenamiento magnetico, se hacen tres intentos para leer datos antes de invocar el procedimiento de recuperacion de error, el cual se encarga de volver a posicionar lacabeza de lectura /escritura. El procedimiento de recuperacion de erro intenta posicionar la cabeza tres veces antes de enviar un mensaje de ¨operacion abortada¨ al operador. Se define los siguientes eventos
s: exito en la operacion de lectura.
f: falla en la operacion d la lectura.
F: falla en el procedimiento de recuperacion de erro.
S: exito en el procedimiento de recuperacion de error.
A: mensaje de operacion abortada enviado al operador.

Describa el espacio muestral de este experimento.

S={ (s)(fs)(ffs)(fffS)(fffFS)(fffFFS)(fffFFFA)}


17.-En una operacion de moldeo por inyeccion se evaluan varias caracteristicas de cada parte moldeada.
sean
A: el evento donde una parte cumple con los requerimientos de ajuste del cliente

B: el evento donde una parte satisface los requisitos de color del cliente

C: el evento donde ciertas longitudes critica cumple con los requerimientos del cliente.

a.- construya un diagrama de venn que incluya estos eventos, e indique en el la region en la que una parte cumple con todos los requerimientos del cliente. Sombree las areas que representan los siguientes eventos.

b.-AΩC

c.-A´UB

d.-AUB

19.-se selecciona una muestra de tres calculadoras de una linea de fabricacion y se clasifica cada calculadora como defectuosa o aceptables. sean A,B y C: eventos en los que, respectivamente, la primera, la segunda y tercera calculadora es defectuosa.
a.-Describa el espacio muestral de este experimento
S={ (DDD)(DDA)(DAD)(DAA)(AAA)(ADD)(ADA)(AAD)
Describa cada uno de los siguientes eventos
b.-A {(DDD)(DDA)(DAA)(DAD)}
c.-B {(DDD)(DDA)(ADD)(ADA)}
d.-AΩB{(DDD)(DDA)}
e.-BUC{(DDD)(DDA)(ADD)(ADA)(DAD)(AAD)}



21.-Se toman muestras de una pieza fundida de aluminio y se clasifican de acuerdo con el acabado de la superficie ( micropulgadas) y con las mediciones de longitu. A continuacion se resumen los resultados obtenidos con 100 muestras.



sea A el evento donde la muestra tiene acabado excelente
sea B el evento donde la muestra tiene una longitud excelente
a.-(A´Ω B)= 10
b.-(B´)= 15
c.-(A U B)= 92

23.-Continuacion del ejercicio 15.
utilice un diagrama de arbol para visualizar el espacio muestral.

25.-continuacion del ejercicio 19
utilice un diagrama de arbol para visualizar los datos.


27.-cada uno de los cinco posibles resultados de un experimento aleatorio es igualmente probable. El espacio muestral es (a,b,c,d,e), Sean A: el evento {a,b} y B: el evento {c,d,e}
determine lo siguiente:

a.-P(A)= a + b = 0.20 + 0.20 + = 0.4
b.-P(B) a + b = 0.20 + 0.20 + 0.20 = 0.60
c.-P(A´)= 0.60
d.-P(AUB) = 1
e.-P(AΩB) = no hay


29.-al seleccionar una parte para probarla, la posibilidad de que esta haya sido producida por una de entre seis herramienta de corte es la misma.
a.-¿cual es la probabilidad de que la parte provenga de la herramienta 1? 1/6
b.-¿cual es la probabilidad de que la parte provenga de la herramienta 3 o 5? 2/6
c.-¿cual es la probabilidad de que la parte no provenga de la herramienta 4? 5/6


31.-Un espacio muestral contiene 20 eventos probables. Si la probabilidad del evento A es 0.3,¿cuantos resultados contiene el evento A?
A=6

33.-el ultimo digito de una medicion de peso puede ser cualquiera numero de 0 a 9, todos ellos con la misma probabilidad.
a.-¿cual es la probabilidad de que el ultimo digito sea cero? 1/10
b.-¿cual es la probabilidad de que el ultimo digito sea mayor o igual que cinco? 5/10

35.-continuacion del ejercicio 22
Determine las siguientes probabilidades
a.-P(A)= 86/100
b.-P(B)= 89/100
c.-P(A´)= 14/100

37.-continuacion del ejercicio 23
determine las siguientes probabilidades
a.-P(A)= 82/100
b.-P(B)= 85/100
c.-P(A´)= 18/100

39.-continuacin del ejercicio 24
determine
a.-P(A)= 20/40
b.-P(B)= 35/40
c.-P(A´)= 20/40

1.- Un lote contiene 15 piezas de fierro fundido de un proveedor local y 25 de un proveedor de otro estado. Se eligen dos piezas alazar, sin remplazo, del lote de 40. Sean A: el evento donde la primera pieza selecciona es del proveedor local y B: el vento donde la segunda pieza seleecciona es del proveedor local.

Encontrar:
- P(A)
-P(B/A)
-P(A∩B)
-P(AUB)

*P(A) = 15/40 = .375
*P(B/A) = .23 / .675 = .34
*P(A∩B) = (.375) (.625) = .23
*P(AUB) = . 375 + . 375 = 1
2.-Considere los datos sobre contaminacion de obleas y posicion en un instrumento de deposicion electronica. Dados en ejemplo de la entrada anterior. Supongase que de este conjunto se toma alazar una oblea. Sea A: el evento donde la oblea tiene 2 o mas particulas y B: el evento donde la oblea esta en el centro de posicion.
Encontrar
-P(A)
-P(A/B)
-P(B)
-P(B/A)
-P(A∩B)
-P(AUB)





En el centro del

posicion
Instrumento de





No
Si

Contaminacion
No
514
68

Alta
Si
112
246


*P(A) = 122 / 940 = .12
*P(A/B) = 246 / 314 = .78
*P(B) = 314 / 940 = .33
*P(B/A) = 246 / 358 = .68
*P(A∩B) = 246 / 940 = .26
*P(AUB) = 122 + 314 - 246 = 190/940 = .20


3.- Un lote de 50 contenedores para jugo de naranja congelado contiene cinco que estan defectuosos. Se toman del lote dos alazar, sin remplazo.
-Cual es la prob. de que el segundo contenedor sea defectuoso si el primero lo fue ?
- Cual es la prob. de que los 2 contenedores sean defectuosos?.
- cual es la prob. de que ambos contenedores sean aceptables?

4.- Si (A/B)=1. Puede concluirse que A = B ? Dibuje diagrama de Venn para explicar esto:

5.- Supongase que P(A/B) = .4 y P(B) = .5 Calcule
P(A/B) = P(A∩B)/P(B)
P(A∩ B) = P(A/B) (PB) = (.4) (.5) = .2

P(A∩B) = P(A) P(B)
P(A) = P(A∩B)/P(B) = .2 / .5 = .4
P(A') = .6
-P(A'∩B) = P(A') P(B) = (.6) (.5) = .30

6.- La prob. de que falle un conector electrico que se mantiene seco durante el periodo de garantia, es 1%. Si el conector se humedece, la prob. de falla durante el periodo de garantia es 5%. Si el 90% de los conectores se mantienen secos y el 10% se humedece Que proporcion de conectores fallara durante el periodo de garantia?

A= Conectores secos (.9)
B= Conectores humedos (.1)
P(F/A) = .01
P(F/B) = .05

P(F) = P(F/A) P(A) + P(F/B) P(B) = (.01)(.9) + (.05)(.1)
= .009 + .005
= .0014



7.- En la fabricacion de adhesivo quimico, el 3% de todos los lotes contienen materia prima que proviene de dos embarques diferentes. Esto sucede cuando los tanques de almacenamiento son rellenados y lo que queda de un lote es insuficiente para llenar otro tanque.
Solo es necesario volver a procesar el 5% de los lotes con materia prima que proviene de un solo embarque. Sin embargo, la viscosidad de los lotes que contienen material prima de dos o mas embarques es mas dificil de controlar, el 40% de estos lotes requiere un procesamiento adicional para alcanzar la viscosidad requeridad.
Sea A: el evento en que un lote contiene materia prima de dos embarques diferentes, y B: el evento en que el lote requiere un precesamiento adicional.Determine las sig. Prob.

-P(A)
-P(A')
-P(B/A)
-P(B/A')
-P(A∩B)
-P(A∩B')
-P(B)

A = lote con materia prima de dos embarques diferentes (.03)
B = lote requiere de procesamiento adicional (.4)

*P(A) = .03
*P(A') = 1-.03 = .97
*P(B/A) = .012 / .03 = .4
*P(B/A') = .012 / .97 = .0123
*P(A∩B) = (.03) (.4) = .012
*P(A∩B') = (.03) (.6) = .018
*P(B) = .4


8.-Las muestras de vidrio de un laboratorio se colocan en empaques pequenos y ligeros o en empaques pesados y grandes. supongase que el 2% y el 1% de las muestras enviadas en empaques pequenos grandes , respectivamente, se rompen durante el trayecto a su destino. si el 60% de las muestras se envian en empaques grandes y el 40% en empaques pequenios, cual es la proporcion de muestras que se romperan durante el envio ?

A = paquetes grandes (.02)
B = paquetes pequenos (.01)
P(E/A) = .6
P(E/B) = .4

P(Rompe) = P(E/A) P(A) + P(E/B) P(B)
= (.6) (.02) + (.4) (.01)
= .012 + .004
= .016

9.- Si P(A) = .2 y P(B) = .2 Y los eventos A y B son mutuamente excuyectes, puede afirmarse que son independientes ? Si porque no tienen un interseccion definida


10.- La prueba de la tarjeta de un circuito impreso en la que se utiliza un patron de prueba aleatorio, un arreglo de 10 bits tiene la misma probabilidad de ser uno o cero. Supongase que los bits son independientes.
A.- Cual es la prob. de que todos los bits sean 1 =1
B.- Cual es la prob. de que todos los bits sean cero =1
C.- Cual es la prob. de que exactamente 5 bits sean uno y los otros 5 bits cero. 0.5,0.5


11.- Supongase que P(A/B) = .8; P(A) = .5 y P(B) .2, Calcule P(B/A)

P(B/A) = (.8) (.2) / .5 = .32
12.- Los laseres de semiconductor utilizados en los productos para almacenamiento optico requieren niveles de potencia mucho mayores para las operaciones de escritura que para las de lectura. entre mas grande es el nivel de potencia menor es la duracion del laser.
Los laseres utilizados en productor para el respaldo de discos magneticos de alta vlocidad se utilizan prncipalmente para escribir y la prob. de que su vida util sea mayor que cinco anos es .95. los laseres que se emplean en productos para almecenamiento invierten aprox. el mismo tiempo en operaciones de lectura y escritura, y la prob. de que la vida utils de estos sea mayor que cinco anos es .995. el 25% de los productos de cierto fabricante se utilizan para operaciones de respaldo, mientras que el 75% restanse se emplea para almacenamiento.
Sea A: el evento donde la vida util de laser es mayor que 5 y B : el evento donde el producto que emplea el laser se utiliza para respaldar la info.
Utilize diagrama de arbol para lo sig.
P(B)
P(B')
P(A/B)
P(A/B')
P(A∩B)
P(A∩B')
P(A)

A=Vida util del laser mayor que 5 (.95)
B= el laser se utiliza para respaldar la info (.25)
P(Alm/A) = {producto almacenamiento mayor 5} =.995
P (Ope/B) = {producto operaciones de respaldo} = .75

*P(B)= .25
*P(B') = .75
*P(A/B) = .23 / .25 = .92
*P(A/B') = .23/.75 = .30
*P(A∩B) = .23
*P(A∩B') = .71
*P(A) = .95

13.-Los clientes se encargan de evaluar los disenos preliminares de varios productos. En el pasado, el 95% de los productos que con mayor exito en el mercado recibieron buenas evaluaciones, el 60% de los productos con exito moderado recibieron buenas evaluaciones y el 10% de escaso exito recibieron buenas evaluaciones. Ademas el 40% de los productos han tenido mucho exito, el 35% un exito moderado y el 25% baja aceptacion.
-Cual es la prob. de que un producto obtenga una buena evaluacion ?

P(buena evaluacion) = P(E1/A) P(A) + P(E2/B) P(B) + P(E3/C) P(C)
= (.95) (.4) + (.6) (.35) + (.1) (.25)
= .38 + .21 + .025
= .615


14.- A continuacion se presenta una muestra de 200 maquinadas






Condicion de la
arista



Mayor de la necesaria
Menor de la necesaria

Profundidad de barrenado





burda
15
10

moderada
25
20

suave
60
70






-Cual es la prob. de que la parte seleccionada tenga una condicion moderada en la arista y una profundidad de barrenado menor que la requerida? P(AM/BMN) = 20/100 = .2

-Cual es la prob. de que la parte seleccionada tnga condicion moderada en la arista o una profundidad de barrenado menor que la requerida? P(AMUBMN) = 45 + 100 - 20 = 125/200 = .625

-Cual es la prob. de que la parte seleccionada no tenga una condicion moderada en la arista o que no tenga profundidad de barrenado menor que la requerida ? P(AM'UBMN') = 155 + 100 - 75 = 180 / 200 = .9

15.- Una placa de metal tiene 20 tornillos. Suponga que cinco de ellos no estan bien apretados. se escogen 4 de ellos alazar y sin remplazo, para determinar si estan bn apretados:
-Cual es la prob. de que los cuatro tornillos esten bien apretados ?
-Cual es la prob. de que almenos uno de ellos no este bien apretado?

16.- En una operacion de llenado automatico, la prob. de que el volumen de llenado sea incorrecto es .001 cuando el proceso se realiza a baja velocidad. cuando el proceso se efectua a alta velocidad. la prob. de un llenado incorrecto es .01. supongase que el 30% de los contenedores se llena cuando el proceso se efectua a alta velocidad, mientras que el reso se ejecuta el proceso se lleva a cabo a baja velocidad.


-Cual es la prob. de encontrar un contenedor lleno con un volumen incorrecto ? P(incorrecto)= (.001) (.3) + (.01) (.7) = .0073

17.- Una maquina de herramienta esta desocupada durante el 15% de tiempo total de uso. usted le pide al operador que haga uso de la herramienta en cinco ocasiones distintas durante un ano. supongase que las solicitudes de uso son eventos independientes.
-Cual es la prob. de que la herramienta este desocupada todas las veces que usted le pide al operador utilizarla?
- Cual es la prob. de que la herramienta este desocupada exactamente cuantro de las cinco veces en que usted pide al operador utilizarla ?
-Cual es la prob. de que la herramienta este desocupada al menos 3 d las 5 veces en que usted le pide al operador utilizarla ?

18.- La tabla siguiente es un resumen de las caracteristicas solicitadas en 940 ordenes de compra de computadoras :








Memoria
Adicional





No
Si

procesador opcional
No
514
68

a alta velocidad
Si
112
246






Sea A: el evento donde se pide una orden un procesador opcional a alta velocidad y B el evento donde se pide memoria adicional. calcule las sig. prob.
-P(AUB) = 358 + 314 - 246 = 426/940= .45
-P(A∩B) = 246/940 = .26
-P(A'UB) = 582 + 314 - 68 = 828/940 = .88
-P(A'∩B') = 514

19.- La alineacion entre la cinta magnetica y la cabeza de un sistema de almacenamiento en cinta magnetica, afecta el desempeno del sistema. Supongase que el 10% de las operaciones de lectura se ven atenuadas por una alineacion oblicua, el 5% de ellas son atenuadas por una alineacion descentrada y que las demas operaciones de lectura se realizan de manera correcta. La prob. de un error en la lectura por una alineacion oblicua es .01, por una alineacion descentrada .02 y .001 por una alineacion correcta.

-Cual es la prob. de tener un error de lectura ? P = (.1) (.01) + (.5)(.02) + (.85)(.001)
= .001 + .01 + .00085
= .01185


20.- El circuito siguiente trabaja si, solo si, existe una trayectoria de dispositivos en funcionamiento, de izquierda a derecha. supongase que los dispositivos fallan de manera independiente y que la prob. de falla de cada uno de ellos es la que se muestra en la figura. Cual es la prob. de que el circuito trabaje ?


= .92

Contraste de hipotesis unilateral y bilateral

Introducción teórica

Llamaremos hipótesis estadística a una afirmación respecto a una característica de una población. Contrastar una hipótesis es comparar las predicciones que se deducen de ella con la realidad que observamos: si hay coincidencia, dentro del margen de error admisible, mantendremos la hipótesis; en caso contrario, la rechazaremos. Rechazar una hipótesis implica sustituirla por otra capaz de explicar los datos observados.

Las siguientes afirmaciones son hipótesis estadísticas:

El tabaco produce cáncer de pulmón.

Disminuir los impuestos disminuye el fraude fiscal.

Las mujeres son más apasionadas que los hombres.

Estas tres hipótesis no se refieren a individuos particulares, sino al conjunto de elementos de una o varias poblaciones. En estos ejemplos vemos que el contraste de hipótesis requiere, como pasos previos:

Especificar la población de interés

Definir la variable a que nos referimos y como medirla.

Relacionar la hipótesis con los parámetros de la o las poblaciones.

Tipo de hipótesis

Las hipótesis estadísticas más habituales pueden clasificarse en dos grupos, según que:


Especifiquen un valor concreto o un intervalo para un parámetro de la distribución de una variable.

Establezcan la igualdad de algún parámetro en las distribuciones de una variable en dos o más poblaciones.

Un ejemplo del primer tipo es establecer que el tiempo medio diario invertido en desplazamiento por los estudiantes de una universidad es de 45 minutos. Del segundo, que el tiempo medio invertido es el mismo para los estudiantes de mañana y de la tarde.

Aunque la metodología para realizar el contraste es análoga en ambos casos, es importante distinguir entre ellos porque:

El contraste de una hipótesis respecto a un parámetro está muy relacionado con la construcción de intervalos de confianza, y tiene frecuentemente una respuesta satisfactoria en términos de estimación.

La comparación dedos o más poblaciones requiere en general un diseño experimental que asegure la homogeneidad de las comparaciones.

Hipótesis nula y alternativa

Llamaremos hipótesis nula, y la representaremos por H0, a la hipótesis que se desea contrastar. La hipótesis nula es en general una hipótesis simple que permite hacer

predicciones sin ambigüedad.

El nombre de nula proviene de que H0 representa la hipótesis que mantendremos a no ser que los datos indiquen su falsedad. “Nula” debe entenderse en el sentido de “neutra “. La hipótesis H0 nunca se considera probada, aunque puede ser rechazada por los datos. Por ejemplo, la hipótesis de que todos los elementos de una población tienen el mismo valor de una variable puede ser rechazada encontrando un elemento que no lo contenga, pero no puede ser “demostrada” más que estudiando todos los elementos de la población, tarea que puede ser imposible.

De igual manera, la hipótesis de que la media de una población es diez puede ser rechazada fácilmente si la media verdadera está muy lejos de diez analizando una muestra suficientemente grande. Sin embargo, no puede ser “demostrada” mediante muestreo, ya que es posible que la media difiera de diez en un valor pequeño imperceptible en el muestreo). Por esta razón no afirmamos que aceptamos H0, sino que no podemos rechazarla.

La hipótesis H0 se elige normalmente de acuerdo con el principio de simplicidad científica. Este principio establece que solamente debemos abandonar un modelo simple a favor de otro más complejo cuando la evidencia a favor de este último sea fuerte.

Si rechazamos H0, estamos implícitamente aceptando la hipótesis alternativa, Ha, que puede ser simplemente la negación de Ha. En algunos casos queremos decidir entre dos hipótesis simples y Ha está perfectamente determinada. Sin embargo, el caso más frecuente es que H0 sea simple, del tipo y Ha se tome de una de las siguientes formas:

Desconocemos antes de realizar el contraste en que dirección puede ser falsa H0. Entonces Ha es simplemente la negación de. Decimos entonces que el contraste es bilateral.

Conocemos la dirección en que H0 puede ser falsa. Es decir, si H0 es falsa, en ese caso forzosamente (o bien). Por ejemplo, se introduce una medida en una población que, si tiene efectos, puede mejorar una variable pero es imposible que pueda empeorarla. Tenemos entonces un contraste unilateral.

Estadístico de la prueba

Los datos se deben sintetiza en un estadística de la prueba. Dicho estadístico se calcula para ver si es razonablemente compatible con la hipótesis nula. Cuando se prueba una proporción el estadístico de la prueba es muy simple: se cuenta el número de éxitos en la muestra para encontrar el estadístico.

En las pruebas de hipótesis es necesario trazar una línea entre los valores del estadístico de la prueba que son relativamente probables dada la hipótesis nula y los valores que no lo son. ¿En qué valor del estadístico de la prueba comenzamos a decir que los datos apoyan a la hipótesis alternativa? Para contestar a esta pregunta se requiere conocer la distribución muestral del estadístico de la prueba. Los valores del estadístico de la prueba que son sumamente improbables bajo la hipótesis nula (tal como los determina la distribución muestral) forman una región de rechazo para la prueba estadística.

Región de rechazo

Llamaremos región de rechazo C asociada al contraste de hipótesis, al conjunto de valores muestrales bajo los cuales se rechaza la hipótesis nula.

Fijada la región de rechazo automáticamente se tiene la regla de decisión. Si nuestra muestra pertenece a la región de rechazo rechazamos H0 y si no, la aceptamos.

Precisamente el objetivo de la teoría de los contrastes o test de hipótesis es determinar para cada contraste cúal es la región de rechazo óptima en base a criterios que se especificarán.

Nivel de significación

Para realizar un contraste de hipótesis se define normalmente una medida de discrepancia, entre los datos muestrales y la hipótesis nula H0. Intuitivamente la discrepancia debe depender de la diferencia entre el valor del parámetro especificado por H0 y el valor del estimador calculado en la muestra. Para obtener una medida de discrepancia que no dependa de las unidades de medida de la variable podemos dividir esta diferencia por su valor promedio, que es el error típico de estimación del parámetro. Por tanto, la medida de discrepancia más habitual es:


Hay que decidir que discrepancias consideramos inadmisibles bajo H0, es decir, cual es la máxima diferencia entre el estimador y el parámetro que estamos dispuestos a considerar compatible con H0. Esta decisión depende de:

La distribución de la medida de discrepancia cuando es cierta H0. Como veremos, la medida de discrepancia tiene generalmente una distribución normal, de media cero y desviación típica uno, cuando H0 es cierta.

Que el contraste sea unilateral o bilateral. Para contrastes unilaterales interesan las discrepancias en una dirección, mientras que para los bilaterales interesan en ambas.

Una vez decidido que tipo de discrepancias llevan a rechazar H0, (que dependerá sólo de si el contraste es unilateral o bilateral) hay que determinar cual es la discrepancia máxima admisible, lo que dependerá de la distribución de la medida de discrepancia cuando es cierta H0.

Llamaremos p-valor del contraste, a la probabilidad de obtener una discrepancia mayor que la observada. Rechazaremos H0 cuando el p-valor sea pequeño (menor de 0,05 o 0,01)

Contraste de hipótesis


Supongamos que estamos en un contexto paramétrico. Es decir, x1 , x2 ...... xn es un muestreo aleatorio simple de f siendo un parámetro desconocido. Llamaremos al espacio paramétrico, es decir, el conjunto de los valores posibles para. En los contrastes de hipótesis, lo que interesa es determinar si podemos admitir queo debemos admitir quedondey constituyen una partición de. Ambas hipótesis se tratan de forma diferente. A la primera se le conoce como hipótesis nula. A la segundacomo hipótesis alternativa. Se suele simbolizar:



La hipótesis nula no se considera probada pero es la que mantendremos a menos que los datos evidencien lo contrario. Luego el problema en general es si admitimos o no H0.

Hipótesis simples y compuestas

Llamaremos hipótesis simples a aquellas que especifican un único valor para el parámetro (por ejemplo m=m0).

Llamaremos hipótesis compuestas a las que especifican un intervalo de valores (por ejemplo: m>m0 ; a< m
Se ha definido un contraste de hipótesis como:



donde (espacio paramétrico) y

Diremos que la hipótesis Hi es simple sicontiene un único punto, y diremos que la hipótesis Hi es compuesta si contiene más de un valor.

En particular, sientonces el tamaño del contraste es igual a


Entonces si un contraste tiene hipótesis nula simple, el tamaño del contraste es el valor de la función de potencia en, y por tanto la probabilidad de rechazar la hipótesis nula si es cierta será.

Contrastes de hipótesis simples

Diremos que un contraste es de hipótesis simple cuando las hipótesis nula y alternativa son de la forma,

En este caso. La función de potencia sólo tiene los valores y

Asociada a un contraste de hipótesis simples existen 2 tipos de error:


rechazar H0 cuando es cierta. (Error de Tipo I)

aceptar H0 cuando en realidad es falsa (Error de Tipo II)

Sies un contraste para frente a basada en una región crítica C, los dos tipos de errores tienen las siguientes probabilidades

(Probabilidad de error del tipo I)

(Probabilidad de error del tipo II)

El objetivo obvio es encontrar un contrasteque minimicey.Es claro que podemos conseguir contrastesque hagan. Para ello basta con aceptar siempre que C = 0. Pero entonces:

(todo el conjunto de resultados) = 1

Nuestro objetivo va a ser en general minimizar combinaciones lineales dey de.

Lema de Neyman - Pearson

En un contraste de hipótesis simple sea* el procedimiento que rechaza H0 cuando n · f0(x1...xn) < f1(x1...xn). Acepto H0 cuando n · f0(x1...xn) > f1(x1...xn) y toma cualquier decisión si se da n · f0(x1...xn) = f1(x1...xn).

Sies cualquier otro contraste tal que, entonces. Y si entonces

Contrastes uniformemente más potentes

Volviendo al problema general del contraste de hipótesis donde x1, x2, ...., xn es un muestreo aleatorio simple de una población f(x,, donde es un parámetro desconocido y, espacio paramétrico. Seauna partición de, es decir, dos conjuntos disjuntos cuya unión es. Estamos interesados en contrastar:



con un nivel de significación, es decir, y tal quesea máximo si.

Supongamos quecontiene al menos dos valores, es decir, la alternativa no es simple. En este caso puede ocurrir que no exista un procedimiento de contraste que maximice para todos los valores, es decir, puede ocurrir que si existencontrastes, tales que si yentonces y es decir que ambas regiones críticas tengan nively sin embargopero, es decir, la región crítica asociada amaximiza la función de potencia en y la región crítica asociada amaximiza la función de potencia en.

Sin embargo existen situaciones en las que aparece una región de tamaño menor o igual a y que maximiza la función de potencia en todos los valores de la hipótesis alternativa. A tal región crítica o a tal contraste se le denomina contraste o región crítica uniformemente más potente.

Definición: En un contraste , de nivel diremos que la región crítica asociada al contraste es uniformemente más potente si:

(es de nivel) y ,


Se pueden encontrar test uniformemente más potentes cuando la alternativa es de tipo unilateral y la verosimilitud de la muestra verifica la propiedad de poseer un cociente de verosimilitudes monótono en un cierto estadístico.

Definición: Sea x1, x2, ...., xn un muestreo aleatorio simple de f(x, y sea T un estadístico. Diremos que f(x, verifica o tiene cociente de verosimilitudes monótonas en T si dados y, entonces:

depende sólo de la muestra a través de T, y es creciente en T.

Contrastes de hipótesis compuestas con alternativa unilateral

Diremos que la hipótesis alternativa es unilateral cuando todos los valores del espacio paramétrico bajo la alternativa están a un lado de los valores bajo la hipótesis nula. En un contraste de este tipo las hipótesis se dan:

;

ó

;

En este tipo de contrastes van a existir unos test uniformemente más potentes.

Teorema: Sea x1, x2, ...., xn un muestreo aleatorio simple de f(x,, desconocido. Si f(x,tiene cociente de verosimilitud monótono en el estadístico T, entonces la región crítica es uniformemente más potente. Contraste uniformemente más potente para decidir entre:


a nivel de significaciónes:

donde c se determina para que

Contrastes insesgados

Cuando un contraste no es uniformemente más potente se le exigirá que al menos sea insesgado. Un contraste es insesgado cuando si es su función de potencia, se verifica que: y

Dualidad entre intervalos de confianza y contraste de hipótesis

Supongamos que (U,V) es un intervalo de confianza de nivel de confianza

1-para el parámetro
desconocido en la población



I.C. para = (U,V)

Si deseamos contrastar frente a, podemos elegir como región crítica: , es decir, rechazar la H0 si no pertenece al intervalo de confianza (U,V). Es lo mismo que decir que x1, ..., xn es tal que el valor del parámetro no está entre los valores U y V obtenidos a partir de la muestra.

¿Cuál es el nivel de significación asociado a esta región crítica?


Por lo que, si 1-es el nivel de confianza del intervalo, es el nivel de significación del contraste asociado.

En contrastes en los que la hipótesis nula es simple y la alternativa es bilateral, se puede utilizar el intervalo de confianza sobre el parámetro para obtener un contraste de nivel, siendo 1- el nivel de confianza del intervalo. Esta prácticaes usual en este tipo de contrastes, en los que no existe uno uniformemente más potente.

complementario del intervalo de confianza para condesconocido.

Por tanto, en estos casos, donde la hipótesis nula es simple y la alternativa bilateral, utilizaremos el intervalo de confianza para determinar el contraste asociado.Distribución del estimador en el muestreo

Un concepto importante en el planteamiento de la inferencia estadística es la de función de distribución de la muestra, definida en una muestra de tamaño n como:


siendo Ni el número de observaciones muestrales o iguales que xi, es decir, la frecuencia acumulada. Esta función presenta tantos saltos como valores muestrales haya, siendo la cuantía del salto cuando no se repite el valor xi, y cuando xi se repite ni veces, lo que indica que la función de distribución empírica es siempre discreta.

En la función de distribución empírica de la muestra podemos calcular todos sus momentos, uni o k-dimensionales, con respecto al origen o a la media, como en una población cualquiera y, para distinguirlos de los poblacionales, se les denominará momentos de la muestra o muestrales, representándolos por ar o mr (según sean respecto al origen o a la media).

Estadístico

Cualquier función de los elementos muestrales recibe el nombre de estadístico, siempre que no tenga parámetros desconocidos, designándose por T(X)=T(x1, ..., xn).

En particular, se trata con estadísticos muy concretos: los momentos muestrales, el valor mínimo o máximo de la muestra, etc...

Los elementos que integran la muestra son variables aleatorias, por lo que cualquier función de estos elementos, el estadístico, también será variable aleatoria. Como tal variable aleatoria el estadístico tendrá su propio campo de variación y su distribución de probabilidad determinados, a su vez, unívocamente por el campo de variación y la distribución de la población.

El campo de variación del estadístico es el conjunto de valores que toma para cada uno de los elementos del espacio muestral correspondiente. Si se considera un estadístico cualquiera, se toma todas las posibles muestras y en cada una de ellas se calcula su valor, se obtiene todos sus posibles valores, su campo de variación.

Dado que un estadístico se genera en el proceso de muestreo, su distribución de probabilidad recibe el nombre de distribución de probabilidad en el muestreo. El concepto de distribución.

Teorema Central del Límite

Sea x1, x2, ..., xn una sucesión de variables aleatorias independientes tales que existe su esperanza y su varianza siendo y . Entonces.


Como entonces

Alternativamente, el teorema central del límite se puede expresar:


Todo fenómeno aleatorio en cuya realización intervienen múltiples causas que actúen aditivamente e independientemente tiene distribución normal, siempre que las causas tengan esperanza y varianza finita.Errores de Tipo I y de Tipo II

Las hipótesis nula y alternativa son aseveraciones sobre la población que compiten entre sí. O la hipótesis nula H0 es verdadera, o lo es la hipótesis alternativa Ha, pero no ambas. En el caso ideal, el procedimiento de prueba de hipótesis debe conducir a la aceptación de H0 cuando sea verdadera y al rechazo de H0 cuando Ha sea verdadera. Desafortunadamente no siempre son posibles las conclusiones correctas. Como las pruebas de hipótesis se basan en información de muestra, debemos considerar la posibilidad de errores.



Condición de la población



H0 verdadera
Ha verdadera


Aceptar H0
Conclusión correcta
Error de tipo II

Conclusión





Rechazar H0
Error de tipo I
Conclusión correcta


Esta tabla muestra los dos tipos de errores que se pueden cometer en la prueba de hipótesis. El primer renglón muestra lo que puede suceder cuando la conclusión es aceptar H0. Si H0 es verdadera, esta conclusión es correcta. Sin embargo, si Ha es verdadera, hemos cometido un error de tipo II, es decir, hemos aceptado H0 siendo falsa. El segundo renglón muestra lo que puede suceder cuando la conclusión es rechazar H0. Si H0 es verdadera, hemos cometido un error de tipo I, es decir, rechazar H0 cuando es verdadera. Sin embargo, si Ha es verdadera, es correcto rechazar H0.

Si bien no se puede eliminar la posibilidad de errores en la prueba de hipótesis, sí podemos considerar la probabilidad de su ocurrencia. Se usa la siguiente notación estadística normal para indicar las probabilidades de cometer esos errores:

= probabilidad de cometer un error de tipo I.

= probabilidad de cometer un error de tipo II.

Función de potencia

Consideraremos un contraste de hipótesis:


con región crítica C. Definimos la función de potencia del test como la probabilidad de rechazar la H0 si es el verdadero valor del parámetro.

Por tanto

Entonces es la “mayor” de las probabilidades de rechazar la H0 cuando es cierta. Representa por tanto la máxima probabilidad de equivocarnos al rechazar H0.

Esta cantidad recibe el nombre de tamaño del contraste.

En ocasiones interesa acotar esta probabilidad por una cantidad más pequeña, en general 0,05 ; 0,01 ; ó 0,1 que recibe el nombre de nivel de significación del contraste. Entonces se exige que.

Intervalos de Confianza

Estimación por intervalos de confianza

Cuando estimamos un parámetro en una densidad f(x,) a partir de un muestreo aleatorio simple, lo hacemos a partir del valor de una variable aleatoria, que es estimador de. Aún cuando dicho estimador haya sido obtenido para que goce de buenas propiedades, por ejemplo ser insesgado, en la práctica nadie nos garantiza el grado de divergencia entre la estimación obtenida y el verdadero valor del parámetro desconocido. Por ello parece razonable controlar las estimaciones puntuales con otros parámetros de estimación en los cales se posee información paramétrica entre estimaciones y parámetros desconocidos. A tal efecto, surgen los intervalos de confianza para estimar parámetros. Un intervalos de confianza para un parámetro será un intervalo donde podemos controlar la probabilidad de que se encuentre verdaderamente.

Definición: Sea x1, x2, ...., xn un muestreo aleatorio simple de una población f(x,,donde es un parámetro desconocido. Un intervalo de confianza para viene dado por dos estadísticos U y V tales. es una cantidad que fija el investigador, usualmente los valores desuelen ser 0,1 ; 0,01 ó 0,05. Por defecto

= 0,05. U y V son estimadores por defecto y por exceso de. Diremos entonces que (U,V) es el intervalo de confianza para de nivel de confianza 1 -.

Una vez que se observen los valores muestrales ,su sustitución en (U,V) proporciona el intervalo numérico (U,V).

La interpretación del intervalo de confianza es el siguiente en una larga serie de determinaciones de intervalos basados en muestras distintas, el 100·(1-)% de tales intervalos contendría el valor de.

Intervalos de Confianza

Intervalo de Confianza para la media de una población normal con varianza conocida:

Sea x1, x2, ...., xn un muestreo aleatorio simple de N,desconocido yconocido. Se desea obtener un intervalo de confianza para de nivel. Como consecuencia del teorema de Fisher se sabe que . Por tanto .

Existe tal que

Pero

Por tanto:


Entonces:

I.C. = de nivel

Intervalo de confianza para la media de una normal con varianza desconocida

Sea x1, x2, ...., xn un muestreo aleatorio simple de N, ydesconocidos. Se desea obtener un intervalo de confianza para de nivel. Sabiendo como consecuencia del teorema de Fisher se sabe que y que , entonces:


Por tanto existe un tal que .

Además,

Entonces

y por tanto el intervalo de confianza para de niveles:

I.C. =

Intervalo de confianza para la varianza de una normal:

Sea x1, x2, ...., xn un muestreo aleatorio simple de Ncondesconocida. puede ser conocida o desconocida. Se desea obtener un intervalo de confianza para . Según el teorema de Fisher .

Existen cantidades Ka y Kb tales que:


. Pero y




Por tanto

Luego el intervalo de confianza será: I.C. = de nivel 1-

Si se desease obtener el intervalo de confianza para, es decir, para la desviación típica, como la raíz es función creciente, entonces:

I.C. = para, de nivel 1-

Intervalo de confianza para la diferencia de medias en poblaciones normales con varianza conocida:

Sea x1, x2, ...., xn un muestreo aleatorio simple de Ny y1, y2, ...., yn uno de N. Ambas muestras independientes. Supongamos que y son desconocidos y yconocidas. Se desea obtener un intervalo de confianza para

-de nivel 1-.

Sabemos que

Existe unverificando

Despejando:



Entonces

Luego el intervalo de confianza es:

I.C. = de nivel 1-


Intervalo de confianza para en una distribución de Poisson si la muestra es muy grande.

Sea x1, x2, ...., xn muestreo aleatorio simple de P() condesconocido y suponemos que n es muy grande.

El EMV dees que es EMV y alcanza la Cota de Cramer Rao. Como consecuencia:

(Teorema del límite central)

Existe por tanto tal que

Pero y


Como los extremos del intervalo de confianza dependen de, tal y como ha probado el resultado, no podemos obtener un intervalo de confianza. Existen dos alternativas:

Método aproximado: Consiste en sustituir en los extremos anteriores el valor de
por su EMV. Entonces:

I.C. = de nivel 1-.

Método exacto:

, pero



Como el coeficiente dees positivo, la parábola es cóncava y por tanto la ecuación anterior se satisface para los valores decomprendido entre las dos raíces.





Por lo que el intervalo de confianza es:

I.C. = de nivel 1-

Intervalo de confianza para el parámetro el parámetro p en una distribución binomial.

Sea x1, x2, ...., xn muestreo aleatorio simple de B(1, p). Se desea obtener un intervalo de confianza de nivel 1-para p en muestras grandes. El estimador de máxima verosimilitud para p (que es insesgado y de mínima varianza) es.

si n es grande

Como consecuencia existe untal que:

Despejando:



Primer procedimiento (aproximado): se sustituye el parámetro en los límites de confianza para el estimador de máxima verosimilitud.

I.C. = de nivel 1-

Segundo procedimiento (exacto):


Pero:





Luego, el intervalo de confianza será:

I.C. = Pruebas de hipótesis para diferentes parámetros y distribuciones

Contraste de la media de una población normal con varianza conocida

Contraste bilateral

Hipótesis nula:

Hipótesis alternativa:

Estadístico de contraste: en donde

siendo una muestra de la población considerada normal, varianza conocida y n = tamaño de la muestra.


Región crítica:

siendoel valor de la abscisa de la normal N(0,1), que deja a su derecha un área de probabilidad igual a.


Región de aceptación:

Se acepta H0 si


Contraste unilateral

Hipótesis nula:

Hipótesis alternativa:

Estadístico de contraste:

Región crítica:

siendoel valor de la abscisa de la normal N(0,1), que deja a su derecha un área de probabilidad igual a.


Región de aceptación:

Se acepta H0 si

Contraste de la media de una población normal con varianza desconocida

Contraste bilateral

Muestras grandes

Hipótesis nula:

Hipótesis alternativa:

Estadístico de contraste:

en donde


siendo una muestra de la población considerada normal, varianza conocida y

n = tamaño de la muestra.

Región crítica:

siendoel valor de la abscisa de la normal N(0,1), que deja a su derecha un área de probabilidad igual a.


Región de aceptación:

Se acepta H0 si

Muestras pequeñas

Hipótesis nula:

Hipótesis alternativa:

Estadístico de contraste:

Región crítica:

siendoel valor de la abscisa de la t de Student con n-1 grados de libertad, que deja a su derecha un área de probabilidad igual a.


Región de aceptación:

Se acepta H0 si

Contraste unilateral

a) Muestras grandes


Hipótesis nula:

Hipótesis alternativa:

Estadístico de contraste:

Región crítica:

siendoel valor de la abscisa de la normal N(0,1), que deja a su derecha un área de probabilidad igual a.


Región de aceptación:

Se acepta H0 si

b) Muestras pequeñas

Hipótesis nula:

Hipótesis alternativa:

Estadístico de contraste:

Región crítica:

siendoel valor de la abscisa de la t de Student conm (n-1) grados de libertad, que deja a su derecha un área de probabilidad igual a.


Región de aceptación:

Se acepta H0 si

Contraste para la varianza de una población normal

Contraste bilateral

Hipótesis nula:

Hipótesis alternativa:

Estadístico de contraste:

Región crítica:


en donde es el valor de la abscisa de una distribución con n-1 grados de libertad, que deja a su derecha un área de probabilidad igual a , yes el valor de la abscisa de una distribución con n-1 grados de libertad, que deja a su derecha un área de probabilidad igual a


Región de aceptación:

Se acepta H0 si

Contraste para el parámetro p de una distribución binomial.

Contraste bilateral

Hipótesis nula:

Hipótesis alternativa:

Estadístico de contraste:

en dondees el estimador centrado de p,frecuencia relativa del suceso del experimento dicotómico sobre el que se construye el modelo binomial, en una muestra de tamaño n.

Región crítica:

Región de aceptación:

Se acepta H0 si

Contraste unilateral

Hipótesis nula:

Hipótesis alternativa:

Estadístico de contraste:

Región crítica:

Región de aceptación:

Se acepta H0 si

Determinación del tamaño de la muestra

El problema de determinar el tamaño de la muestra es crucial dentro del contexto de la inferencia estadística. Se considera, para precisar, que un tamaño de la muestra excesivamente elevado puede elevar demasiado el tiempo y el dinero en el coste de la investigación y, por otra parte, si la muestra es demasiado pequeña podemos no encontrar el deseado grado de fiabilidad. En todos los intervalos de confianza considerados, la longitud del intervalo (límite superior - límite inferior) era inversamente proporcional al tamaño de la muestra, es decir, a mayor tamaño de la muestra menos longitud del intervalo y mayor precisión en nuestra estimación.

En los contextos de los intervalos de confianza, hay que considerar dos aspectos relacionados con la frase idea razonable. En primer lugar, ¿qué nivel de confianza se debe seleccionar? En segundo lugar, ¿cuál es el límite de tolerancia para la extensión del intervalo?

El nivel de confianza a menudo se fija en un 90% o 95%. En parte, esta es una costumbre tribal primitiva que ha pasado de generación en generación en los libros de estadística; en parte, es una traducción conveniente de una certeza razonable.

Considerando el intervalo de confianza para la media de una distribución normal de varianza conocida, un intervalo de confianza a un nivel 1- será:

I.C. =

El límite inferior es


El límite superior es


La longitud del intervalo es:

L = L.S. - L.I. =

Tres son las cantidades que determinan el valor del término más-menos: el nivel

de confianza deseado (que determina el valor z utilizado), la desviación estándary el tamaño de la muestra. Por lo general, el tamaño de la desviación estándar de la población se debe estimar. (En ocasiones, se toma una muestra inicial para estimar la desviación estándar; esta estimación proporciona una base para determinar el tamaño de la muestra adicional que se necesita). Para una tolerancia dada, una vez que el intervalo de confianza se ha especificado y se ha proporcionado una estimación de, el tamaño de muestra requerido se puede calcular por ensayo y error o con una fórmula.

Se plantea el problema de determinar el tamaño de la muestra n, de forma que la

diferencia entre la media poblacional y la media muestral sea en valor absoluto menor que un cierto error.



ahora bien, se sabe que en términos de probabilidad existe una probabilidad 1- de que esté en el intervalo aleatorio de confianza


es decir,


Entonces


y


Determinación del tamaño de la muestra para estimar la media de una población con varianza desconocida:

Partimos del intervalo de confianza de la media al nivel 1-


pudiendo expresarse este intervalo, también como



donde al ser, la expresión representa el error que se comete en el proceso de estimación. Si situamos dicho error en el límite aceptado, es decir, si hacemos


es posible determinar el tamaño de la muestra n a través de la igualdad


Determinación del tamaño de la muestra para estimar la proporción p de una población:

Análogamente al caso anterior, se considera el correspondiente intervalo de confianza para el parámetro p al nivel 1-


donde la probabilidad de cometer un error viene dada por


concluyéndose que


Si no se dispone de una estimación previa de p, por ejemplo, a través de una muestra piloto de tamaño reducido, se puede utilizar la cota superior

ya que máx Resumen


Un contraste de hipótesis requiere una hipótesis que genere predicciones sin ambigüedad de los valores de una variable en una población. Esta hipótesis se denomina hipótesis nula, H0, y el objetivo del contraste es comprobar si podemos rechazarla. Para ello se define una medida de discrepancia entre los datos y la hipótesis y se estudia su distribución cuando H0 es cierta. Se denomina p-valor a la posibilidad de que la medida de discrepancia tome su valor mayor que el observado. Se fija un nivel de significación, que representa la probabilidad de rechazar H0 cuando es cierta. Este nivel permite definir una región de rechazo. Si la discrepancia está en ella, rechazaremos H0. En caso contrario, la asumiremos provisionalmente. Los contrastes pueden ser unilaterales o bilaterales, en función de cómo establezcamos la hipótesis alternativa. Para realizar un contraste sobre la proporción en una población tomamos como medida de discrepancia el error relativo de estimación de acuerdo con H0. Si el tamaño muestral es grande, este error relativo sigue una distribución t de Student, a partir de la cual se construye la región de rechazo.

Bibliografía

Curso y ejercicios de Estadística

Ed. Alambra Univerdisad

Autor: V. Quesada y otros

Introducción a la estadística para las Ciencias Sociales

Ed. McGraw-Hill

Fundamentos de Inferencia Estadística

Ed. AC

Autor: Luis Ruiz-Maya y otros

Estadística para la administración y economía

Ed. Anderson Sweeney Williams

Estadística aplicada a la administración y economía

Ed. Addison-Wesley

Autor: Hildebrand y otros

Apuntes de la asignatura Estadística Matemática, de Estadística de la Universidad Complutense de Madrid, profesor Conrado Manuel

Indice

Introducción teórica 1

Contraste de hipótesis 5

Distribución del estimador en el muestreo 10

Errores de tipo I y de tipo II 12

Intervalos de confianza 14

Pruebas de hipótesis para diferentes parámetros y distribuciones 21

Determinación del tamaño de la muestra 26

Resumen 29

Bibliografía 30

Parte práctica 31

Estadística: Contraste de hipótesis

Intervalos de confianza

Intervalo de confianza

Se llama intervalo de confianza en estadística a un intervalo de valores alrededor de un parámetro muestral en los que, con una probabilidad o nivel de confianza determinado, se situará el parámetro poblacional a estimar. Si α es el error aleatorio que se quiere cometer, la probabilidad será de 1 − α. A menor nivel de confianza el intervalo será más preciso, pero se cometerá un mayor error.

Para comprender las siguientes fórmulas, es necesario conocer los conceptos de variabilidad del parámetro, error, nivel de confianza, valor crítico y valor α (véase Estimación por intervalos).

Un intervalo de confianza es, pues, una expresión del tipo [θ1, θ2] ó θ1 ≤ θ ≤ θ2, donde θ es el parámetro a estimar. Este intervalo contiene al parámetro estimado con una determinada certeza o nivel de confianza 1-α.

Al ofrecer un intervalo de confianza se da por supuesto que los datos poblacionales se distribuyen de un modo determinado. Es habitual que lo hagan mediante la distribución normal. La construcción de intervalos de confianza se realiza usando la desigualdad de Chebyshov





Ejemplos
Intervalo de confianza para la media de una población [editar]De una población de media μ y desviación típica σ se pueden tomar muestras de n elementos. Cada una de estas muestras tiene a su vez una media (). Se puede demostrar que la media de todas las medias muestrales coincide con la media poblacional:



Pero además, si el tamaño de las muestras es lo suficientemente grande, las medias muestrales tienden a una distribución normal (o gaussiana) con dicha media y una desviación típica dada por la siguiente expresión:



Si estandarizamos:



En esta distribución normal de medias se puede calcular el intervalo de confianza donde se encontrará la media poblacional si sólo se conoce una media muestral (), con una confianza determinada. Habitualmente se manejan valores de confianza del 95% y 99%. A este valor se le llamará 1 − α (debido a que α es el error que se cometerá, un término opuesto).

Para ello se necesita calcular el punto Xα / 2 —o mejor dicho su versión estandarizada Zα / 2— junto con su "opuesto en la distribución" X − α / 2. Estos puntos delimitan la probabilidad para el intervalo, como se muestra en la siguiente imagen:


Dicho punto es el número tal que:



Y en la versión estandarizada se cumple que:

Z − α / 2 = − Zα / 2

Así:



Haciendo operaciones es posible despejar μ para obtener el intervalo:



Resultado el intervalo de confianza:



Si σ no es conocida y n es grande (p.e. ≥ 30):

, donde s es la desviación típica de una muestra.

Aproximaciones para el valor Zα / 2 para los niveles de confianza estándar son 1,96 para 1 − α = 95% y 2,576 para 1 − α = 99%.

Estimacion Por Intervalos

Inferencia paramétrica:
o Estimación puntual: θ= θ0
λ = 1.25641 (como λ es la media de una Poisson, una posible estimación es la media
muestral)
o Estimación por intervalo: θ ∈ (a,b) con un % de confianza
Confidence Intervals for Llamadas diarias
-----------------------------------------
95.0% confidence interval for mean: 1.25641 +/- 0.39853 [0.857878;1.65494]
In practical terms we state with 95.0% confidence that the true mean Llamadas diarias is
somewhere between 0.857878 and 1.65494.
o Contraste de hipótesis: aceptamos θ= θ0 frente a θ ≠ θ0 (ó θ> θ0 ó θ< θ0), con nivel
de significación α.
En este tema, estudiaremos cómo hacer las estimaciones por intervalo, su fundamento teórico y su
interpretación.
Veamos un ejemplo primero:
Consideramos la variable X: estatura de los alumnos del grupo GM23, y queremos estimar su media.
Para ello consideramos la muestra (n=39) tomada al comienzo del curso.
Una estimación puntual vendría dada de forma natural por la media muestral: X =174.615 .
Si queremos una estimación por intervalo, una primera idea es buscar un intervalo tal que el valor
de la media esté en dicho intervalo con una probabilidad determinada (por ejemplo, 0.95).
Para hallar probabilidades, necesitamos una v.a. de la que conozcamos su distribución.
En este caso, por la definición de la v.a. X podemos considerar que sigue una distribución normal
N(μ,σ ) (además, la muestra obtenida pasa el contraste de la normal con p-valor de 0.66). Por
tanto, por las propiedades de la distribución normal, sabemos que el estimador de la media, X ,
también sigue una distribución normal: μ , σ 
 
 
X∼N
n
, es decir μ (0,1)
σ


X N
n

Estimacion Puntual

Introducción
Puede decirse que la Estadística es la ciencia que se preocupa de la recogida de datos, su organización y análisis, así como de las predicciones que, a partir de estos datos, pueden hacerse. Los aspectos anteriores hacen que pueda hablarse de dos tipos de Estadística: Descriptiva e Inferencial.

La Estadísitica Descriptiva se ocupa de tomar los datos de un conjunto dado, organizarlos en tablas o representaciones gráficas y del cálculo de unos números que nos informen de manera global del conjunto estudiado.

La Estadística Inferencial estudia cómo sacar conclusiones generales para toda la población a partir del estudio de una muestra.

Existen dos formas de hacer Inferencia Estadística:

- La estimación de parámetros.

- Las pruebas de hipótesis.

En la Inferencia Estadística hay varios métodos, pero en cualquier caso es necesario utilizar una muestra que represente a la población, esto se consigue con las Técnicas de muestreo.

A partir de una muestra nos proponemos dos objetivos:

- Obtener valores aproximados de parámetros poblacionales: Estimación puntual.

- La estimación por intervalos de confianza tiene por objeto proporcionar, a partir de la información recogida en la muestra, un intervalo que contenga con alto nivel de confianza (probabilidad), al parámetro objeto de nuestro interés. A partir de dicho intervalo obtendremos una medida del error máximo cometido al aproximar puntualmente el parámetro.

[editar]Estimación puntual
Esencialmente son tres los parámetros de interés:

- En el caso de que investiguemos una variable cuantitativa:

a) Para la media de la población μ tomaremos como aproximación la media de la muestra.


=



b) Para la varianza de la población σ2 tomaremos la cuasivarianza de la muestra.


=



- Si el estudio se centra en el estudio de un carácter cualitativo el parámetro de interés será la proporción de elementos de la población que pertenecen a cierta categoría C que lo aproximaremos con la correspondiente proporción en la muestra.