lunes, 1 de diciembre de 2008

UNIDAD V

Regresión y Correlación
La regresión y la correlación son dos técnicas estrechamente relacionadas y comprenden una forma de estimación.
En forma más especifica el análisis de correlación y regresión comprende el análisis de los datos muestrales para saber que es y como se relacionan entre si dos o mas variables en una población. El análisis de correlación produce un número que resume el grado de la correlación entre dos variables; y el análisis de regresión da lugar a una ecuación matemática que describe dicha relación.
El análisis de correlación generalmente resulta útil para un trabajo de exploración cuando un investigador o analista trata de determinar que variables son potenciales importantes, el interés radica básicamente en la fuerza de la relación. La correlación mide la fuerza de una entre variables; la regresión da lugar a una ecuación que describe dicha relación en términos matemáticos
Los datos necesarios para análisis de regresión y correlación provienen de observaciones de variables relacionadas.

Control de calidad
El control de la calidad se podría definir como las técnicas usadas para estandarizar algo. La función del control de calidad existe primordialmente como una organización de servicio, para conocer las especificaciones establecidas por la ingeniería del producto y proporcionar asistencia al departamento de fabricación, para que la producción alcance estas especificaciones. Como tal, la función consiste en la colección y análisis de grandes cantidades de datos que después se presentan a diferentes departamentos para iniciar una acción correctiva adecuada.
Importancia de la calidad
La calidad de un producto se puede ver desde dos enfoques tradicionales que son:
1. Perceptiva: Satisfacción de las necesidades del cliente.
2. Funcional: Cumplir con las especificaciones requeridas.
La mayoría de los tratadistas manejan más esta última, ya que es más objetiva y fácil de determinar; esto permite a las empresas implantar un sistema de calidad, que no es otra cosa que una estructura organizativa de responsabilidades en los procesos. Para implantar un sistema se tiene que establecer la misión empresarial, visión (coaching) y valores de la empresa, así como sus políticas de calidad de la misma. Para esto se requiere una auditoría y un estándar contra el cual auditar, como son las normas ISO 9000 o 14000 entre otras, que abordan temas tales como requisitos organizacionales, ambientales y de seguridad.
Control estadístico de la calidad
Quizás el control estadístico de la calidad sea una invención relativamente reciente surgida de la posguerra donde se dieron cuenta de la importancia de fabricar artículos estandarizados para asegurar su calidad.
Año Acontecimiento
1911
Se publica el trabajo de Frederick Winslow Taylor sobre medición del trabajo.
1930
Control de procesos y métodos estadísticos.
1956
Armand Feigenbaum crea el Control Total de Calidad.

1979
Philip Crosby publica su teoría de cero defectos, las 5S y sus 14 pasos.
1980
Walter A. Shewhart publica el control estadístico de procesos.
1986
William Edwards Deming desarrolla las ideas de Shewhart mediante el concepto de Calidad Total de Procesos y Kaizen.

1985
Joseph M. Juran desarrolla los conceptos de trilogía de la calidad y de costos de calidad.
1985
Kaoru Ishikawa desarrolla la ingeniería de procesos, sus 7 herramientas estadísticas y los círculos de calidad.
1988
Shigeru Misuno desarrolla el control de calidad a todo lo ancho de la compañía (CWQC).
1990
Administración por Calidad Total (TQM); uso de herramientas avanzadas como Seis Sigma.



DIAGRAMA DE DISPERSIÓN
OBJETIVO Y ALCANCE

Definir las reglas básicas a seguir para la construcción e interpretación de los Diagramas de Dispersión, resaltando las situaciones en que pueden, o deben, ser utilizados. Es de aplicación a todos aquellos estudios en los que es necesario analizar relaciones entre fenómenos o efectos y relaciones de causalidad. Su utilización será beneficiosa para el desarrollo de los proyectos abordados por los Equipos y Grupos de Mejora y por todos aquellos individuos u organismos que estén implicados en la mejora de la calidad. Además, se recomienda su uso como herramienta de trabajo dentro de las actividades habituales de gestión.



RESPONSABILIDADES

a) Grupo de trabajo o persona responsable del estudio:
- Recoger los datos.
- Seguir las reglas que se señalan en el procedimiento para la construcción del Diagrama de Dispersión y para su correcta interpretación.

b) Dirección de Ingeniería de Calidad
- Asesorar, a quien así lo solicite, en las bases para la construcción y utilización de los Diagramas de Dispersión.

DEFINICIONES / CONCEPTOS

CORRELACIÓN

Definición
Se entiende por correlación el grado de relación existente entre dos variables.

Concepto
Cuando entre dos variables existe una correlación total, se cumple que a cada valor de una, le corresponde un único valor de la otra (función matemática). Es frecuente que dos variables estén relacionadas de forma que a cada valor de una de ellas le correspondan varios valores de la otra. En este caso es interesante investigar el grado de correlación existente entre ambas.

DIAGRAMA DE DISPERSIÓN

Definición
Representación gráfica del grado de relación entre dos variables cuantitativas.

Características principales
A continuación se comentan una serie de características que ayudan a
comprender la naturaleza de la herramienta.

Impacto visual
Un Diagrama de Dispersión muestra la posibilidad de la existencia de
correlación entre dos variables de un vistazo.

Comunicación
Simplifica el análisis de situaciones numéricas complejas. Guía en la investigación El análisis de datos mediante esta herramienta proporciona mayor información que el simple análisis matemático de correlación, sugiriendo posibilidades y alternativas de estudio, basadas en la necesidad de conjugar datos y procesos en su utilización.


ESTRATIFICACIÓN

Definición
Separar un conjunto de datos en diferentes grupos o categorías, de forma que los datos pertenecientes a cada grupo comparten características comunes que definen la categoría.


PROCESO

DIAGRAMA DE FLUJO

CONSTRUCCIÓN

Pasos previos a la construcción de un Diagrama de
Dispersión

Paso 1: Elaborar una teoría admisible y relevante sobre la supuesta
relación entre dos variables Este paso previo es de gran importancia, puesto que el análisis de un Diagrama de Dispersión permite obtener conclusiones sobre la existencia de una relación entre dos variables, no sobre la naturaleza de dicha relación.

Paso 2: Obtener los pares de datos correspondientes a las dos variables
Al igual que en cualquier otra herramienta de análisis de datos, éstos son la base de las conclusiones obtenidas, por tanto cumplirán las siguientes

condiciones:
- En cantidad suficiente: Se consideran necesarios al menos 40 pares de datos para construir un Diagrama de Dispersión.
- Datos correctamente emparejados: Se estudiará la relación entre ambos.
- Datos exactos: Las inexactitudes afectan a su situación en el diagrama
desvirtuando su apariencia visual.
- Datos representativos: Asegúrese de que cubren todas las condiciones
operativas del proceso.
- Información completa: Anotar las condiciones en que han sido obtenidos los datos.

Paso 3: Determinar los valores máximo y mínimo para cada una de las
variables

Paso 4: Decidir sobre qué eje representará a cada una de las variables
Si se está estudiando una posible relación causa-efecto, el eje horizontal
representará la supuesta causa.

Paso 5: Trazar y rotular los ejes horizontal y vertical La construcción de los ejes afecta al aspecto y a la consiguiente interpretación del diagrama.

a) Los ejes han de ser aproximadamente de la misma longitud, determinando
un área cuadrada.

b) La numeración de los ejes ha de ir desde un valor ligeramente menor que el valor mínimo de cada variable hasta un valor ligeramente superior al valor máximo de las mismas. Esto permite que los puntos abarquen toda el área de registro de los datos.

c) Numerar los ejes a intervalos iguales y con incrementos de la variable
constantes.

d) Los valores crecientes han de ir de abajo a arriba y de izquierda a derecha en los ejes vertical y horizontal respectivamente.

e) Rotular cada eje con la descripción de la variable correspondiente y con su unidad de medida.

Paso 6: Marcar sobre el diagrama los pares de datos

a) Para cada par de datos localizar la intersección de las lecturas de los ejes
correspondientes y señalarlo con un punto o símbolo. Si algún punto coincide con otro ya existente, se traza un círculo concéntrico a
este último.

b) Cuando coinciden muchos pares de puntos, el Diagrama de Dispersión puede hacerse confuso. En este caso es recomendable utilizar una "Tabla de
Correlación" para representar la correlación.

c) En el caso en que se construye un Diagrama de Dispersión estratificado
separando los pares de datos, por ejemplo, según el turno de trabajo, lote de materia prima, etc.), deben escogerse símbolos que pongan de manifiesto los diferentes grupos de puntos de forma clara.

Paso 7: Rotular el gráfico
Se rotula el título del gráfico y toda aquella información necesaria para su correcta comprensión. En general, es conveniente incluir una descripción adicional del objeto de las medidas y de las condiciones en que se han realizado, ya que esta información puede ayudar en la interpretación del diagrama.

INTERPRETACIÓN

Posibles tipos de relaciones entre variables

El Diagrama de Dispersión se puede utilizar para estudiar:

- Relaciones causa-efecto.
-
Este es el caso más común en su utilización para la mejora de la calidad. Se
utiliza el diagrama a partir de la medición del efecto observado y de su posiblecausa.
-
- Relaciones entre dos efectos.
-
Sirve para contrastar la teoría de que ambos provienen de una causa común
desconocida o difícil de medir.

- Posibilidad de utilizar un efecto como sustituto de otro.
-
Se puede utilizar para controlar efectos difíciles o costosos de medir, a través de otros con medición más simple.

- Relaciones entre dos posibles causas.
-
Sirve para actuar sobre efectos de forma más simple o adecuada y para
analizar procesos complejos.

Proceso de interpretación

El Diagrama de Dispersión expresa el grado de relación entre dos variables, y dicha relación no necesariamente significa que una de ellas es la causa de la otra.

El análisis de un Diagrama de Dispersión es un proceso de cuatro pasos:

Primero: Elaborar una teoría admisible y relevante sobre la supuesta relación entre dos variables.

Segundo: Recoger datos y construir el Diagrama.

Tercero: Identificar y clasificar la pauta de correlación.

Cuarto: Discutir la teoría original y considerar otras explicaciones.
La construcción y clasificación del Diagrama de Dispersión es la parte central del proceso. No es ni el principio ni el final.

Pautas típicas de correlación

Correlación Fuerte

Los puntos se agrupan claramente alrededor de una línea imaginaria que pasa por el centro de la masa de los mismos. Estos casos sugieren que el control de una de las variables lleva al control de la otra.
Los datos parecen confirmar la teoría estudiada, pero hay que analizar la
existencia de otras posibles explicaciones admisibles y relevantes para dicha relación.

Correlación Fuerte, Positiva: El valor de la variable "Y" (eje vertical) aumenta claramente con el valor de la variable "X" (eje horizontal).

Correlación Fuerte, Negativa: El valor de "Y" disminuye claramente cuando "X" aumenta.

Correlación Débil

Los puntos no están suficientemente agrupados, como para asegurar que existe la relación. El control de una de las variables no necesariamente nos llevará al control de la otra.
Si lo que se busca es determinar las causas de un problema, se deben buscar otras variables con una relación mayor o más relevante sobre el efecto.

Correlación Débil, Positiva: El valor de la variable "Y" (eje vertical) tiende a
aumentar cuando aumenta el valor de la variable "X" (eje horizontal)

Correlación Débil, Negativa: El valor de "Y" tiende a disminuir cuando aumenta el valor de "X".

Correlación compleja

El valor de la variable "Y" parece estar relacionado con el de la variable "X",
pero esta relación no es simple o lineal. En este caso se estudia la relación más profundamente (¿Hay alguna ley no lineal que explique esta relación ?. ¿ Es esta relación el resultado de componer varias relaciones ?).

Sin correlación

Para cualquier valor de la variable "X", "Y" puede tener cualquier valor. No
aparece ninguna relación especial entre ambas variables. En este caso, nuestra teoría no es correcta y se deben buscar otros tipos de
relaciones.

Posibles problemas y deficiencias de interpretación

a) Correlación sin soporte lógico

Los Diagramas de Dispersión muestran solamente relaciones, no prueban
relaciones causales. Ha de haber una explicación lógica y admisible para
establecer una relación causa-efecto..

b) Recorrido de los datos

En el análisis del Diagrama se limitará su interpretación al recorrido de las
observaciones. Generalizar las pautas de correlación para valores fuera de los límites del Grafico puede llevar a conclusiones completamente erróneas. Si se necesita conocer la relación entre dos variables para un rango de valores determinado, hay que obtener datos alrededor de ese rango.

c) Efecto de la escala

Las escalas de los dos ejes influyen notablemente sobre la interpretación del Diagrama de Dispersión. Escalas deficientes en alguno de los ejes puede enmascarar una relación o hacer ver relaciones inexistentes.

d) Factores de confusión

Con el Diagrama de Dispersión tratamos de estudiar una relación entre dos
variables. Debemos asegurarnos de que la correlación que observamos no sea debida a una variable distinta de la que estamos registrando.
La forma ideal para tratar los factores de confusión es antes de la recogida de datos. Identificar los posibles factores de confusión y disponer la toma de datos de forma que se mantengan razonablemente constantes.
Los factores de confusión se medirán en la toma de datos, y si no ha sido
posible mantenerlos constantes, se construirá un Diagrama de Dispersión
estratificado según las condiciones de dichos factores.

e) Problemas con los datos

Si los datos son deficientes, la interpretación del Diagrama de Dispersión tiene, por fuerza, que ser deficiente.

UTILIZACIÓN

El Diagrama de Dispersión es una herramienta útil para comprobar (aceptar o rechazar) teorías respecto a la supuesta existencia de una relación entre dos variables.

Utilización en las fases de un proceso de solución de problemas
Hay tres puntos de dicho proceso en los que el Diagrama de Dispersión puede ser una herramienta útil:
- Durante la fase de diagnóstico, para ensayar teorías sobre las causas e
identificar las causas raíz.
- Durante la fase de corrección, en el diseño de soluciones.
- Para el diseño de un sistema de control que mantenga los resultados de una acción de mejora de la calidad.


REGRESIÓN SIMPLE Y CORRELACIÓN
La Regresión y la correlación son dos técnicas estadísticas que se pueden utilizar para solucionar problemas comunes en los negocios.
Muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna Relación Funcional entre dos o más variables, donde una variable depende de la otra variable.
Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en un modelo de Regresión Simple.
"Y es una función de X"
Y = f(X)
Como Y depende de X,
Y es la variable dependiente, y
X es la variable independiente.
En el Modelo de Regresión es muy importante identificar cuál es la variable dependiente y cuál es la variable independiente.
En el Modelo de Regresión Simple se establece que Y es una función de sólo una variable independiente, razón por la cual se le denomina también Regresión Divariada porque sólo hay dos variables, una dependiente y otra independiente y se representa así:
Y = f (X)
"Y está regresando por X"
La variable dependiente es la variable que se desea explicar, predecir. También se le llama REGRESANDO ó VARIABLE DE RESPUESTA.
La variable Independiente X se le denomina VARIABLE EXPLICATIVA ó REGRESOR y se le utiliza para EXPLICAR Y.

ANÁLISIS ESTADÍSTICO: REGRESIÓN LINEAL SIMPLE
En el estudio de la relación funcional entre dos variables poblacionales, una variable X, llamada independiente, explicativa o de predicción y una variable Y, llamada dependiente o variable respuesta, presenta la siguiente notación:
Y = a + b X + e
Donde:
a es el valor de la ordenada donde la línea de regresión se intercepta con el eje Y.
b es el coeficiente de regresión poblacional (pendiente de la línea recta)
e es el error
SUPOSICIONES DE LA REGRESIÓN LINEAL
1. Los valores de la variable independiente X son fijos, medidos sin error.
2. La variable Y es aleatoria
3. Para cada valor de X, existe una distribución normal de valores de Y (subpoblaciones Y)
4. Las variancias de las subpoblaciones Y son todas iguales.
5. Todas las medias de las subpoblaciones de Y están sobre la recta.
6. Los valores de Y están normalmente distribuidos y son estadísticamente independientes.
ESTIMACIÓN DE LA ECUACIÓN DE REGRESIÓN MUESTRAL
Consiste en determinar los valores de "a" y "b " a partir de la muestra, es decir, encontrar los valores de a y b con los datos observados de la muestra. El método de estimación es el de Mínimos Cuadrados, mediante el cual se obtiene:


Luego, la ecuación de regresión muestral estimada es

Que se interpreta como:
a es el estimador de a
Es el valor estimado de la variable Y cuando la variable X = 0
b es el estimador de b , es el coeficiente de regresión
Está expresado en las mismas unidades de Y por cada unidad de X. Indica el número de unidades en que varía Y cuando se produce un cambio, en una unidad, en X (pendiente de la recta de regresión).
Un valor negativo de b sería interpretado como la magnitud del decremento en Y por cada unidad de aumento en X.
3. ANTECEDENTES DEL PROBLEMA
Los datos de la siguiente tabla representan las estaturas (X, cm) y los pesos (Y, kg) de una muestra de 12 hombres adultos. Para cada estatura fijada previamente se observó el peso de una persona seleccionada de entre el grupo con dicha estatura, resultando:
X 152 155 152 155 157 152 157 165 162 178 183 178
Y 50 61.5 54.5 57.5 63.5 59 61 72 66 72 84 82
Con estos datos vamos a plantear una ecuación de regresión simple que nos permita pronosticar los pesos conociendo las tallas. Utilizaremos a = 0.05, y contrastaremos nuestra hipótesis con la prueba F.
4. DESARROLLO
• Representación matemática y gráfica de los datos:
Representación Matemática
estatura pesos Regresión Lineal I.C. para la media I. C. individual
datos x y x ^2 y ^2 xy y est. Residual L. I. L. S. L. I. L. S.
1 152 50 23104 2500 7600 56.43 -6.43 53.07 59.79 47.30 65.56
2 155 61.5 24025 3782.3 9532.5 59.03 2.47 56.09 61.97 50.05 68.02
3 152 54.5 23104 2970.3 8284 56.43 -1.93 53.07 59.79 47.30 65.56
4 155 57.5 24025 3306.3 8912.5 59.03 -1.53 56.09 61.97 50.05 68.02
5 157 63.5 24649 4032.3 9969.5 60.77 2.73 58.05 63.48 51.85 69.68
6 152 59 23104 3481 8968 56.43 2.57 53.07 59.79 47.30 65.56
7 157 61 24649 3721 9577 60.77 0.23 58.05 63.48 51.85 69.68
8 165 72 27225 5184 11880 67.71 4.29 65.17 70.24 58.85 76.57
9 162 66 26244 4356 10692 65.11 0.89 62.65 67.56 56.27 73.94
10 178 72 31684 5184 12816 78.99 -6.99 74.65 83.33 69.45 88.52
11 183 84 33489 7056 15372 83.32 0.68 78.01 88.64 73.31 93.34
12 178 82 31684 6724 14596 78.99 3.01 74.65 83.33 69.45 88.52
Representación Gráfica


5. HIPÓTESIS
HO: No hay relación entre la variable peso y la variable estatura.
HA: Hay relación entre la variable peso y la variable estatura.
Tabla de análisis de varianza
Fuente de Grados de Suma de Cuadrados
Variación libertad cuadrados medios estadístico F
Debido a
la regresión 1 1061.1 1061.1 73.08
error 10 145.2 14.5
total 11 1206.3
Se obtiene un valor F = 73.08 > 4.96, con lo cual se rechaza la hipótesis nula y aceptamos que la variable estatura está relacionada con la variable peso con un 95% de confianza.
• De acuerdo al desarrollo matemático hemos obtenido los siguientes cálculos:



Lo que nos permite obtener los coeficientes a y b.
Luego,
b = 1223 / 1409.667 = 0.8676
a = 65.25 – (0.8676) (162.167) = -75.446
6. INTERPRETACIÓN
• La ecuación de regresión estimada es:
Coeficiente de correlación: R= 0.9379
Coeficiente de determinación: R²=0.8796
El valor de b = 0.8676 indica el incremento del peso en kilogramos, en promedio, por cada centímetro de aumento en la estatura de los hombres adultos.
El valor de a, no tiene interpretación práctica en el ejemplo, se interpretaría como el valor obtenido, en promedio, para el peso Y, cuando la estatura es 0.
Utilizando la ecuación de regresión para estimar o predecir valores de la variable Y: Para una talla de 180 se obtiene un peso de 80.7 kg.
¿Cuánto se espera que pese (en promedio) una persona que mide 1.60 m?
Sustituyendo el valor de interés en la ecuación:

Se obtiene:

7. CONCLUSIÓN
La ecuación de Regresión Lineal estimada para las variables estatura y peso muestran, de acuerdo a la prueba F, relación.
Esta relación se ha estimado en un R = 93.7, que indica una fuerte relación positiva.
Además si consideramos el coeficiente de determinación R² = 87.9 podemos indicar que el 87.9% de las variaciones que ocurren en el peso se explicarían por las variaciones en la variable estatura.





Métodos de mínimos cuadrados.
El procedimiento mas objetivo para ajustar una recta a un conjunto de datos presentados en
un diagrama de dispersión se conoce como "el método de los mínimos cuadrados". La recta
resultante presenta dos características importantes:
1. Es nula la suma de las desviaciones verticales de los puntos a partir de la recta de ajuste
∑ (Yー - Y) = 0.
2. Es mínima la suma de los cuadrados de dichas desviaciones. Ninguna otra recta daría
una suma menor de las desviaciones elevadas al cuadrado ∑ (Yー - Y)² → 0
(mínima).
El procedimiento consiste entonces en minimizar los residuos al cuadrado Ci²

Re emplazando nos queda



La obtención de los valores de a y b que minimizan esta función es un problema que se puede resolver recurriendo a la derivación parcial de la función en términos de a y b: llamemos G a la función que se va a minimizar:

Tomemos las derivadas parciales de G respecto de a y b que son las incógnitas y las igualamos a cero; de esta forma se obtienen dos ecuaciones llamadas ecuaciones normales del modelo que pueden ser resueltas por cualquier método ya sea igualación o matrices para obtener los valores de a y b.



Derivamos parcialmente la ecuación respecto de a




Primera ecuación normal

Derivamos parcialmente la ecuación respecto de b





Segunda ecuación normal

Los valores de a y b se obtienen resolviendo el sistema de ecuaciones resultante. Veamos el siguiente ejemplo:
En un estudio económico se desea saber la relación entre el nivel de instrucción de las personas y el ingreso.
EJEMPLO 1
Se toma una muestra aleatoria de 8 ciudades de una región geográfica de 13 departamentos y se determina por los datos del censo el porcentaje de graduados en educación superior y la mediana del ingreso de cada ciudad, los resultados son los siguientes:
CIUDAD : 1 2 3 4 5 6 7 8
% de (X)
Graduados : 7.2 6.7 17.0 12.5 6.3 23.9 6.0 10.2
Ingreso (Y)
Mediana : 4.2 4.9 7.0 6.2 3.8 7.6 4.4 5.4 (0000)

Tenemos las ecuaciones normales

∑y = na + b∑x
∑xy = a∑x + b∑x²

Debemos encontrar los términos de las ecuaciones
∑y, ∑x, ∑xy, ∑ x² Por tanto procedemos de la siguiente forma:

Y X XY X²

4.2 7.2 30.24 51.84
4.9 6.7 32.83 44.89
7.0 17.0 119.00 289.00
6.2 12.5 77.50 156.25
3.8 6.3 23.94 39.69
7.6 23.9 181.64 571.21
4.4 6.0 26.40 36.00
5.4 10.2 55.08 104.04
43.5 89.8 546.63 1292.92

Sustituyendo en las ecuaciones los resultados obtenidos tenemos: 43.50 = 8a + 89.8b
546.63 = 89.8a + 1292.92b
multiplicamos la primera ecuación por (-89.8) y la segunda por (8) así:
________________________________________
43.50 = 8a + 89.8b (-89.8) 546.63 = 89.8a + 1292.92b (8)
________________________________________
-3906.30 = -718.4a - 8064.04b 4373.04 = 718.4a + 10343.36b
466.74 = -0- 2279.32b


Este valor de b lo reemplazamos en cualquiera de las ecuaciones para obtener a así:

Reemplazando b = 0.20477 en la primera ecuación normal

43.5 = 8a + 89.8 (0.20477) 43.5 = 8a + 18.3880 43.5 - 18.3880 = 8a 25.1120 = 8a

Tenemos entonces que los coeficientes de regresión son : a = 3.139 y b = 0.20477. Por tanto la ecuación de regresión nos queda:

Significa entonces que por cada incremento en una unidad en X el valor de se aumenta en 0.20477
Esta ecuación permite estimar el valor de para cualquier valor de X, por ejemplo: Una ciudad que tiene un porcentaje de graduados a nivel superior del 28% la mediana de ingreso para la ciudad será:



Los valores a y b también se pueden obtener de la siguiente forma: partiendo de las ecuaciones normales tenemos:


Si dividimos todos los términos de la ecuación (1) entre n nos queda:


Tenemos entonces que el primer termino es el segundo termino es la incógnita a y el tercer termino es la incógnita b multiplicada por por tanto nos queda:

entonces



Reemplazando a en la ecuación (2) tenemos











a = 5.4375 – 0.20477 (11.2250) = 5.4375 – 2.2985 = 3.139
Se debe tener presente la diferencia entre el valor de obtenido con la ecuación de regresión y el valor de Y observado. Mientras es una estimación y su bondad en la estimación depende de lo estrecha que sea la relación entre las dos variables que se estudian; Yー es el valor efectivo, verdadero obtenido mediante la observación del investigador. En el ejemplo Yー es el valor mediano del ingreso que obtuvo el investigador
utilizando todos los ingresos observados en cada ciudad y es el valor estimado con base en el modelo lineal utilizado para obtener la ecuación de regresión
Los valores estimados y observados pueden no ser iguales por ejemplo la primera ciudad tiene un ingreso mediano observado de Yー = 4.2 al reemplazar en la ecuación el porcentaje
de graduados obtenemos un estimado de

Gráficamente lo anterior se puede mostrar así:


Claramente se observa en la gráfica que hay una diferencia entre el valor efectivo de Yー y el valor estimado; esta diferencia se conoce como error en la estimación, este error se puede medir. A continuación se verá el procedimiento.




Contraste de hipótesis
El contraste de hipótesis (también denominado test de hipótesis o prueba de significación) es una técnica de inferencia estadística para juzgar si una propiedad que se supone cumple una población estadística es compatible con lo observado en una muestra de dicha población.
Introducción
Si sospechamos que una moneda ha sido trucada para que se produzcan más caras que cruces al lanzarla al aire, podríamos realizar 30 lanzamientos, tomando nota del número de caras obtenidas. Si obtenemos un valor demasiado alto, por ejemplo 25 o más, consideraríamos que el resultado es poco compatible con la hipótesis de que la moneda no está trucada, y concluiríamos que las observaciones contradicen dicha hipótesis.
La aplicación de cálculos probabilísticos permite determinar a partir de qué valor debemos rechazar la hipótesis garantizando que la probabilidad de cometer un error es un valor conocido a priori. Las hipótesis pueden clasificarse en dos grupos, según:
1. Especifiquen un valor concreto o un intervalo para los parámetros del modelo.
2. Determinen el tipo de distribución de probabilidad que ha generado los datos.
Un ejemplo del primer grupo es la hipótesis de que la media de una variable es 10, y del segundo que la distribución de probabilidad es la distribución normal.
Aunque la metodología para realizar el contraste de hipótesis es análoga en ambos casos, distinguir ambos tipos de hipótesis es importante puesto que muchos problemas de contraste de hipótesis respecto a un parámetro son, en realidad, problemas de estimación, que tienen una respuesta complementaria dando un intervalo de confianza (o conjunto de intervalos de confianza) para dicho parámetro. Sin embargo, las hipótesis respecto a la forma de la distribución se suelen utilizar para validar un modelo estadístico para un fenómeno aleatorio que se está estudiando.
Planteamiento clásico del contraste de hipótesis
Se denomina hipótesis nula a la hipótesis que se desea contrastar. El nombre de “nula” indica que representa la hipótesis que mantendremos a no ser que los datos indiquen su falsedad, y puede entenderse, por tanto, en el sentido de “neutra”. La hipótesis nunca se considera probada, aunque puede ser rechazada por los datos. Por ejemplo, la hipótesis de que dos poblaciones tienen la misma media puede ser rechazada fácilmente cuando ambas difieren mucho, analizando muestras suficientemente grandes de ambas poblaciones, pero no puede ser “demostrada” mediante muestreo, puesto que siempre cabe la posibilidad de que las medias difieran en una cantidad δ lo suficientemente pequeña para que no pueda ser detectada, aunque la muestra sea muy grande.
A partir de una muestra de la población en estudio, se extrae un estadístico (esto es, una valor que es función de la muestra) cuya distribución de probabilidad esté relacionada con la hipótesis en estudio y sea conocida. Se toma entonces el conjunto de valores que es más improbable bajo la hipótesis como región de rechazo, esto es, el conjunto de valores para el que consideraremos que, si el valor del estadístico obtenido entra dentro de él, rechazaremos la hipótesis.
La probabilidad de que se obtenga un valor del estadístico que entre en la región de rechazo aún siendo cierta la hipótesis puede calcularse. De esta manera, se puede escoger dicha región de tal forma que la probabilidad de cometer este error sea suficientemente pequeña.
Siguiendo con el anterior ejemplo de la moneda trucada, la muestra de la población es el conjunto de los treinta lanzamientos a realizar, el estadístico escogido es el número total de caras obtenidas, y la región de rechazo está constituida por los números totales de caras iguales o superiores a 25. La probabilidad de cometer el error de admitir que la moneda está trucada a pesar de que no lo está es entonces: 5/30
Enfoque actual de los contrastes de hipótesis
El enfoque actual considera siempre una hipótesis alternativa a la hipótesis nula. De manera explícita o implícita, la hipótesis nula, a la que se denota habitualmente por , se enfrenta a otra hipótesis que denominaremos hipótesis alternativa y que se denota . En los casos en los que no se especifica de manera explícita, podemos considerar que ha quedado definida implícitamente como “ es falsa”.
Si por ejemplo deseamos comprobar la hipótesis de que dos distribuciones tienen la misma media, estamos implícitamente considerando como hipótesis alternativa “ambas poblaciones tienen distinta media”. Podemos, sin embargo considerar casos en los que no es la simple negación de . Supongamos por ejemplo que sospechamos que en un juego de azar con un dado, este está trucado para obtener 6. Nuestra hipótesis nula podría ser “el dado no está trucado” que intentaremos contrastar, a partir de una muestra de lanzamientos realizados, contra la hipótesis alternativa “el dado ha sido trucado a favor del 6”. Cabría realizar otras hipótesis, pero, a los efectos del estudio que se pretende realizar, no se consideran relevantes. Un test de hipótesis se entiende, en el enfoque moderno, como una función de la muestra, corrientemente basada en un estadístico. Supongamos que se tiene una muestra de una población en estudio y que se han formulado hipótesis sobre un parámetro θ relacionado con la distribución estadística de la población. Supongamos que se dispone de un estadístico T(X) cuya distribución con respecto a θ, se conoce. Supongamos, también, que las hipótesis nula y alternativa tienen la siguiente formulación:

Un contraste, prueba o test para dichas hipótesis sería una función de la muestra de la siguiente forma:

Donde significa que debemos rechazar la hipótesis nula, (aceptar ) y , que debemos aceptar (o que no hay evidencia estadística contra ). A Ω se la denomina región de rechazo. En esencia, para construir el test deseado, basta con escoger el estadístico del contraste T(X) y la región de rechazo Ω.
Se escoge Ω de tal manera que la probabilidad de que T(X) caiga en su interior sea baja cuando se da .



Correlación
En probabilidad y estadística, la correlación indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación si al aumentar los valores de A lo hacen también los de B y viceversa. La correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad (Véase Cum hoc ergo propter hoc).

Fuerza, sentido y forma de la correlación
La relación entre dos variables cuantitativas queda representada mediante la línea de mejor ajuste, trazada a partir de la nube de puntos. Los principales componentes elementales de una línea de ajuste y, por lo tanto, de una correlación, son la fuerza, el sentido y la forma:
• La fuerza mide el grado en que la línea representa a la nube de puntos: si la nube es estrecha y alargada, se representa por una línea recta, lo que indica que la relación es fuerte; si la nube de puntos tiene una tendencia elíptica o circular, la relación es débil.
• El sentido mide la variación de los valores de B con respecto a A: si al crecer los valores de A lo hacen los de B, la relación es positiva; si al crecer los valores de A disminuyen los de B, la relación es negativa.
• La forma establece el tipo de línea que define el mejor ajuste: la línea recta, la curva monotónica o la curva no monotónica.
Coeficientes de correlación
Existen diversos coeficientes que miden el grado de correlación, adaptados a la naturaleza de los datos. El más conocido es el coeficiente de Pearson (introducido en realidad por Francis Galton), que se obtiene dividiendo la covarianza de dos variables por el producto de sus desviaciones estándar.
• Coeficiente de correlación de Pearson
• Coeficiente de correlación de Spearman
• Correlación canónica
Interpretación geométrica
Ambas series de valores et pueden estar consideradas como vectores en un espacio a n dimensiones. Reemplacemoslos por vectores centrados:
et .

El coseno del ángulo alfa entre estos vectores es dada por la fórmula siguiente :

Pues cos(α) es el coeficiente de correlación de Pearson.
¡ El coeficiente de correlación es el coseno entre ambos vectores centrados!
Si r = 1, el ángulo alfa = 0, ambos vectores son colineales (paralelos).
Si r = 0, el ángulo alfa = 90 °, ambos vectores son ortogonales.
Si r =-1, el ángulo alfa vale 180 °, ambos vectores son colineales de dirección opuesto.
Más generalmente : α = arcCos(r).
Por supuesto, del punto vista geométrica, no hablamos de correlación lineal: el coeficiente de correlación tiene siempre un sentido, cualquiera que sea su valor entre -1 y 1. Nos informa de modo preciso, no tanto sobre el grado de dependencia entre las variables, que sobre su distancia angular en la hyperesfera a n dimensiones.
La Iconografía de las correlaciones es un método de análisis multidimensional que reposa en esta idea.

Distribución normal bidimensional

Esta distribución es un caso particular de la distribución normal n-dimensional para n=2 por lo que todos los resultados vistos anteriormente son también válidos.
No obstante, mostraremos de forma explícita dichos resultados sin recurrir a la notación matricial.
Así bien, la función de densidad de una variable aleatoria (X,Y) normal bidimensional es


para y , donde mX y mY son las medias de X e Y respectivamente, sX y sY sus desviaciones típicas y r el coeficiente de correlación lineal entre las dos variables.

Propiedades:
• Si mX y mY son cero sX y sY son 1 y r es cero entonces la distribución se denomina normal bidimensional estándar, y su función de densidad es



• Si (X,Y) tiene una distribución normal bidimensional y (U,V) es una transformación de ella del tipo U=aX+bY+c y V=dX+eY+f , de manera que la matriz tiene determinante distinto de cero (rango dos).
Entonces la variable aleatoria (U,V) también sigue una distribución normal bidimensional , donde







• En particular, si (X,Y) tiene una distribución normal bidimensional estandar y (U,V) es una transformación de ella del tipo anterior (con rg(B)=2) entonces (U,V) sigue una distribución normal bidimensional

• Si (X,Y) tiene una distribución normal bidimensional, tanto X como Y siguen distribuciones normales, en concreto X tiene una distribución N(mX,sX) e Y tiene una distribución N(mY,sY).
• Si X e Y son variables aleatorias independientes con distribuciones normales unidimensionales N(mX,sX) y N(mY,sY). Entonces, la variable aleatoria (X,Y) tiene distribución normal bidimensional .
• Sea (X,Y) una variable aleatoria normal bidimensional. Entonces, X e Y son independientes si, y sólo si, están incorrelacionadas.
• Sea (X,Y) una variable aleatoria normal bidimensional. La distribución de Y condicionada por X=x es normal unidimensional .


Error
El concepto de error aparece en:
• Psicología y planificación:
o Error de concepto: inexactitud o equivocación al producir en la mente una idea sobre algo.
o Error de apreciación: es una inexactitud o equivocación al percibir con los sentidos y la mente un determinado fenómeno o evaluar determinada situación o problema.
• En ciencias naturales y matemáticas:
o Error experimental: la inexactitud cometida por culpa de no poder controlar adecuadamente la influencia de todas las variables presentes en un experimento.
o Error de medición: la inexactitud que se acepta como inevitable al comparar una magnitud con su patrón de medida. El error de medición depende de la escala de medida empleada, y tiene un límite. Los errores de medición se clasifican en distintas clases (accidentales, aleatorios, sistemáticos, etc.).
o Error de aproximación: es una medida del error cometido al aproximar una magnitud numérica por una expresión aproximada más sencilla que la expresión original exacta.
o Error de cálculo: inexactitud o equivocación al realizar una operación matemática.
• En informática:
o Error de programación
o Código de error de los programas

No hay comentarios: