Vistas de página en total

jueves, 31 de mayo de 2018

Tema 12: concordancia y correlación.

Buenos días, tardes, noches a todos aquellos que me acompañáis en esta nueva entrada, esta vez hablaremos de concordancia y correlación entre variables. Antes de nada también hablaremos sobre las relaciones entre variables y las regresiones, para más tarde hablar sobre Pearson (correlación paramétrica) y Spearman (correlación no paramétrica).

La primera persona que utilizó el término de regresión fue Galton en su libro "Natural inheritance" en el que habla sobre este término:

  1. "Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un grado menor". Esto es lo que llamamos regresión a la media.
  2. Se centró en  describir rasgos físicos de la descendencia de una familia a partir de los rasgos de los padres.
  3. Entonces aparece Pearson, el que hace un estudio con una muestra de más de 1000 registros de grupos familiares y observa que:
    1. La altura de un hijo será igual a 85cm + 0'5 la altura del padre, aproximadamente.
    2. Llegó a la conclusión de que los padres altos tenderán a tener descendencia alta aunque esta se irá acercando cada vez más a la media, de igual manera esto ocurre con los padres de talla baja
Actualmente el término de regresión hace referencia a la predicción de una medida basándonos en el conocimiento de otra.
Para estudiar un conjunto de variables que están organizadas sin ningún patrón aparente recogeremos las observaciones realizadas en un diagrama de dispersión. El objetivo de tal acción será reconocer a partir de dicho diagrama si hay relación entre las variables que estamos estudiando, de qué tipo y si es posible predecir el valor de una de ellas en función de la otra.
Por poner un ejemplo, podríamos relacionar el peso con la altura y podríamos obtener algo parecido a esto:
A  grandes rasgos en esta gráfica lo que finalmente podemos observar es que el peso aumentará de manera "armónica" junto con la altura.
Debemos saber que a partir de estos diagramas podemos hablar de relaciones que pueden ser directas o inversas o puede que existan también incorrelaciones, es decir, que no haya relación entre las variables:

  • Hablamos de incorrelación cuando para valores de X por encima de la media tenermos valores de Y por encima y por debajo en proporciones similares. 
  • Hablamos de relación directa cuando para los valores de X mayores que la media te corresponden valores de Y mayores también y de igual manera a la inversa.

  • Hablamos de relación inversa cuando para los valores de X mayores que la media le corresponden valores de Y menores.





Ahora pasaré a hablaros sobre la regresión lineal simple. Consiste en estudiar una asociación lineal entre dos variables cuantitativas. Podemos encontrarnos con regresiones lineales que sólo cuentan con una variable independiente; de igual manera podemos encontrarnos con regresiones lineales múltiples que cuentan con más de una variable independiente.
Debemos tener en cuenta las siguientes características a la hora de realizar una regresión lineal:
  • Ecuación de la recta: y = ax + b (ej: TAS=a· edad +b)
  • Pendiente de la recta a = β1 
  • Punto de intersección con el eje de coordenadas b=β0 
  • Pendiente de la recta a = β1 
  • Punto de intersección con el eje de coordenadas b=β0
  • Β1 expresa la cantidad de cambio que se produce en la variable dependiente por unidad de cambio de la variable independiente 
  • Β0 expresa cuál es el valor de la variable dependiente cuando la independiente vale cero
Debemos saber que existen dos modelos lineales, el determinista y el probabilístico. Para el determinista a cada valor de la variable independiente le corresponde un valor de la dependiente. En cambio en el modelo probabilístico, para cada valor de la variable independiente existe una distribución de probabilidad de valores de la dependiente, con una probabilidad entre 0 y 1.
La recta que determinaremos en cada caso es aquella con la menor distancia de cada punto a ella.
Y llegamos a los coeficientes de relación en los cuales seré breve:
  1. Coeficientes de correlación de Pearson: Es una prueba paramétrica por lo que requiere que la distribución de la muestra siga la normalidad.
  2. Coeficiente de Spearman: No paramétrica por lo que requiere que se emplea cuando la distribución no sigue la normalidad.
El análisis de esta correlación se utiliza con el propósito de disponer de un indicador cuantitativo que permite sintetizar el grado de la asociación entre variables.
Coeficiente de Correlación r de Pearson (r), (Rxy): Es un coeficiente que mide el grado de la relación de dependencia que existe entre las variables (x,y), cuyos valores van desde –1, correspondiente a una correlación negativa perfecta, hasta 1, correspondiente a una correlación positiva perfecta.
El procedimiento para realizar esta correlación es el siguiente:

  1. Se ordenan los valores de una de las variables y lo acompañamos de su correspondiente valor ordenado en la otra variable 
  2. Para cada par de observaciones (rangos) calculamos su diferencia di= rango de ui – rango de vi 
  3. Se eleva al cuadrado cada di y se suman todos los valores encontrados 
  4. Se calcula para determinar la discrepancia entre los rangos la siguiente fórmula:


Y con esto me despido de vosotros, espero que os haya servido para aprender algo nuevo.

No hay comentarios:

Publicar un comentario