Lección 7

El coeficiente de correlación

  • Veamos qué tan bueno es un modelo lineal para un conjunto de datos.

7.1: Cuál es diferente: Modelos lineales

¿Cuál es diferente?

A

Graph of a scatter plot, origin O. distance (miles) and cost (dollars).

B

Graph of a scatter plot, origin O, with grid. Height (millimeters) and weight (milligrams).

C

A scatterplot.

D

A scatterplot.

7.2: Clasificación de tarjetas: Diagramas de dispersión

Tu profesor te dará varias tarjetas que muestran diagramas de dispersión de datos. Clasifica las tarjetas en 2 categorías de tu elección. Prepárate para explicar qué significan tus categorías. Después, clasifica las tarjetas en otras 2 categorías distintas. Prepárate para explicar qué significan tus nuevas categorías.

7.3: Emparejemos coeficientes de correlación con diagramas de dispersión

  1. Por turnos, con tu compañero, empareja un diagrama de dispersión con un coeficiente de correlación.
  2. Para cada pareja que encuentres, explícale a tu compañero cómo sabes que ese diagrama y ese coeficiente van juntos.
  3. Escucha con atención la explicación de tu compañero sobre cada pareja que encuentra. Si están en desacuerdo, discutan sus ideas y trabajen para llegar a un acuerdo.

A

Graph of a scatter plot, xy-plane, origin O.
 
  1. \(r = \text-1\)
  2. \(r = \text-0.95\)
  3. \(r = \text-0.74\)
  4. \(r = \text-0.06\)
  5. \(r = 0.48\)
  6. \(r = 0.65\)
  7. \(r = 0.9\)
  8. \(r = 1\)

B

Graph of a scatter plot, xy-plane, origin O. 
 

C

Graph of a scatter plot, xy-plane, origin O. 
 

D

Graph of a scatter plot, xy-plane, origin O. 
 

E

Graph of a scatter plot, xy-plane, origin O. 

F

Graph of a scatter plot, xy-plane, origin O.

G

Graph of a scatter plot, xy-plane, origin O.

H

Graph of a scatter plot, xy-plane, origin O.



Jada quiere saber si la velocidad a la que caminan las personas está correlacionada con la velocidad a la que escriben mensajes de texto. Para investigarlo, ella midió la distancia, en pies, que 5 de sus amigos caminaron en 30 segundos y el número de caracteres que escribieron durante ese mismo tiempo. Cada uno de los 5 amigos caminó 4 veces, para un total de 20 recorridos. Estos son los resultados de los primeros 20 recorridos.

distancia (pies)

número de caracteres escritos

distancia (pies)

número de caracteres escritos

105

142

95

138

125

110

125

110

115

120

160

80

140

98

175

64

145

102

130

106

160

89

140

95

170

72

150

95

140

100

155

90

130

107

160

74

105

113

135

108

A scatterplot. Horizontal, from 80 to 180, by 20’s, labeled distance, feet. Vertical, from 25 to 150, by 25’s, number of characters, texted. 19 dots, trend linearly downward and to the right.

Durante los siguientes días, los mismos 5 amigos estuvieron practicando para ver si podían caminar más rápido y escribir más caracteres. Ellos no recolectaron ningún dato mientras practicaban. Después de practicar, cada uno de los 5 amigos caminó otras 4 veces. Estos son los resultados de los últimos 20 recorridos.

distancia (pies)

número de caracteres escritos

distancia (pies)

número de caracteres escritos

140

140

165

151

150

155

170

136

160

151

190

143

155

170

205

132

180

125

205

128

205

130

210

140

225

95

215

109

175

161

220

105

195

108

230

126

155

142

225

138

A scatterplot. Horizontal, from 120 to 240, by 20’s, labeled distance, feet. Vertical, from 25 to 200, by 25’s, number of characters, texted. 19 dots, trend slightly downward and right.
  1. ¿Qué observas acerca de los 2 diagramas de dispersión?
  2. Jada observó que en los últimos 20 recorridos, sus amigos caminaron una mayor distancia y escribieron más rápido que en los primeros 20 recorridos. Como ellos hicieron ambas cosas más rápido, ella predice que el coeficiente de correlación de la recta de mejor ajuste de los últimos 20 recorridos va a estar más cerca de -1 que el coeficiente de correlación de la recta de mejor ajuste de los primeros 20 recorridos. ¿Estás de acuerdo con Jada? Explica tu razonamiento.
  3. Usa tecnología para encontrar la ecuación de la recta de mejor ajuste y el coeficiente de correlación de ambos conjuntos de datos. ¿Tu respuesta a la pregunta anterior fue correcta?
  4. ¿Por qué crees que los coeficientes de correlación de los 2 conjuntos de datos son tan diferentes? Explica tu razonamiento.

Resumen

Los residuos pueden ayudar a escoger, entre todas las rectas, la recta que mejor se ajusta a los datos. Sin embargo, necesitamos una forma de determinar la intensidad de una relación lineal. Los diagramas de dispersión de datos que están cerca de la recta de mejor ajuste se modelan mejor con esa recta que los diagramas de dispersión de datos que están lejos de la recta de mejor ajuste.

El coeficiente de correlación es un número que se usa para describir la intensidad y la dirección de una relación lineal. Usualmente, el coeficiente de correlación se representa con la letra \(r\) y toma valores desde -1 hasta 1. El signo del coeficiente de correlación es el mismo signo de la pendiente de la recta de mejor ajuste. Cuanto más cerca de 0 está el coeficiente de correlación, más débil es la relación lineal. Cuanto más cerca de 1 o de -1 está el coeficiente de correlación, el modelo lineal se ajusta mejor a los datos. 

Graph of a scatter plot, origin O. Horizontal axis labeled r = -1. The data has linear model with a negative slope.
Graph of a scatter plot, origin O. Horizontal axis labeled r = negative zero point 7. The data is slightly scattered and trends downward with a negative slope.
 
Graph of a scatter plot, origin O. Horizontal axis labeled r = negative zero point 4. The data is a scattered cloud that trends slightly downward.
Graph of a scatter plot, origin O. Horizontal axis labeled r = zero point zero 2. The data is a scattered cloud with no visible trend.
Graph of a scatter plot, origin O. Horizontal axis labeled r = zero point 3. The data is a scattered cloud that trends slightly upward.
Graph of a scatter plot, origin O. Horizontal axis labeled r = zero point 8. The data is slightly scattered and trends upward with a positive slope.

 
Graph of a scatter plot, origin O. Horizontal axis labeled r = 1. The data has linear model with a positive slope.

Aunque es posible tratar de ajustar un modelo lineal a cualquier conjunto de datos, siempre debes observar el diagrama de dispersión para ver si hay una posible tendencia lineal. El coeficiente de correlación y los residuos también pueden ayudar a determinar si tiene sentido usar el modelo lineal para estimar la situación. En algunos casos, otro tipo de función puede ser un mejor ajuste de los datos, o puede que las dos variables que estás estudiando no estén correlacionadas y debas buscar otras conexiones usando otras variables.

Entradas del glosario

  • coeficiente de correlación

    Un número entre -1 y 1 que describe la intensidad y dirección de una asociación lineal entre dos variables numéricas. El coeficiente de correlación tiene el mismo signo que la pendiente de la recta de mejor ajuste. Cuanto más cerca de 0 está el coeficiente de correlación, más débil es la relación lineal. Cuanto más cerca de 1 o -1 está el coeficiente de correlación, más se ajusta el modelo lineal a los datos.

    En la primera figura, el coeficiente de correlación es cercano a 1. En la segunda, el coeficiente de correlación es positivo, pero cercano a 0. En la tercera, el coeficiente de correlación es cercano a -1.