Lección 7
El coeficiente de correlación
- Veamos qué tan bueno es un modelo lineal para un conjunto de datos.
7.1: Cuál es diferente: Modelos lineales
¿Cuál es diferente?
7.2: Clasificación de tarjetas: Diagramas de dispersión
Tu profesor te dará varias tarjetas que muestran diagramas de dispersión de datos. Clasifica las tarjetas en 2 categorías de tu elección. Prepárate para explicar qué significan tus categorías. Después, clasifica las tarjetas en otras 2 categorías distintas. Prepárate para explicar qué significan tus nuevas categorías.
7.3: Emparejemos coeficientes de correlación con diagramas de dispersión
- Por turnos, con tu compañero, empareja un diagrama de dispersión con un coeficiente de correlación.
- Para cada pareja que encuentres, explícale a tu compañero cómo sabes que ese diagrama y ese coeficiente van juntos.
- Escucha con atención la explicación de tu compañero sobre cada pareja que encuentra. Si están en desacuerdo, discutan sus ideas y trabajen para llegar a un acuerdo.
- \(r = \text-1\)
- \(r = \text-0.95\)
- \(r = \text-0.74\)
- \(r = \text-0.06\)
- \(r = 0.48\)
- \(r = 0.65\)
- \(r = 0.9\)
- \(r = 1\)
Jada quiere saber si la velocidad a la que caminan las personas está correlacionada con la velocidad a la que escriben mensajes de texto. Para investigarlo, ella midió la distancia, en pies, que 5 de sus amigos caminaron en 30 segundos y el número de caracteres que escribieron durante ese mismo tiempo. Cada uno de los 5 amigos caminó 4 veces, para un total de 20 recorridos. Estos son los resultados de los primeros 20 recorridos.
distancia (pies) |
número de caracteres escritos |
distancia (pies) |
número de caracteres escritos |
105 |
142 |
95 |
138 |
125 |
110 |
125 |
110 |
115 |
120 |
160 |
80 |
140 |
98 |
175 |
64 |
145 |
102 |
130 |
106 |
160 |
89 |
140 |
95 |
170 |
72 |
150 |
95 |
140 |
100 |
155 |
90 |
130 |
107 |
160 |
74 |
105 |
113 |
135 |
108 |
Durante los siguientes días, los mismos 5 amigos estuvieron practicando para ver si podían caminar más rápido y escribir más caracteres. Ellos no recolectaron ningún dato mientras practicaban. Después de practicar, cada uno de los 5 amigos caminó otras 4 veces. Estos son los resultados de los últimos 20 recorridos.
distancia (pies) |
número de caracteres escritos |
distancia (pies) |
número de caracteres escritos |
140 |
140 |
165 |
151 |
150 |
155 |
170 |
136 |
160 |
151 |
190 |
143 |
155 |
170 |
205 |
132 |
180 |
125 |
205 |
128 |
205 |
130 |
210 |
140 |
225 |
95 |
215 |
109 |
175 |
161 |
220 |
105 |
195 |
108 |
230 |
126 |
155 |
142 |
225 |
138 |
- ¿Qué observas acerca de los 2 diagramas de dispersión?
- Jada observó que en los últimos 20 recorridos, sus amigos caminaron una mayor distancia y escribieron más rápido que en los primeros 20 recorridos. Como ellos hicieron ambas cosas más rápido, ella predice que el coeficiente de correlación de la recta de mejor ajuste de los últimos 20 recorridos va a estar más cerca de -1 que el coeficiente de correlación de la recta de mejor ajuste de los primeros 20 recorridos. ¿Estás de acuerdo con Jada? Explica tu razonamiento.
- Usa tecnología para encontrar la ecuación de la recta de mejor ajuste y el coeficiente de correlación de ambos conjuntos de datos. ¿Tu respuesta a la pregunta anterior fue correcta?
- ¿Por qué crees que los coeficientes de correlación de los 2 conjuntos de datos son tan diferentes? Explica tu razonamiento.
Resumen
Los residuos pueden ayudar a escoger, entre todas las rectas, la recta que mejor se ajusta a los datos. Sin embargo, necesitamos una forma de determinar la intensidad de una relación lineal. Los diagramas de dispersión de datos que están cerca de la recta de mejor ajuste se modelan mejor con esa recta que los diagramas de dispersión de datos que están lejos de la recta de mejor ajuste.
El coeficiente de correlación es un número que se usa para describir la intensidad y la dirección de una relación lineal. Usualmente, el coeficiente de correlación se representa con la letra \(r\) y toma valores desde -1 hasta 1. El signo del coeficiente de correlación es el mismo signo de la pendiente de la recta de mejor ajuste. Cuanto más cerca de 0 está el coeficiente de correlación, más débil es la relación lineal. Cuanto más cerca de 1 o de -1 está el coeficiente de correlación, el modelo lineal se ajusta mejor a los datos.
Aunque es posible tratar de ajustar un modelo lineal a cualquier conjunto de datos, siempre debes observar el diagrama de dispersión para ver si hay una posible tendencia lineal. El coeficiente de correlación y los residuos también pueden ayudar a determinar si tiene sentido usar el modelo lineal para estimar la situación. En algunos casos, otro tipo de función puede ser un mejor ajuste de los datos, o puede que las dos variables que estás estudiando no estén correlacionadas y debas buscar otras conexiones usando otras variables.
Entradas del glosario
- coeficiente de correlación
Un número entre -1 y 1 que describe la intensidad y dirección de una asociación lineal entre dos variables numéricas. El coeficiente de correlación tiene el mismo signo que la pendiente de la recta de mejor ajuste. Cuanto más cerca de 0 está el coeficiente de correlación, más débil es la relación lineal. Cuanto más cerca de 1 o -1 está el coeficiente de correlación, más se ajusta el modelo lineal a los datos.
En la primera figura, el coeficiente de correlación es cercano a 1. En la segunda, el coeficiente de correlación es positivo, pero cercano a 0. En la tercera, el coeficiente de correlación es cercano a -1.