Lección 11

Comparemos y contrastemos distribuciones de datos

  • Investiguemos la variabilidad usando representaciones visuales de datos y estadísticos de resumen.

11.1: Conversación matemática: La media

Evalúa mentalmente el valor de la media de cada conjunto de datos.

27, 30, 33

61, 71, 81, 91, 101

0, 100, 100, 100, 100

0, 5, 6, 7, 12

11.2: Describamos distribuciones de datos

  1. Tu profesor te dará varias tarjetas. Por turnos, con tu compañero, empareja una representación visual de datos con un enunciado escrito.
    1. Para cada pareja que encuentres, explícale a tu compañero cómo sabes que ese gráfico y ese enunciado van juntos.
    2. Escucha con atención la explicación de tu compañero sobre cada una de las parejas que encuentra. Si están en desacuerdo, discutan sus ideas y trabajen para llegar a un acuerdo.
  2. Después de hacer las parejas, decide, en cada caso, si la media o la mediana es más apropiada para describir el centro del conjunto de datos dependiendo de la forma de la distribución. Discute tu razonamiento con tu compañero. Si no está dada, calcula (de ser posible) o estima la medida de centro apropiada. Prepárate para explicar tu razonamiento.

11.3: Analicemos la variabilidad visualmente y con estadísticos

Cada diagrama de caja resume el número de millas que alguien recorrió cada día en automóvil durante 30 días, en cierto mes. Los diagramas de caja representan, en orden, la información de agosto, septiembre, octubre, noviembre y diciembre.

  1. Los cinco diagramas de caja tienen la misma mediana. Expliquen por qué la mediana es más apropiada que la media para describir el centro del conjunto de datos de estas distribuciones.
  2. Organicen los diagramas de caja en orden de menor variabilidad a mayor variabilidad. Revisen con otro grupo si sus respuestas concuerdan.
    1. Box plot from 0 to 90 by 10’s. Miles driven each day in August. Whisker from 5 to 20. Box from 20 to 60 with vertical line at 40. Whisker from 60 to 62.
    2. Box plot from 0 to 90 by 10’s. Miles driven each day in September. Whisker from 5 to 10. Box from 10 to 70 with vertical line at 40. Whisker from 70 to 90.
    3. Box plot from 0 to 90 by 10’s. Miles driven each day in October. Whisker from 15 to 20. Box from 20 to 70 with vertical line at 40. Whisker from 70 to 85.
    4. Box plot from 0 to 90 by 10’s. Miles driven each day in November. Whisker from 10 to 30. Box from 30 to 70 with vertical line at 40. Whisker from 70 to 80.
    5. Box plot from 0 to 90 by 10’s. Miles driven each day in December. Whisker from 10 to 30. Box from 30 to 50 with vertical line at 40. Whisker from 50 to 62.
  3. Los cinco diagramas de puntos tienen la misma media. Expliquen por qué la media es más apropiada que la mediana para describir el centro de estos conjuntos de datos.
  4. Organicen los diagramas de puntos en orden de menor variabilidad a mayor variabilidad. Revisen con otro grupo si sus respuestas concuerdan.
    1. Dot plot from 5 to 15 by 1’s. Beginning at 5, number of dots above each increment is 0, 1, 1, 2, 3, 4, 3, 2, 1, 1, 0.
    2. Dot plot from 5 to 15 by 1’s. Beginning at 5, number of dots above each increment is 0, 1, 2, 3, 7, 15, 7, 3, 2, 1, 0.
    3. Dot plot from 5 to 15 by 1’s. Beginning at 5, number of dots above each increment is 0, 11, 10, 8, 5, 3, 5, 8, 10, 11, 0.
    4. Dot plot from 5 to 15 by 1’s. Beginning at 5, number of dots above each increment is 0, 4, 4, 4, 4, 4, 4, 4, 4, 4, 0.
    5. Dot plot from 5 to 15 by 1’s. Beginning at 5, number of dots above each increment is 0, 0, 0, 0, 0, 35, 0, 0, 0, 0, 0.


  1.  Estos dos diagramas de caja tienen la misma mediana y el mismo IQR. ¿Cómo podríamos comparar la variabilidad de las dos distribuciones?

    Two box plots
  2. Estos dos diagramas de puntos tienen la misma media y la misma MAD. ¿Cómo podríamos comparar la variabilidad de las dos distribuciones?

    Dot plot from 0 to 10 by 1. Beginning at 1, number of dots above each increment is 0, 1, 2, 0, 4, 7, 2, 1, 2, 1, 0.
    Dot plot from 0 to 10 by 1. Beginning at 1, number of dots above each increment is 0, 0, 1, 3, 5, 3, 3, 4, 1, 0, 0.
 

Resumen

La desviación media absoluta, o MAD, es una medida de variabilidad que se calcula encontrando la media de las distancias de todos los puntos de datos a la media de los datos. Estos son dos diagramas de puntos que muestran la longitud de varias conchas de vieira en centímetros (cm). En cada diagrama, la media es 15 cm.

Dot plot from 11 to 19 by 1’s. Length in centimeters. Beginning at 11, number of dots above each increment is 0, 1, 2, 3, 5, 3, 2, 1, 0
Dot plot from 11 to 19 by 1’s. Length in centimeters. Beginning at 11, number of dots above each increment is 0, 0, 2, 4, 5, 4, 2, 0, 0.

Observemos que ambos diagramas muestran una distribución simétrica, así que la media y la MAD son elecciones apropiadas para describir el centro y la variabilidad. Los datos del primer diagrama se ven más dispersos que los datos del segundo diagrama, así que podemos decir que el primer conjunto de datos parece tener mayor variabilidad que el segundo conjunto de datos. Esto lo confirma la MAD: la MAD del primer conjunto de datos es 1.18 cm y la MAD del segundo conjunto de datos es aproximadamente 0.94 cm. Esto significa que los valores del primer conjunto de datos están, en promedio, a 1.18 cm de la media y que los valores del segundo conjunto de datos están, en promedio, aproximadamente a 0.94 cm de la media. Entre mayor sea la MAD de los datos, mayor será la variabilidad de los datos.

El rango intercuartil, o IQR, es una medida de variabilidad que se calcula restándole el valor del primer cuartil, Q1, al valor del tercer cuartil, Q3. Estos dos diagramas de caja representan las distribuciones de la longitud en centímetros de otro grupo de conchas de vieira. En cada uno, la mediana es 15 cm.

Box plot from 2 to 20 by 1’s. Length in centimeters. Whisker from 3 to 5. Box from 5 to 19 with vertical line at 15. Whisker from 19 to 20.
Box plot from 2 to 20 by 1’s. Length in centimeters. Whisker from 3 to 9. Box from 9 to 19 with vertical line at 15. Whisker from 19 to 20.

Observemos que ninguno de los diagramas de caja tiene una distribución simétrica. La mediana y el IQR son elecciones apropiadas para describir el centro y la variabilidad de estos conjuntos de datos. Los datos de la mitad central que se muestran en el primer diagrama de caja se ven más separados, o muestran mayor variabilidad, que los datos de la mitad central que se muestran en el segundo diagrama de caja. El IQR de la primera distribución es 14 cm y el de la segunda distribución es 10 cm. El IQR mide la diferencia entre la mediana de la segunda mitad de los datos, Q3, y la mediana de la primera mitad de los datos, Q1. Por ello, el valor mínimo y el valor máximo del conjunto de datos no influyen en el IQR. El IQR es una medida de la dispersión del 50% de los datos que están en el medio.

La MAD se calcula usando todos los valores de los datos, mientras que el IQR se calcula usando solamente los valores de Q1 y Q3.

Entradas del glosario

  • estadístico

    Una cantidad que se calcula a partir de los datos de una muestra, como la media, la mediana o la MAD (desviación media absoluta).