Lección 2

Representaciones de datos

  • Representemos y analicemos datos usando diagramas de puntos, histogramas y diagramas de caja.

2.1: Observa y pregúntate: Duración de la batería

El diagrama de puntos, el histograma y el diagrama de caja resumen cuántas horas duran las baterías de 26 teléfonos celulares que reproducen videos de la web constantemente. ¿Qué observas? ¿Qué te preguntas?

Dot plot from 1 to 8 by 0.5’s. battery life in hours. Beginning at 1, number of dots above each increment is 0,0,0,2,2,4,2,4,2,6,2,2,0,0,0.
Histogram from 1 to 8 by 1’s. battery life in hours. Beginning at 1 up to but not including 2, height of bar at each interval is 0, 2, 6, 6, 8, 3, 4, 0.
Boxplot from 1 to 8 by 0.5’s. battery life in hours. Whisker from 2.5 to 3.5. Box from 3.5 to 5.5 with a vertical line at 4.5. Whisker from 5.5 to 6.5.

 

2.2: Plantas de tomate: Histograma

Se puede usar un histograma para representar la distribución de datos numéricos.

  1. Los datos representan el número de días que ciertas plantas de tomate tardan en producir tomates. Usa la información para completar la tabla de frecuencias.
    • 47
    • 52
    • 53
    • 55
    • 57
    • 60
    • 61
    • 62
    • 63
    • 65
    • 65
    • 65
    • 65
    • 68
    • 70
    • 72
    • 72
    • 75
    • 75
    • 75
    • 76
    • 77
    • 78
    • 80
    • 81
    • 82
    • 85
    • 88
    • 89
    • 90
    días para producir frutos frecuencia
    40–50
    50–60
    60–70
    70–80
    80–90
    90–100
  2. Usa los ejes y la información de tu tabla para crear un histograma.

    Blank coordinate plane, no grid. Horizontal axis from 30 to 100 by 10’s, labeled “days to produce fruit”. Vertical axis from 1 to 10 by 1’s, labeled “number of tomato plants”.
  3. El histograma que creaste tiene intervalos de 10 de ancho (por ejemplo, de 40 a 50 y de 50 a 60). Usa los ejes y los datos para crear otro histograma que tenga intervalos de 5 de ancho. ¿En qué son diferentes este histograma y el otro?

    Blank coordinate plane


A menudo conviene probar intervalos de distintos anchos para determinar cuál nos da una mejor idea de la forma de la distribución.

  1. ¿Cuál podría ser un problema si usáramos intervalos de anchos muy grandes?

  2. ¿Cuál podría ser un problema si usáramos intervalos de anchos muy pequeños?

  3. ¿Qué otras consideraciones se deben tener en cuenta al escoger el ancho de un intervalo?

2.3: Plantas de tomate: Diagrama de caja

También se puede usar un diagrama de caja para representar la distribución de datos numéricos. 

mínimo Q1 mediana Q3 máximo
  1. Usando los mismos datos de las plantas de tomate de la actividad anterior, encuentra la mediana y ponla en la tabla. ¿Qué representa la mediana en el caso de estos datos?
  2. Encuentra la mediana de los 15 valores más pequeños para separar los datos en el primer y el segundo cuarto. Este valor se llama el primer cuartil. Pon este valor en la tabla debajo de la casilla Q1. ¿Qué significa este valor en esta situación?
  3. Encuentra el valor que separa los datos en el tercer y el cuarto cuarto (el tercer cuartil) y ponlo en la tabla debajo de la casilla Q3. Escribe el valor mínimo y el valor máximo en la tabla.
  4. Usa el resumen de cinco números para crear un diagrama de caja que represente el número de días que tardan estas plantas de tomate en producir tomates.
Blank horizontal number line from 40 to 90 by 5’s, labeled “time in days”.

Resumen

La tabla muestra una lista del número de minutos que las personas se pueden concentrar intensamente en una tarea antes de tener que descansar. Hay 50 personas de diversas edades representadas en la tabla.

  • 19
  • 7
  • 1
  • 16
  • 20
  • 2
  • 7
  • 19
  • 9
  • 13
  • 3
  • 9
  • 18
  • 13
  • 20
  • 8
  • 3
  • 14
  • 13
  • 2
  • 8
  • 5
  • 17
  • 7
  • 18
  • 17
  • 8
  • 8
  • 7
  • 6
  • 2
  • 20
  • 7
  • 7
  • 10
  • 7
  • 6
  • 19
  • 3
  • 18
  • 8
  • 19
  • 7
  • 13
  • 20
  • 14
  • 6
  • 3
  • 19
  • 4
Dot plot from 0 to 25 by 1’s. Time in minutes. Beginning at 0, number of dots above each increment is 0, 1, 2, 5, 1, 1, 3, 8, 5, 2, 1, 0, 0, 4, 2, 0, 1, 2, 3, 5, 4, 0, 0, 0, 0, 0.


En una situación como esta, es útil representar los datos de manera gráfica para observar mejor los patrones u otras características interesantes de los datos. Se puede usar un diagrama de puntos para ver la forma y la distribución de los datos.

Hubo varias personas que perdieron la concentración cerca de los 3, los 7, los 13 y los 19 minutos, y nadie perdió la concentración a los 11, a los 12, ni a los 15 minutos. Los diagramas de puntos son útiles cuando el conjunto de datos no es muy grande y se muestran todos los valores individuales del conjunto de datos. En este ejemplo, un diagrama de puntos puede mostrar fácilmente todos los datos. Si el conjunto de datos es muy grande (por ejemplo, si tiene más de 100 valores) o si hay muchos valores que no son exactamente el mismo, puede ser difícil ver todos los puntos en un diagrama de puntos.

Un histograma es otra representación que muestra la forma y la distribución de los mismos datos.

La mayoría de las personas perdió la concentración cuando pasaron entre 5 y 10 minutos o entre 15 y 20 minutos, mientras que solo 4 de las 50 personas se distrajeron cuando habían pasado entre 20 y 25 minutos. Al crear histogramas debemos tener en cuenta que cada intervalo incluye el número del extremo inferior del intervalo, pero no el del extremo superior. Por ejemplo, la barra más alta muestra valores que son mayores o iguales a 5 minutos y menores que 10 minutos. En un histograma, los valores que están en un intervalo están agrupados. Aunque los valores individuales se pierden al ser agrupados, un histograma también puede mostrar la forma de la distribución.

Histogram from 0 to 25 by 5’s. Time in minutes. Beginning at 0 up to but not including 5, height of bar at each interval is 9, 19, 7, 11, 4.

Este es un diagrama de caja que representa los mismos datos.

Boxplot from 0 to 25 by 1’s. time in minutes. Whisker from 1 to 6. Box from 6 to 17 with a vertical line at 8. Whisker from 17 to 20.

Los diagramas de caja se crean usando el resumen de cinco números. El resumen de cinco números de un conjunto de datos consiste en estos cinco estadísticos: el valor mínimo, el primer cuartil, la mediana, el tercer cuartil y el valor máximo. Estos valores separan los datos en cuatro secciones y cada una representa aproximadamente un cuarto de los datos. La mediana de estos datos está marcada en 8 minutos y aproximadamente el 25% de los datos está en el segundo cuarto de los datos, entre 6 y 8 minutos. De manera similar, aproximadamente un cuarto de los datos está entre 8 y 17 minutos. Al igual que el histograma, el diagrama de caja no muestra los valores individuales de los datos, pero se pueden ver más fácilmente otras características, como los cuartiles, el rango y la mediana. Los diagramas de puntos, los histogramas y los diagramas de caja nos muestran la forma y la distribución de los datos de 3 maneras distintas y resaltan aspectos distintos de los datos.

Entradas del glosario

  • datos categóricos
    Unos datos son categóricos cuando sus valores son categorías. Por ejemplo, las razas de 10 perros distintos son datos categóricos. Otro ejemplo: los colores de 100 flores distintas.
  • datos numéricos
    Unos datos son numéricos cuando sus valores son números, medidas o cantidades. También se les llama datos cuantitativos o de mediciones. Por ejemplo, los pesos de 10 perros distintos son datos numéricos.
  • distribución

    Dado un conjunto de datos numéricos o categóricos, su distribución nos dice cuántos hay de cada valor o de cada categoría en el conjunto.

  • pregunta estadística

    Una pregunta estadística es una pregunta que solo se puede responder usando datos y en la que se espera que los datos tengan variabilidad. Por ejemplo:

    • ¿Quién es el artista musical más popular en tu escuela?
    • ¿A qué horas cenan típicamente los estudiantes de tu clase?
    • ¿Qué salón de clase de tu escuela tiene la mayor cantidad de libros?
  • pregunta no estadística

    Una pregunta no estadística es una pregunta que se puede responder con una medición o procedimiento específico y para la cual no se espera ver variabilidad en la respuesta. Por ejemplo:

    • ¿Qué tan alto es ese edificio?
    • Si corro a 2 metros por segundo, ¿cuánto tiempo tardaré en correr 100 metros?
  • resumen de cinco números

    El resumen de cinco números de un conjunto de datos está compuesto por el mínimo, los tres cuartiles y el máximo. A menudo, este resumen se muestra usando un diagrama de caja como el que está abajo. En este caso, el mínimo es 2, los tres cuartiles son 4, 4.5 y 6.5, y el máximo es 9.