Bachillerato: Estadística y Probabilidad
Bachillerato: Estadística y Probabilidad
Interpretar Datos y Categóricos Cuantitativos HSS-ID.A.1
1. Representa los datos con gráficos en la recta numérica real (gráficos de dispersión, histogramas y gráficos de cajas).
La estadística tiene que ver básicamente con información. Recolectar, luego analizar, después estimar de acuerdo a datos recolectados previamente, luego comparar para ver si las predicciones resultaron ser acertadas. Después recolectar más información y analizarla aún más. Sin duda, el trabajo del estadístico no termina nunca.
Afortunadamente (desafortunadamente) para tus estudiantes, los estadísticos han desarrollado distintas maneras de representar esta información. De ese modo, no tienen que mirar y tratar de encontrar el sentido de una tabla infinita y cada vez más grande de números.
Los estudiantes deben sentirse cómodos al representar los datos en la recta numérica real en forma de gráficos de dispersión, histogramas y gráficos de cajas. Obviamente, eso quiere decir que deben saber la diferencia que existe entre ellos.
Un gráfico de dispersión es un diagrama que representa un conjunto de datos por medio de puntos sobre la recta numérica.
Un histograma es un diagrama que muestra un conjunto de datos como una serie de rectángulos que muestran la frecuencia con la que aparecen los datos dentro de un intervalo. Un gráfico de caja, también conocido como diagrama de caja y bigote, es un diagrama que muestra un conjunto de datos como una distribución a lo largo de la recta numérica, dividida en cuatro partes iguales utilizando la mediana (el valor medio de los datos) y los cuartiles superiores e inferiores (la mediana de la mitad de la información superior e inferior, respectivamente).
Pero, ¿para qué seguir hablando de estos distintos gráficos cuando te podemos mostrar exactamente a qué nos referimos? La tabla siguiente muestra qué tan rápido puede nadar Michael Phelps, uno de los mejores nadadores olímpicos del mundo, el evento de los 200 metros libres (aproximado al segundo más cercano).
103 | 105 | 103 | 103 | 103 | 105 |
106 | 108 | 106 | 106 | 108 | 107 |
Los estudiantes deben saber que para diseñar un gráfico de dispersión de los tiempos de los 200 metros libres de Michael Phelps, deben concentrarse en la porción de la recta numérica que cubre los puntos con los datos. Según la información proporcionada anteriormente, necesitamos incluir los números del 100 al 110.
Ahora, lo único que tenemos que hacer es colocar un punto en el número adecuado de cada punto de datos con ese número. Por ejemplo, ya que solo uno de sus tiempos fue 107 segundos, colocamos solo un punto en la recta numérica sobre el 107. Debido a que los 108 segundos aparecen dos veces en nuestra tabla de datos, colocamos dos puntos, uno encima del otro, en la recta numérica sobre el 108. Al terminar, nuestro gráfico de dispersión debe verse más o menos así:
Para crear un histograma con la información de Michael Phelps, los estudiantes deben crear un gráfico con el tiempo en el eje x (eje horizontal) y el número de veces (o frecuencia) en el eje y (eje vertical). Se dibuja un rectángulo del ancho de cada intervalo con una altura igual al número de veces correspondiente a ese tiempo. Por ejemplo, al dibujar un rectángulo para los 103 segundos nos da lo siguiente:
Ahora podemos completar el histograma para el resto de los datos.
Una característica importante del histograma es que los rectángulos no se preocupan mucho por respetar el espacio personal. Se están tocando porque representan intervalos en lugar de números específicos. Después de todo, ¿el tiempo es continuo, verdad? Por este motivo, los histogramas son particularmente útiles para rangos de datos a gran escala.
La última forma en la que los estudiantes pueden representar visualmente los tiempos de los 200 metros libres de Michael Phelps es por medio del gráfico de caja. Este tipo de gráfico divide la información en cuatro partes iguales utilizando cuartiles (un valor que divide el conjunto de datos en grupos con puntos de datos de igual número). En el caso de los datos dados, se proporcionan 12 puntos de datos, por lo que cada cuartil contendrá 3 puntos de datos. Para buscar los cuartiles, es mejor clasificar la información de menor a mayor. En el caso de los datos con los que hemos estado trabajando, dan lo siguiente:
103 | 103 | 103 | 103 | 105 | 105 | 106 | 106 | 106 | 107 | 108 | 108 |
Ahora, los estudiantes deben buscar los valores para cada uno de los tres cuartiles. En los casos en los que hay un número impar de puntos de datos, el valor de la mediana se calcula como el promedio de los 2 números que se encuentran más cerca del centro. Para la información anterior, el resultado es 105.5.
Para determinar el cuartil inferior, necesitamos buscar el valor que tiene 9 valores arriba y 3 valores abajo. En este caso, el valor será 103. Asimismo, el cuartil superior es 106.5. Nuevamente, estos valores se determinan tomando el valor promedio del 3.er y 4.o valor (para el cuartil inferior) y el 7.o y 8.o valor (para el cuartil superior).
Para comenzar a dibujar el diagrama de caja, dibuja la recta numérica que cubre el rango de los valores y dibuja una línea vertical en el lugar de cada cuartil, como se muestra a continuación:
Si conectamos estas líneas, obtenemos la caja.
La parte del bigote del “diagrama de caja y bigote” sale justo después de la pubertad. Es solo una broma. Podemos agregar dos datos más: el valor mínimo y el máximo. Dibuja un punto de datos en el valor mínimo y otro en el valor máximo, y dibuja un bigote desde el medio de la caja hacia el punto de esta información.
Ahora tenemos un gráfico de caja (y bigote). ¿En dónde más pueden los objetos inanimados tener bigotes, sino en estadística?