Bachillerato: Estadística y Probabilidad

Bachillerato: Estadística y Probabilidad

Interpretar Datos y Categóricos Cuantitativos HSS-ID.A.4

4. Utiliza la media y la desviación estándar de un conjunto de datos para ajustarlo a una distribución normal y para estimar los porcentajes de población. Reconoce que existen conjuntos de datos para los cuales tal procedimiento no sirve. Usa calculadoras, hojas de cálculos y tablas para estimar las áreas dentro de la curva normal.

Los estudiantes ya deben saber que la distribución de los datos se puede expresar de muchas formas. Puede ser simétrica, asimétrica, puede estar distribuida de manera uniforme o seguir una distribución normal, también conocida como curva de campana (piensa en la Campana de la libertad, no en la de Papá Noel) y como distribución Gaussiana. No necesitan saber por qué una distribución normal tiene tantos nombres distintos, pero no tiene nada de malo saberlo.

Los estudiantes deben saber que podemos describir las distribuciones normales como distribuciones de frecuencia expresando los puntos de los datos como porcentajes en lugar de valores verdaderos. Por ejemplo, una fábrica de galletas puede producir y empaquetar 20,000 cajas de galletas al mes. Se supone que cada caja de galletas pesa 22 onzas, pero no todas las galletas son perfectas (aunque podríamos argüir que todas las galletas son perfectas). El siguiente histograma con 10 intervalos muestra el peso real de las cajas de galletas durante un mes de producción. Los datos tienen una media de 22 y una desviación estándar de 1.0.

Cuando se les dé esta información en una tabla a los estudiantes, estos deben poder buscar los porcentajes o probabilidades para cada valor. Esto da como resultado una distribución de frecuencia relativa, en donde el eje y del histograma se encuentra entre 0 y 1 (o 0 y 100%) y la suma de los porcentajes es igual a 1 (o 100%).

Podemos ajustar la curva de campana a esta distribución.

Cuando la curva normal se representa mediante una línea continua como en la línea de la figura de arriba, se llama distribución continua. El área debajo de la curva de la distribución continua siempre es igual a 1.0 (de igual manera, si sumamos todos los porcentajes de la tabla de arriba, la suma es 100%).

Los estudiantes deben saber en qué momento resulta lógico hablar de los diversos valores en términos de una distribución continua. El peso de la caja de galletas, por ejemplo, puede ser cualquier número de las 17 a las 27 onzas (o menos o más), y el peso no necesita recaer en un valor entero. Puede que sea 21.87 o 22.9 o 0 u 82,729. Ahora, ésas son muchas galletas. 

Suponiendo una distribución normal, los estudiantes deben poder aproximar la forma de la distribución continua dados el promedio y la desviación estándar. A medida que la desviación estándar aumenta, la forma de campana empieza a aplanarse porque una desviación estándar más grande sugiere que los datos se dispersan más desde la media.

Los estudiantes también deben saber que el 68% de los datos se ubicará entre los puntos de inflexión (que se encuentran exactamente a ±σ de la media). Si aumentamos la distancia de 2 desviaciones estándar de la media (±2σ), capturaremos un 95% de los datos y al mover tres desviaciones estándar capturaremos un 99.7% de los datos. Esto se denomina regla empírica.

El puntaje Z es el número de desviaciones estándar en el cual se ubica un punto de datos con respecto a la media. Es una manera útil de normalizar todas las distribuciones normales. (Y tú pensabas que no se podían normalizar más). Los estudiantes deben poder calcular un puntaje Z usando la fórmula siguiente:

Aquí, μ es la verdadera media, σ es la desviación estándar y x es el punto de datos en cuestión. Si levantamos una caja de galletas que pesa 25 onzas y sabemos que μ = 22 y σ = 1.0, podemos determinar el puntaje Z como se indica a continuación:

El peso de esta caja queda a 3 desviaciones estándar de la media. Si sabemos que el 99.7% de los datos se ubica dentro de tres desviaciones estándar de la media, ¿qué sugiere esto con respecto a la caja de galletas? Probablemente sugiere que encontramos ¡una caja de oro!

Los estudiantes deben poder buscar el área bajo una porción de la curva (por ejemplo, si nuestras posibilidades de encontrar una caja de galletas que pese solo 25 onzas o más), usando el puntaje Z y una tabla para hacerlo. Más aún, deben entender que esta área representa la probabilidad de que un punto de datos aleatorio caiga dentro de la región descrita.

Recuérdales a los estudiantes que σ y Z son distintos, y que tengan cuidado con la tabla que van a usar para buscar el área debajo de la curva (algunas tablas son acumulativas al empezar de -∞, y otras empiezan en la media). Además, se les debe recordar que el área debajo de toda la curva es siempre 1.

Nunca se debe sobreestimar el sentido común. Con todas estas variables, números y tablas es fácil confundirse. No necesitamos una calculadora ni tabla para saber que Prob(Z ≤ 0) = 0.5 porque las probabilidades de que un punto de datos aleatorio sea menor que la media (Z ≤ 0) o mayor que la media (Z ≥ 0) son de un 50% cada una. Si entienden lo que estas variables, números y tablas hacen realmente, los estudiantes tendrán menos probabilidades de cometer errores tontos y realizar cálculos innecesarios.

A continuación se ofrece un video que pueden usar los profesores a modo de recurso para explicar la curva de distribución normal.

 

Recursos que se Conforman a los Estándares

    More standards from Bachillerato: Estadística y Probabilidad - Interpretar Datos y Categóricos Cuantitativos