Bachillerato: Estadística y Probabilidad
Bachillerato: Estadística y Probabilidad
Interpretar Datos y Categóricos Cuantitativos HSS-ID.A.3
3. Interpreta las diferencias de forma, centro y dispersión en el contexto de conjuntos de datos, explicando posibles efectos de los puntos de datos extremos (valores atípicos).
Los alumnos ya deben saber que para poder describir y comparar conjuntos, necesitamos definir el centro y la dispersión de los datos. Estos resúmenes son un buen punto de partida, pero hay otra medida de datos que puede darnos otra pista y servirnos para comparar los conjuntos de datos: la forma de los datos.
Los estudiantes deben saber que las distribuciones con forma de montículo pueden ser simétricas o asimétricas ya sea hacia la izquierda o hacia la derecha, pero una distribución normal tiene forma de montículo y es una curva simétrica. Los estudiantes también deben saber la relación de la media y la mediana con las curvas simétricas y asimétricas. Si la media es mayor que la mediana, los datos se inclinan a la derecha. Si la media es menor que la mediana, los datos se inclinan a la izquierda. Si la media y la mediana son iguales, entonces los datos son simétricos.
Los estudiantes deben darse cuenta de que la forma de los datos nos ayuda a encontrar e identificar los valores atípicos. Un valor atípico es algo que se destaca del resto de los datos, como un huevo con dos yemas. Es un punto de los datos que te hace fruncir el ceño y preguntarte si mediste mal. Desde el punto de vista formal, un valor atípico es un punto de datos que tiene un “valor extremo” al compararlo con el resto del conjunto de datos.
Desde el punto de vista matemático, un valor atípico se define como un punto que se encuentra 1.5 veces el IQR por debajo del cuartil inferior o 1.5 veces el IQR por encima del cuartil superior. Para visualizar lo que esto significa, podemos usar un gráfico de caja con los datos que se brindan a continuación. Primero, clasificamos los datos de menor a mayor para buscar el cuartil inferior (Q1), la mediana y el cuartil superior (Q3).
Datos: 37, 37, 38, 38, 40, 40, 42, 42, 42, 62
La mediana es 40.
Q1 = 38
Q3 = 42
Por lo tanto, IQR = Q3 – Q1 = 42 – 38 = 4.
En consecuencia, el gráfico de caja se ve más o menos así:
Si IQR = 4, entonces el límite inferior en los valores atípicos es Q1 – 1.5 × IQR = 38 – 1.5 × 4 = 32 y el límite superior en los valores atípicos es Q3 + 1.5 × IQR = 42 + 4 × 1.5 = 48.Podemos agregarlos como líneas verticales en el gráfico de caja.
Podemos ver que el 62 es un valor atípico porque sobrepasa estos límites. Cuando hay un valor atípico en un lado del conjunto de datos, podemos cortar el bigote en el límite y luego registrar los valores atípicos como puntos de datos. De este modo, el gráfico de caja final para este conjunto de datos se vería así:
Los estudiantes deben entender que al excluir este valor atípico se cambia la media considerablemente, pero no la mediana. La ausencia o presencia de valores atípicos puede provocar que la media o la mediana sea más representativa del centro de los datos, y los estudiantes deben poder elegir cuál prefieren según los datos. Además, deben poder identificar los valores atípicos calculando los límites de acuerdo al IQR y deben explicar de manera lógica la razón por la cual pueden existir valores atípicos en un contexto específico.
A continuación se ofrece un video que pueden usar los maestros a modo de recurso para explicar la curva de distribución normal.