Not all roles available for this page.
Sign in to view assessments and invite other educators
Sign in using your existing Kendall Hunt account. If you don’t have one, create an educator account.
Algebra 1 Unit 1 Useful Terms and Displays, Spanish
El histograma y el diagrama de caja muestran la cantidad promedio de dinero, en miles de dólares, que cada uno de 34 países gasta en salud por cada persona (el gasto per cápita).
Este es el conjunto de datos que se usó para crear el histograma y el diagrama de caja del calentamiento.
Aunque los datos atípicos no se deben quitar sin haber considerado su origen, es importante ver cómo estos pueden influir en varios estadísticos. Para llevar a cabo este análisis, quita el valor del gasto en los Estados Unidos del conjunto de datos.
Cada una de las situaciones que se describen aquí tiene un dato atípico. En cada situación, ¿cómo decidirías si es apropiado mantener o quitar el dato atípico cuando se analicen los datos? Discute con tu compañero lo que pensaste.
En una clase de Ciencias, 11 grupos de estudiantes están sintetizando biodiésel. Al final del experimento, cada grupo de estudiantes registró la masa, en gramos, del biodiésel que sintetizó. Las masas son:
En estadística, un dato atípico es un valor que es inusual porque se diferencia bastante de los otros valores del conjunto de datos.
En los conjuntos de datos puede haber datos atípicos por varias razones, incluidas, entre otras:
Analizar datos atípicos nos puede ayudar a descubrir casos que vale la pena estudiar en detalle o errores en el proceso de recolección de datos. En general, los datos atípicos deben ser parte de todo análisis que se realice con los datos.
Un valor es un dato atípico si alguna de estas condiciones ocurre:
En este diagrama de caja hay por lo menos dos datos atípicos: el mínimo y el máximo.
Es importante identificar el origen de los datos atípicos porque estos pueden influir de manera significativa en las medidas de centro y de variabilidad. El siguiente diagrama de caja resume las frecuencias cardíacas en reposo de 50 deportistas cinco minutos después de un entrenamiento, en latidos por minuto (bpm por su sigla en inglés).
Estos son algunos estadísticos de resumen:
El valor máximo, 112 bpm, parece ser un dato atípico. Como el rango intercuartil es 14 bpm () y , debemos considerar el valor máximo como un dato atípico. Al revisar todos los valores del conjunto de datos, se pudo confirmar que, en efecto, este era el único dato atípico.
Después de revisar el proceso de recolección de datos, se descubrió que la frecuencia cardíaca de 112 bpm se le midió a un deportista un minuto después del entrenamiento, en vez de cinco minutos después. El dato atípico debe borrarse del conjunto de datos porque no se obtuvo bajo las condiciones correctas.
Después de quitar el dato atípico, el diagrama de caja y los estadísticos de resumen son:
La media disminuyó 0.86 bpm y la mediana se mantuvo igual. La desviación estándar disminuyó 1.81 bpm, aproximadamente el 17% de su valor anterior. Basándose en la desviación estándar, el conjunto de datos sin el dato atípico muestra mucha menos variabilidad que el conjunto original de datos, que incluía al dato atípico. Como la media y la desviación estándar tienen en cuenta todos los valores numéricos, quitar un punto de dato muy grande puede influir ampliamente en estos estadísticos.
La mediana se mantuvo igual después de quitar el dato atípico y el IQR aumentó ligeramente. Estas medidas de centro y de variabilidad son mucho más resistentes al cambio que la media y la desviación estándar. La mediana y el IQR miden los datos de la mitad central basándose más en la cantidad de valores que en los valores numéricos en sí mismos. Así que, por lo general, la pérdida de un solo valor no tendrá un efecto tan grande en estos estadísticos.
Siempre se debe investigar el origen de cualquier posible error. Supongamos que se descubre que la medida de 112 latidos por minuto se midió bajo las condiciones correctas y que simplemente se debió a que la frecuencia cardíaca de un deportista no se redujo como la frecuencia cardíaca de los otros deportistas. En este caso, para que los datos reflejen las medidas reales, este dato no se debe borrar. Si no es posible volver a la situación para determinar el origen de un dato atípico, este no se debe quitar. Para evitar la alteración de los datos y para reportar resultados precisos, los valores de los datos no se deben borrar, a menos que se pueda confirmar que provienen de un error durante los procesos de recolección o de ingreso de los datos.