jueves, 8 de octubre de 2009

Diagrama de Caja o Boxplot

Un diagrama de caja es un gráfico, basado en cuartiles, mediante el cual se visualiza un conjunto de datos. Está compuesto por un rectángulo, la "caja", y dos brazos, los "bigotes".
Es un gráfico que suministra información sobre los valores mínimo y máximo, los cuartiles Q1, Q2 o mediana y Q3, y sobre la existencia de valores atípicos y la simetría de la distribución.



Es la representación gráfica, basada en cuartiles, que ayuda a exhibir un conjunto de datos. Para construir un diagrama de caja, solo se necesita cinco estadísticos: el valor mínimo, Q1 (cuartel 1), la mediana, Q3 (cuartel 3) y el valor máximo.


Proporcionan una visión general de la simetría de la distribución de los datos; si la mediana no está en el centro del rectángulo, la distribución no es simétrica. Son útiles para ver la presencia de valores atípicos.



En 1977 John Tukey (citado por Hildebrand, 1997) publicó un tipo de gráfico estadístico para resumir información utilizando 5 medidas estadísticas: el valor mínimo, el primer cuartil, la mediana, el tercer cuartil y el valor máximo. Este tipo de gráfico recibe el nombre de gráfico de caja (boxplot).
Un gráfico de este tipo consiste en un rectángulo (caja), donde los lados más largos muestran el recorrido intercuartílico (RIC). Este rectángulo está dividido por un segmento vertical que indica donde se posiciona la mediana y por lo tanto su relación con los cuartiles primero y tercero ( recordemos que el segundo cuartil coincide con la mediana).
Este rectángulo se ubica a escala sobre un segmento que tiene como extremos los valores mínimo y máximo de la variable. Estos segmentos que quedan a izquierda y a derecha de la caja se llaman bigotes. ( Freund, Williams y Perles, 1992).



Tomemos un ejemplo: (Gráfico 1)
La variable medida en este caso es : tiempo en segundos para recorrer 100 m








Mediana
Primer cuartil Tercer cuartil
Valor mínimo de la variable Valor máximo de la variable
Los bigotes tienen un límite de prolongación, de modo que aquellos valores atípicos que se separan del cuerpo principal de datos se indican individualmente. A diferencia de otros métodos de presentación de datos, los gráficos de caja muestran los valores atípicos de la variable. Llamaremos valores atípicos de la variable a aquellos que están tan apartados del cuerpo principal de los datos que bien pueden representar los efectos de causas extrañas, como algún error de medición o registro. Su eliminación no se justifica, ya que el propósito del gráfico de caja consiste en brindarnos un mayor conocimiento de la forma en que se distribuyen los datos.
Tukey ( citado por Hildebrand, 1997) introduce un criterio para fijar los extremos de los bigotes. Para esto calcula 4 barreras, dos interiores y dos exteriores:
Barrera interior inferior=Primer cuartil – 1,5 . RIC
Barrera interior superior=Tercer cuartil + 1,5 . RIC
Barrera exterior inferior=Primer cuartil – 3 . RIC
Barrera exterior superior=Tercer cuartil + 3 . RIC
Recordemos que RIC (Recorrido Intercuartílico) es igual a la diferencia entre el Tercer cuartil y el Primero.
Si se consideran los valores de la variable comprendidos entre las dos barreras interiores, el valor mínimo de la variable y el valor máximo son los extremos de los bigotes.
Si existen valores de la variable comprendidos entre las barreras interiores y exteriores se consideran valores atípicos y se indican con *. Si existieren valores fuera de las barreras exteriores se consideran valores todavía más atípicos y se indican con · .
Por otra parte, este tipo de gráfico nos proporciona información con respecto a la simetría o asimetría de la distribución. Se utilizan los siguientes criterios: si la mediana está en el centro de la caja o cerca de él, constituye un indicio de simetría de los datos, si la mediana está considerablemente más cerca del primer cuartil indica que los datos son positivamente asimétricos y si está más cerca del tercer cuartil, señala que los datos son negativamente asimétricos. Asimismo, la longitud relativa de los bigotes se puede emplear como un indicio de su asimetría.
Una vez realizado el gráfico, ¿qué tipo de preguntas debemos formular para una mejor comprensión?
Algunas preguntas podrían ser las siguientes:

¿Qué porcentaje de los datos está representado por la caja?
¿Qué porcentaje representa cada uno de los bigotes?
¿Puede ser un bigote más largo que otro?. ¿Cuál es el significado?
¿Se encuentra la mediana siempre en el centro de la caja?


Ejemplo
Dominos Pizza ofrece entregas gratuitas de pizza a 15 km a la redonda. Raúl el propietario, desea información relacionada con el tiempo de entrega. ¿Cuánto tiempo tarda una entrega típica?. ¿En que margen de tiempos deben completarse la mayoría de las entregas?. En el caso de una muestra de 20 entregas, Raúl recopiló la siguiente información:
Valor mínimo = 13 min.
Cuartil 1 = 15 min.
Mediana = 18 min.
Cuartil 3 = 22 min.
Valor máximo = 30 min.
Elabore un diagrama de caja para los tiempos de entrega. ¿Qué conclusiones deduce sobre los tiempos de entrega?
El primer paso para elaborar un diagrama de caja consiste en crear una escala adecuada a lo largo del eje horizontal. Enseguida, dibujamos una caja que inicie en Q1 (15 min) y termine Q3 (22 min). Dentro de la caja trazamos una línea vertical para representar a la mediana (18 min). Por último, prolongamos líneas horizontales a partir de la caja dirigidas al valor mínimo (13 min) y al valor máximo (30 min). Estas líneas horizontales que salen de la caja, a veces reciben e nombre de bigotes, en virtud de que se asemejan a los bigotes de un gato.



El Diagrama de caja muestra que el valor medio de las entregas, 50%, consume entre 15 y 22 minutos. La distancia entre los extremos de la caja, 7 minutos, es el rango intercuartil. Este rango es la distancia entre el primer y tercer cuartel; muestra la propagación o dispersión de la mayoría de las entregas.
¿Cuál es la importancia entonces del uso de los gráficos de caja?
En particular, los gráficos de caja vinculan los conceptos de mediana, cuartiles, valor mínimo y máximo que los alumnos manejan individualmente pero no en forma global.

18 comentarios:

  1. hola profesor. una consulta;si los gráficos de caja vinculan los conceptos de la mediana, cuartiles, ect. de forma global. entonces la interpretación tambien es de forma global o individual. y si fuera global ¿cómo sería?.

    ResponderEliminar
  2. EXISTE UN ITEM EN EL MEGA STAT O MINITAB PARA REALIZAR EL GRAFICO DE CAJA, ASI COMO EXISTE PARA REALIZAR POLIGON, LINEAS DE SISOERCION,,,,,ETC,,,, O ES QUE CON LO DATOS YA OBTENIDOS DE LOS CUERTILES, MEDIANA, Y VALOR MAXIMO Y MINIMO, SOLO DEBO APLICAR LINEAS Y FORMANDOLO..........

    ResponderEliminar
  3. SUGERENCIA:

    * Por lo que yo tengo entendido el DIAGRAMA DE CAJA O BLOXPOT nos muestran o mejor dicho nos engloban los valores de la mediana, Cuartil 1 y 3, Valores Max. y Min. pero como un conjunto de datos, osea solo valores numericos y su representacion grafica, y cada uno posee una propia interpretacion, que ala vez se relacionan en conjunto, por ejemplo los cuartiles, por separado nos dan una propia interpretacion (dentro del DIAGRAMA DE CAJA) y juntos nos dan el recorrido intercuartilico.

    ResponderEliminar
  4. 2da SUGERENCIA:

    * En el MEGA STAT no hay una opcion que vincula para crear un DIAGRAMA DE CAJA O BOXPLOT(Es lo que tengo entendido), mientras que en el MINITAB si:

    - Si se tiene la version en español serian los siguientes pasos: BUSCAR LA OPCION DE GRÁFICA(En el menu de tareas del Minitab), DENTRO DE GRÁFICA, BUSCAR LA OPCION GRÁFICA DE CAJA Y DARLE CLICK (Una ves entrado alli seleccionar que tipo de GRAFICO DE CAJA deseas :Simple, Con Grupos, Multiples, etc...), Y FINALMENTE APARECERA UN CUADRO DONDE SE TENDRA QUE SELECCIONAR LA VARIABLE QUE SE DESEA USAR Y DAR CLICK EN ACEPTAR, y saldrá el gráfico de caja o BOXPLOT deseado.

    - Si se tiene la version en ingles serian los siguientes pasos: BUSCAR LA OPCION DE GRAPH(En el menu de tareas del Minitab), DENTRO DE GRAPH, BUSCAR LA OPCION GRAPH OF BOX... Y DARLE CLICK (Una ves entrado alli seleccionar que tipo de GRAFICO DE CAJA deseas :Simple, Groups, Multiples, etc...), Y FINALMENTE APARECERA UN CUADRO DONDE SE TENDRA QUE SELECCIONAR LA VARIABLE QUE SE DESEA USAR Y DAR CLICK EN ACEPTAR, y saldrá el gráfico de caja o BOXPLOT deseado.

    ResponderEliminar
  5. Hola profesro, las preguntas q usted colgo esta bn!pero aparte no va colgar preguntas propuestas par acr nosotros mismo!-paul arce

    ResponderEliminar
  6. Ing.Enrique Montenegro
    Estimado Harold los gráficos de caja vinculan los conceptos de la mediana y cuartiles, y nos señalan en forma indirecta como esta sesgada la distribución de los datos. Si son más de 2 distribuciones podemos comparar el comportamiento respecto a los datos cualitativos y realizar interpretaciones y análisis sobre ellas

    ResponderEliminar
  7. Estimado Miguel en el Megastat también es posible graficar el Boxplot ve a la opción de Estadistica Descriptiva y marca la opción boxplot (incluida con los otros estadigrafos como la Media, mediana, desviación estándar, etc...) y sale el gráfico, además también sale el doxplot (diagrama de puntos) no son tan estilizados como en el Minitab o el SPSS pero en caso no tienes el paquete lo puedes utilizar y te sirven de mucha ayuda.

    ResponderEliminar
  8. Estimado Enrique, felicitaciones por el gesto de compartir tus tips y las lecciones aprendidas ojala más de tus compañeros tengan esa buena predisposición, sobretodo en señalar las rutas en ambas versiones del minitab, sin embargo si en un punto tienes dudas (como el caso del Boxplot del Megastat)me lo planteas para aclarar el tema, pero muy bien y a todos les recuerdo que el objetivo de este blog es intercambiar opiniones, experiencias y enriquecer el conocimiento de todos que formamos esta comunidad virtual....

    ResponderEliminar
  9. Estimado Paul he publicado ejercicios resueltos sobre números indices y les envié la solución vía correo, pero no te preocupes voy a colgar muchos más ejercicios resueltos en el Blog sobretodo del tema de técnicas de conteo y probabilidades va hacer intensiva la práctica, además que a partir de ahora cada sábado voy a tomar un control rápido de media hora para evaluar el avance en estos tópicos...

    ResponderEliminar
  10. En el MEGASTAT sí se puede hacer diagrama de caja o puntos.
    La ruta es: Microsoft Excel/ MegaStat/ Descriptive Statics.
    Luego de seleccionar el rango puedes escoger cualquiera de las opciones que salen sobre los cálculos que se pueden hacer: Mediana, quartiles, moda, Máximo, Mínimo, Rango, entre otros. Ahí se debe hacer click o check a BoxPlot(diagrama de caja) o DotPlot (diagrama de puntos). Luego Aceptar con el botón OK.
    Leslie Figueroa

    ResponderEliminar
  11. Estimados alumnos como ya les había hecho el comentario anterior que es posible realizar el diagrama de cajas y el de puntos con el Megastat y gracias por el aporte de Leslie, que muy bien señala la ruta a seguir,la ventaja de hacerlo con el Megastat es que no todos disponemos del Minitab en nuestro trabajo por lo que el Excel casi siempre lo tenemos disponible. Sin embargo, recomiendo utilizar el MINITAB porque la potencialidad que tiene permite hacer Trabajos de mayor calidad para sus trabajos de investigación...incluso el SPSS que ojala en algún laboratorio futuro podamos instalarlo y poder utilizarlo para que vean su potencia... Finalmente en el blog se encuentra el Tutor del Megastat revísenlo aunque esta en Inglés es de fácil lectura...

    ResponderEliminar
  12. buenas tardes,
    cuento con el minitab 15 en español, quisiera saber si me pueden enviar un ejemplo completo de como se deteremina valores o datos atipicos,
    muchas gracias

    alex_avv@hotmail.com

    ResponderEliminar
  13. profesor un diagrama de caja sirve para decir que existe diferencia significativa entre dos comparaciones?, si los datos de ambos gruppos, pueden no tener diferncias significativas?

    ResponderEliminar
  14. oooooohhhhhhhhhhhh no me sacare un 1..kajkajkajakja

    ResponderEliminar
  15. Cómo podemos interpretar un gráfico en donde el tercer cuartil coincide con el límite superior?

    ResponderEliminar
  16. como podemos graficar un diagrama de cajas y bigotes en Excell de office 97. La única opción que me dá en los graficos es cotizaciones, con los gráficos de diagramas de cajas y bigotes.

    ResponderEliminar
  17. Muy buena su explicación, sinceramente, aunque aún no logro tener en claro qué significan los bigotes, ¿son solamente la presencia de los valores máximo y mínimo, o poseen influencia en la interpretación del diagrama de caja?

    ResponderEliminar
  18. ¿Por qué +- 1.5 rangos Inter cuartilico a cada lado? ¿Define alguna probabilidad?

    ResponderEliminar