Gestão Financeira

05/05/2015

Box Plot: o que é, para que serve e com construir?

Box Plot, também conhecido como diagrama de caixa, é uma ferramenta gráfica e estatística que nos auxilia a representar alterações em dados e interpretar suas variáveis. Confira neste artigo mais sobre o conceito e aprenda, em poucos passos, a elaborar um Box Plot no Minitab. 

O que é um Box Plot?

Para a estatística, o Box Plot (Diagrama de Caixa) é, em suma, um resumo gráfico da distribuição de uma amostra. Seu gráfico apresenta qual é a forma, a tendência central e a variabilidade da amostra analisada. Sua aplicação é uma alternativa a outros métodos conhecidos como o histograma, por exemplo. 

Quais são os elementos de um gráfico Box Plot?

Box Plot são úteis para identificar outliers e para comparar distribuições. Para construir um box plot, há várias maneiras, mas o início dá-se pelo cálculo do primeiro quartil, a mediana e o terceiro quartil. A linha inferior é o primeiro quartil, ou limite dos 25% dos dados. A linha média é a mediana e a linha superior é o terceiro quartil. 

Os bigodes são linhas verticais que terminam em um traço horizontal. Os bigodes são extraídos das dobradiças superior e inferior para os valores superior e inferior ao primeiro e terceiro quartis, representando os valores de máximo e mínimo da distribuição. Há ainda, os outliers que são pontos cujo valor é 50% maior do que o terceiro quartil ou 50% menor que o primeiro quartil

O Box Plot pode ser colocado em um plano de coordenadas semelhante ao sistema cartesiano, de modo que os cinco valores, dispostos na vertical um acima do outro, correm paralelos à variável dependente ou ao eixo y

Em algumas situações, dois ou mais Box Plot podem ser colocados lado a lado num plano de coordenadas cartesiano para mostrar como um fenômeno ou cenário evolui com o tempo, que é plotado ao longo da variável independente ou eixo x. De vez em quando, um box plot único é inclinado em seu lado, portanto, os valores são executados da esquerda para a direita (mínimo para máximo) em vez de de baixo para cima.

Para que serve um Box Plot?

Um box plot é um gráfico utilizado para representar visualmente a distribuição de um conjunto de dados, mostrando informações importantes, como a mediana, quartis, valores mínimos e máximos, além de possíveis valores discrepantes (outliers). Ele é muito útil para identificar padrões e características dos dados, tais como sua simetria, dispersão, tendência central e presença de valores extremos.

É útil em diversas áreas, tais como estatística, ciência de dados, engenharia, finanças e pesquisas em geral. Por exemplo, ele pode ser utilizado para comparar a distribuição de variáveis entre grupos de dados, identificar valores discrepantes em experimentos científicos, ou para analisar a distribuição de preços de ações no mercado financeiro.

Como interpretar o Box Plot?

Como objetivo central, o Box Plot propõe a verificação da distribuição de determinados dados. Portanto, ao analisarmos sua conclusão gráfica, consideramos o centro dos dados (média ou mediana), a amplitude dos dados (máximo - limite superior ou mínimo - limite inferior), bem como a simetria ou falta dela no conjunto de dados e a própria presença de outliers.

Outliers

São pontos ou asteriscos presentes fora das “linhas” desenhadas. Ou seja, é um valor que foge da normalidade dos dados e que pode, ou irá, causar anomalias nos resultados obtidos. Esses valores discrepantes requisitam atenção do profissional que elabora e analisa o gráfico Box Plot, pois sua interpretação infere grande importância para a discussão do assunto representado no gráfico.

Quartis

Um quartil é um valor que divide uma determinada parcela de dados em quatro partes iguais. Através deles podemos com maior eficácia avaliar e interpretar a dispersão e a tendência central representadas no gráfico. Quartis podem ser divididos em superiores e inferiores. Em geral, 75% dos pontos se alocam abaixo do quartil superior, enquanto  25% são representados abaixo do quartil inferior.

5 Definições importantes:

Além dos outliers e quartis, há outros importantes termos que são utilizados em um Box Plot. Listamos para você cada um dos termos e sua definição, confira:

  1. Máximo (Maximum): Configura o maior valor, excluindo os outliers;
  2. Mínimo (Minimum): Abrange o menor valor, também excluindo os outliers; 
  3. Mediana (Median): A mediana é o ponto de um intervalo médio dos dados e nos é apresentada pela linha que divide a “caixa” em duas partes. Metade das pontuações são maiores ou iguais a esse valor e metade são menores a ele;
  4. Intervalo Interquartil: O meio da “caixa” representa 50% das pontuações para o grupo. A gama de pontos do quartil inferior ao superior é referida como a faixa interquartil. Os 50% médios das pontuações estão dentro da faixa interquartil;
  5. Bigodes: Divididos em superiores e inferiores, os bigodes representam pontos fora dos 50%. Bigodes muitas vezes (mas nem sempre) avançam sobre uma gama mais ampla de pontuações do que os grupos de quartil médio.

Quais são as variantes de Box Plot e quando usá-las?

Box Plot Simples

É o tipo mais comum de box plot, que mostra a distribuição de um conjunto de dados usando um retângulo (a caixa) que representa o intervalo interquartil (IQR), as linhas (os "whiskers") que se estendem a partir da caixa representando a distribuição dos dados além do IQR e os pontos que representam outliers. Esse tipo de box plot é útil para visualizar a distribuição de um conjunto de dados e identificar outliers.

Box Plot com média

Esse tipo de box plot inclui uma linha que representa a média dos dados, além da caixa e dos whiskers. É útil quando a média é uma estatística importante para se analisar.

Box Plot com percentis

Esse tipo de box plot usa os percentis em vez dos quartis para definir a caixa e os whiskers. Isso pode ser útil quando você deseja visualizar a distribuição dos dados em intervalos específicos.

Notched Box Plot

Esse tipo de box plot usa um entalhe (notch) na caixa para mostrar a incerteza em torno da mediana. É útil quando você deseja comparar a mediana de dois ou mais grupos de dados.

Violin Plot

Esse tipo de plot combina um box plot com um gráfico de densidade. Ele mostra a distribuição de um conjunto de dados como um "violino" em vez de uma caixa, o que pode ser útil para visualizar distribuições complexas.

Box Plot empilhado

Esse tipo de box plot empilha vários conjuntos de dados uns sobre os outros em um mesmo gráfico. Ele pode ser útil para visualizar a distribuição de dados entre vários grupos, permitindo a comparação direta entre eles.

 

O curso gratuito de "Fundamentos da Ciência de Dados" da FM2S é uma ponte vital para profissionais que aspiram a transformar suas carreiras utilizando habilidades altamente relevantes no contexto de negócios moderno. Especialmente focado em interpretar e analisar grandes volumes de dados, este curso ensina a maximizar o valor para o cliente e a fortalecer a competitividade no mercado através de uma gestão de dados eficaz e inovadora.

Um dos aspectos cruciais da ciência de dados abordados neste curso é o entendimento e aplicação de técnicas estatísticas, como o box plot

Este curso é ideal para quem deseja impulsionar sua trajetória profissional e aprimorar suas habilidades em análise de dados, tornando-se um profissional mais competitivo e preparado para os desafios do mercado moderno.

Quando usar um Box Plot em vez de um histograma ou gráfico de barras?

Distribuição dos dados

O box plot é uma boa escolha quando você deseja visualizar a distribuição dos dados, incluindo a mediana, quartis e possíveis outliers. Por outro lado, o histograma é uma boa escolha quando você deseja visualizar a forma geral da distribuição, incluindo a frequência de ocorrência de valores em cada intervalo.

Comparação de grupos

O box plot é uma boa escolha quando você deseja comparar a distribuição de variáveis entre dois ou mais grupos. Por outro lado, o gráfico de barras é uma boa escolha quando você deseja comparar a frequência de ocorrência de diferentes categorias ou valores discretos entre dois ou mais grupos.

Tamanho da amostra

O histograma e o gráfico de barras são boas escolhas quando você tem muitos dados, pois permitem visualizar a distribuição de frequência de cada valor ou categoria. Por outro lado, o box plot é uma boa escolha quando você tem menos dados, pois ele fornece uma visualização clara das características principais da distribuição, sem precisar visualizar cada valor individual.

Enfatizar valores extremos

O box plot é uma boa escolha quando você deseja enfatizar a presença de possíveis outliers ou valores extremos. Por outro lado, o histograma e o gráfico de barras não destacam os valores extremos de maneira tão clara quanto o box plot.

Quais são as limitações do Box Plot?

Simplificação da distribuição dos dados

O box plot fornece uma visualização resumida da distribuição dos dados, incluindo informações como a mediana, quartis, valores mínimos e máximos e possíveis outliers. No entanto, ele não fornece informações detalhadas sobre a forma exata da distribuição, como a presença de múltiplos picos, assimetria ou curtose. Portanto, o box plot pode não ser adequado para analisar distribuições complexas.

Perda de informação sobre a frequência de ocorrência de valores individuais

O box plot não fornece informações detalhadas sobre a frequência de ocorrência de cada valor individual, o que pode ser importante para algumas análises. Por exemplo, em um conjunto de dados com valores repetidos, o box plot não indicará quantas vezes cada valor aparece.

Sensibilidade à escolha do tamanho do intervalo

A largura do intervalo de cada box plot pode influenciar a visualização da distribuição dos dados. Se o intervalo for muito largo, os detalhes da distribuição podem ser perdidos. Por outro lado, se o intervalo for muito estreito, os outliers podem se tornar mais proeminentes do que deveriam.

Dificuldade em comparar distribuições com diferentes escalas

Quando os dados possuem escalas diferentes, pode ser difícil comparar a distribuição de um conjunto de dados com outro usando o box plot. Isso ocorre porque a escala afeta a largura da caixa e o comprimento dos whiskers.

Potencial para interpretação errônea

Assim como qualquer método de visualização de dados, o box plot pode ser interpretado incorretamente se a pessoa que o utiliza não entender suas propriedades e limitações. Por exemplo, a presença de um outlier em um box plot não significa necessariamente que houve um erro ou problema com o conjunto de dados.

Dica:

Nosso curso de certificação Black Belt apresenta as ferramentas mais básicas (inclui o módulo Green Belt) e mais avançadas (em seu módulo Transição Black Belt). Os alunos aprendem ferramentas avançadas de estatística, bem como técnicas de gestão estratégica e ferramentas para análise, o software Minitab incluso. A abordagem do curso da FM2S é extremamente prática.

Como fazer um Box Plot no Minitab?

O Minitab é um ótimo software estatístico que é muito utilizado para a elaboração de gráficos e análise de dados. Sua facilidade de aprendizado, intuitividade e rapidez de preparação de gráficos, são pontos de destaque para a ferramenta. Além disso, qualquer pessoa tem acesso a versão de teste, totalmente gratuita, realizando o download no site do próprio Minitab.

Para exemplificar, vamos utilizar a proposta que abordamos em nosso post sobre “A produção de cerveja no Brasil”. Ou seja, nosso objetivo aqui é explicar de maneira gráfica e assertiva, o comportamento da produção mensal de bebidas ao longo de diferentes anos. Verificando assim, qual é a distribuição do volume de produção.

Assim que tiver acesso ao software, siga os seguintes passos:

Colete os dados

Para esse exemplo, coletamos os dados de produção de bebidas no site do SICOBE. Em seguida, você deve organizar os dados em uma planilha para que o Minitab consiga elaborar o gráfico requisitado. Confira a organização do nosso conjunto de dados observando a figura 1. As demais instruções para elaborá-lo são apresentadas nas figuras de 2 a 5.

Com o banco de dados pronto, vamos ao passo a passo para elaborarmos o gráfico.

Determine o gráfico

Clicando no menu “Graph”, seu próximo passo é selecionar o campo Box Plot. Confira a imagem abaixo:

Em seguida, selecione o gráfico simples assegurando-se de marcar a opção com múltiplos Y, como mostrado na imagem:

Selecione os meses, englobando o período de janeiro até dezembro.

Clique na caixa “label” e selecione “outliers”. Marque a opção “Use labels from colum” e em seguida selecione a coluna data.

Analise o gráfico

Ao fim da elaboração, seu gráfico Box Plot referente a produção de bebidas no brasil ao longo de doze diferentes meses estará visível para interpretação

Enfim, conseguimos enxergar o comportamento produtivo de cada um dos meses do ano. Percebendo, por exemplo, que dezembro é o mês de maior produção, independente do ano. Já junho, por outro lado, é o de menor produção.

Além disso, conseguimos conhecer o perfil dos meses em relação aos diferentes anos. 

Por exemplo, janeiro é um mês de bastante variação, pois é possível enxergar que a barra vai desde 1,098 milhões de litros até 1,393 milhões. Por outro lado, junho é o de menor variação com o volume partindo de 1,054 milhões e chegando até 1,112 milhões. 

Leia Mais: