O Box Plot, ou diagrama de caixa, é uma ferramenta gráfica e estatística usada para analisar a distribuição de variáveis numéricas. Ele permite visualizar a dispersão dos dados, identificar a mediana e detectar possíveis outliers. Neste artigo, você entenderá esse conceito e aprenderá, em poucos passos, como elaborar um Box Plot no Minitab.
O que é um Box Plot?
Para a estatística, o Box Plot (Diagrama de Caixa) é, em suma, um resumo gráfico da distribuição de uma amostra. Seu gráfico apresenta qual é a forma, a tendência central e a variabilidade da amostra analisada. Sua aplicação é uma alternativa a outros métodos conhecidos como o histograma, por exemplo.
Quais são os elementos de um gráfico Box Plot?
Box Plot são úteis para identificar outliers e para comparar distribuições. Para construir um box plot, há várias maneiras, mas o início dá-se pelo cálculo do primeiro quartil, a mediana e o terceiro quartil. A linha inferior é o primeiro quartil, ou limite dos 25% dos dados. A linha média é a mediana e a linha superior é o terceiro quartil.
Os bigodes são linhas verticais que terminam em um traço horizontal. Os bigodes são extraídos das dobradiças superior e inferior para os valores superior e inferior ao primeiro e terceiro quartis, representando os valores de máximo e mínimo da distribuição. Há ainda, os outliers que são pontos cujo valor é 50% maior do que o terceiro quartil ou 50% menor que o primeiro quartil
O Box Plot pode ser colocado em um plano de coordenadas semelhante ao sistema cartesiano, de modo que os cinco valores, dispostos na vertical um acima do outro, correm paralelos à variável dependente ou ao eixo y.
Em algumas situações, dois ou mais Box Plots podem ser colocados lado a lado em um plano cartesiano para mostrar como uma variável numérica evolui ao longo do tempo. Nesse caso, o tempo é representado no eixo X, enquanto a variável numérica analisada fica no eixo Y.
Em alguns casos, um Box Plot único pode ser rotacionado, fazendo com que os valores da variável numérica sejam exibidos da esquerda para a direita (mínimo para máximo), em vez de seguir a orientação vertical padrão.
Para que serve um Box Plot?
Um box plot é um gráfico utilizado para representar visualmente a distribuição de um conjunto de dados, mostrando informações importantes, como a mediana, quartis, valores mínimos e máximos, além de possíveis valores discrepantes (outliers). Ele é muito útil para identificar padrões e características dos dados, tais como sua simetria, dispersão, tendência central e presença de valores extremos.
É útil em diversas áreas, tais como estatística, ciência de dados, engenharia, finanças e pesquisas em geral. Por exemplo, ele pode ser utilizado para comparar a distribuição de variáveis entre grupos de dados, identificar valores discrepantes em experimentos científicos, ou para analisar a distribuição de preços de ações no mercado financeiro.
Como interpretar o Box Plot?
Como objetivo central, o Box Plot propõe a verificação da distribuição de determinados dados. Portanto, ao analisarmos sua conclusão gráfica, consideramos o centro dos dados (média ou mediana), a amplitude dos dados (máximo - limite superior ou mínimo - limite inferior), bem como a simetria ou falta dela no conjunto de dados e a própria presença de outliers.
Outliers
São pontos ou asteriscos presentes fora das “linhas” desenhadas. Ou seja, é um valor que foge da normalidade dos dados e que pode, ou irá, causar anomalias nos resultados obtidos. Esses valores discrepantes requisitam atenção do profissional que elabora e analisa o gráfico Box Plot, pois sua interpretação infere grande importância para a discussão do assunto representado no gráfico.

Quartis
Um quartil é um valor que divide uma determinada parcela de dados em quatro partes iguais. Através deles podemos com maior eficácia avaliar e interpretar a dispersão e a tendência central representadas no gráfico. Quartis podem ser divididos em superiores e inferiores. Em geral, 75% dos pontos se alocam abaixo do quartil superior, enquanto 25% são representados abaixo do quartil inferior.

Máximo e mínimo
O máximo é o maior valor do conjunto de dados, excluindo os outliers. Já o mínimo é o menor valor, também desconsiderando os outliers. Esses limites ajudam a entender a dispersão dos dados sem a influência de pontos extremos.
Mediana
A mediana divide os dados em duas partes iguais. No Box Plot, aparece como uma linha dentro da caixa. Metade dos valores estão acima dela e metade estão abaixo. Esse indicador representa o ponto central da distribuição, ajudando a entender a tendência dos dados.
Intervalo Interquartil (IQR)
O Intervalo Interquartil (IQR) corresponde à faixa entre o primeiro (quartil Q1) e o terceiro quartil (Q3). Isso significa que 50% dos dados estão dentro da caixa do Box Plot. Essa medida ajuda a visualizar a dispersão central e detectar possíveis outliers.
Bigodes
Os bigodes se estendem a partir da caixa e representam os valores fora do intervalo interquartil, mas que ainda estão dentro do limite aceitável. Eles podem variar de tamanho dependendo da dispersão dos dados. Se um valor ultrapassa 1,5 vezes o IQR, é considerado um outlier e plotado separadamente.
Quais são as variantes de Box Plot e quando usá-las?
Box Plot Simples
É o tipo mais comum de box plot, que mostra a distribuição de um conjunto de dados usando um retângulo (a caixa) que representa o intervalo interquartil (IQR), as linhas (os "whiskers") que se estendem a partir da caixa representando a distribuição dos dados além do IQR e os pontos que representam outliers. Esse tipo de box plot é útil para visualizar a distribuição de um conjunto de dados e identificar outliers.
Box Plot com média
Esse tipo de box plot inclui uma linha que representa a média dos dados, além da caixa e dos whiskers. É útil quando a média é uma estatística importante para se analisar.
Box Plot com percentis
Esse tipo de box plot usa os percentis em vez dos quartis para definir a caixa e os whiskers. Isso pode ser útil quando você deseja visualizar a distribuição dos dados em intervalos específicos.
Notched Box Plot
Esse tipo de box plot usa um entalhe (notch) na caixa para mostrar a incerteza em torno da mediana. É útil quando você deseja comparar a mediana de dois ou mais grupos de dados.
Violin Plot
Esse tipo de plot combina um box plot com um gráfico de densidade. Ele mostra a distribuição de um conjunto de dados como um "violino" em vez de uma caixa, o que pode ser útil para visualizar distribuições complexas.
Box Plot empilhado
Esse tipo de box plot empilha vários conjuntos de dados uns sobre os outros em um mesmo gráfico. Ele pode ser útil para visualizar a distribuição de dados entre vários grupos, permitindo a comparação direta entre eles.
O curso gratuito de "Fundamentos da Ciência de Dados" da FM2S é uma ponte vital para profissionais que aspiram a transformar suas carreiras utilizando habilidades altamente relevantes no contexto de negócios moderno. Especialmente focado em interpretar e analisar grandes volumes de dados, este curso ensina a maximizar o valor para o cliente e a fortalecer a competitividade no mercado através de uma gestão de dados eficaz e inovadora.

Um dos aspectos cruciais da ciência de dados abordados neste curso é o entendimento e aplicação de técnicas estatísticas, como o box plot.
Quando usar um Box Plot em vez de um histograma ou gráfico de barras?
Distribuição dos dados
O box plot é uma boa escolha quando você deseja visualizar a distribuição dos dados, incluindo a mediana, quartis e possíveis outliers. Por outro lado, o histograma é uma boa escolha quando você deseja visualizar a forma geral da distribuição, incluindo a frequência de ocorrência de valores em cada intervalo.
Comparação de grupos
O box plot é uma boa escolha quando você deseja comparar a distribuição de variáveis entre dois ou mais grupos. Por outro lado, o gráfico de barras é uma boa escolha quando você deseja comparar a frequência de ocorrência de diferentes categorias ou valores discretos entre dois ou mais grupos.
Tamanho da amostra
O histograma e o gráfico de barras são boas escolhas quando você tem muitos dados, pois permitem visualizar a distribuição de frequência de cada valor ou categoria. Por outro lado, o box plot é uma boa escolha quando você tem menos dados, pois ele fornece uma visualização clara das características principais da distribuição, sem precisar visualizar cada valor individual.
Enfatizar valores extremos
O box plot é uma boa escolha quando você deseja enfatizar a presença de possíveis outliers ou valores extremos. Por outro lado, o histograma e o gráfico de barras não destacam os valores extremos de maneira tão clara quanto o box plot.
Quais são as limitações do Box Plot?
Simplificação da distribuição dos dados
O box plot fornece uma visualização resumida da distribuição dos dados, incluindo informações como a mediana, quartis, valores mínimos e máximos e possíveis outliers. No entanto, ele não fornece informações detalhadas sobre a forma exata da distribuição, como a presença de múltiplos picos, assimetria ou curtose. Portanto, o box plot pode não ser adequado para analisar distribuições complexas.
Perda de informação sobre a frequência de ocorrência de valores individuais
O box plot não fornece informações detalhadas sobre a frequência de ocorrência de cada valor individual, o que pode ser importante para algumas análises. Por exemplo, em um conjunto de dados com valores repetidos, o box plot não indicará quantas vezes cada valor aparece.
Sensibilidade à escolha do tamanho do intervalo
A largura do intervalo de cada box plot pode influenciar a visualização da distribuição dos dados. Se o intervalo for muito largo, os detalhes da distribuição podem ser perdidos. Por outro lado, se o intervalo for muito estreito, os outliers podem se tornar mais proeminentes do que deveriam.
Dificuldade em comparar distribuições com diferentes escalas
Quando os dados possuem escalas diferentes, pode ser difícil comparar a distribuição de um conjunto de dados com outro usando o box plot. Isso ocorre porque a escala afeta a largura da caixa e o comprimento dos whiskers.
Potencial para interpretação errônea
Assim como qualquer método de visualização de dados, o box plot pode ser interpretado incorretamente se a pessoa que o utiliza não entender suas propriedades e limitações. Por exemplo, a presença de um outlier em um box plot não significa necessariamente que houve um erro ou problema com o conjunto de dados.
Dica:
Nosso curso de certificação Black Belt apresenta as ferramentas mais básicas e mais avançadas . Os alunos aprendem ferramentas avançadas de estatística, bem como técnicas de gestão estratégica e ferramentas para análise, o software Minitab incluso. A abordagem do curso da FM2S é extremamente prática.
Como fazer um Box Plot no Minitab?
O Minitab é um ótimo software estatístico que é muito utilizado para a elaboração de gráficos e análise de dados. Sua facilidade de aprendizado, intuitividade e rapidez de preparação de gráficos, são pontos de destaque para a ferramenta. Além disso, qualquer pessoa tem acesso a versão de teste, totalmente gratuita, realizando o download no site do próprio Minitab.
Colete os dados
Para exemplificar, vamos utilizar uma situação fictícia sobre "A Produção de Cerveja no Brasil". Nosso objetivo aqui é explicar de maneira gráfica e assertiva o comportamento da produção mensal de bebidas ao longo de diferentes anos, verificando a distribuição do volume de produção.
Os dados podem ser coletados de uma fonte confiável e organizados em uma planilha. Aqui está um exemplo de como você pode organizar os dados:
Mês | Ano | Produção (milhões de litros) |
Janeiro | 2020 | 1.120 |
Fevereiro | 2020 | 1.150 |
Março | 2020 | 1.120 |
… | … | … |
Dezembro | 2020 | 1.130 |
Janeiro | 2021 | 1.098 |
Fevereiro | 2021 | 1.125 |
… | … | … |
Dezembro | 2021 | 1.350 |
Passo a Passo para Elaborar o Box Plot
- Abra o Minitab: Certifique-se de que você tem o software instalado e aberto no seu computador.
- Insira os Dados: Digite os dados na planilha do Minitab, organizando-os de forma que cada coluna corresponda ao mês, ao ano e à produção, conforme o exemplo acima.
- Selecione o Gráfico: No menu superior, clique em Graph. Selecione a opção Boxplot.
- Configurar o Gráfico: Escolha Multiple Y’s para comparar a produção em diferentes meses. Insira as colunas de dados que contêm as informações de produção mensal.
- Personalizar o Box Plot: Para identificar os outliers, clique na caixa Labels e selecione Outliers. Marque a opção Use labels from column e selecione a coluna correspondente às datas ou outra identificação pertinente.
O Box Plot é uma ferramenta poderosa para visualizar a distribuição de variáveis numéricas, identificar padrões e detectar outliers de forma clara e objetiva. Seu uso facilita a análise estatística em diversas áreas, desde ciência de dados até controle de qualidade. Dominar essa técnica permite tomar decisões mais embasadas, interpretar conjuntos de dados com mais precisão e comparar distribuições de forma eficiente.