Como fazer o teste da normalidade pela transformada Box-Cox?
O leitor que frequenta nosso espaço Seis Sigma com certeza já se deparou com gráficos de controle dos mais diversos tipos: gráficos U, gráficos P, NP, individuais, X-barra e S... O mais comum deles, com certeza, é o gráfico de individuais, também conhecido como gráfico X ou como gráfico I-MR, que é utilizado para mostrar o acompanhamento de uma variável contínua, como a temperatura, a pressão ou o pH, com o tempo. Vamos analisar aqui, brevemente, a situação em que este gráfico pode ser utilizado, devendo ser feito o chamado teste da normalidade. Caso o teste seja negativo, será preciso utilizar a transformada Box-Cox.
Assim, vamos resumir aqui as condições para o uso do gráfico de individuais, um dos gráficos mais utilizados, tanto na indústria quanto no setor de serviços, e um dos gráficos usados de forma errônea com maior frequência nestes ambientes, devido à falta de conhecimento disseminado a respeito da forma como este gráfico é obtido.
- O gráfico de individuais deve ser utilizado para variáveis contínuas. Uma forma simples para o leitor menos experiente saber se sua variável é contínua é analisando se ela pode ser expressa por um número fracionário, com casas decimais. Número de rugas é expresso por um número inteiro, 1, 2, 3, 4, ..., e não é uma variável contínua, enquanto que rugosidade, uma variável contínua, pode ser expressa como um número fracionário, como 0,002 mm, por exemplo.
- Variáveis e dados contínuos são fruto do resultado de quaisquer medidas de forma seguida, ao longo do tempo, mostrando como a medida muda em todo o tempo analisado. Exemplos de variáveis contínuas são: temperatura do forno a cada instante; velocidade de corte da serra a cada instante; e pH da água, medido continuamente pelas empresas que liberam dejetos em rios.
- A uma variável contínua está associado o conceito de métrica, ou seja, como a variável foi obtida.Um exemplo simples é o da pessoa que acompanha semanalmente seu peso: seu peso é medido de forma contínua, ao longo do tempo, sendo que a métrica utilizada para isto é a escala da balança, geralmente em quilogramas. O hidrômetro das casas registra de forma contínua o consumo de água, usando como métrica o volume de água, e a companhia energética registra continuamente o consumo de eletricidade, usando como métrica o kWh consumido.
Os dados medidos, para serem utilizados em um gráfico de individuais, devem pertencer a uma distribuição estatística normal (distribuição gausseana ou de Gauss). Esta distribuição, cuja curva característica, em forma de sino, é mostrada abaixo, apresenta algumas particularidades. A curva é simétrica ao redor da média, e as variâncias de duas distribuições normais são sempre aditivas: se juntarmos os dados de um conjunto A, cujos dados são normais, a um conjunto B, cujos dados também são normais, a variância total dos dados será a soma da variância dos dados de A com a variância dos dados de B.
Além disso, o intervalo formado pela média menos um desvio-padrão até a média mais um desvio-padrão corresponde a 68,26% dos dados; o intervalo formado pela média menos dois desvios-padrões até a média mais dois desvios-padrões corresponde a 95,44% dos dados; e o intervalo formado pela média menos três desvios-padrões até a média mais três desvios-padrões corresponde a 99,74% dos dados. Costuma-se tomar o intervalo da média menos três desvios-padrões até a média mais três desvios-padrões como a voz do processo, ou seja, representa a quase totalidade dos resultados entregues pelo processo.
Existem outras distribuições?
Apesar de ser a mais comum em processos, a distribuição normal não é a única que ocorre. Existem diversas outras distribuições estatísticas, como a distribuição binomial, encontrada em dados originados de classificação, a distribuição de Poisson, encontrada em dados de contagem, e a distribuição de qui-quadrado.
É possível utilizar, para testar a normalidade, o teste de Anderson-Darling, já programado em programas como o Minitab, e também na planilha da FM2S para construir gráficos de controle de individuais. Nesta planilha, é possível inserir até 50 dados medidos, e a planilha informa se o gráfico de controle pode ser utilizado, ou contra-indica o seu uso, caso contrário. Além disso, a planilha retorna um p-valor. O p-valor varia entre 0 e 1, e, para o teste de Anderson-Darling, representa a probabilidade de os dados serem normalmente distribuídos. A planilha da FM2S contra-recomenda o uso do gráfico em caso de o p-valor ser menor que 0,1, ou seja, em caso de a probabilidade de os dados estarem sobre uma curva normal ser menor que 10%.
Caso seja contra-recomendado o uso do gráfico de individuais, é possível recorrer ao método da transformada de Box-Cox: fazemos uma mesma operação matemática sobre cada um dos dados obtidos do processo, e os novos valores obtidos, que serão dados contínuos - mesmo que os dados originais não o sejam - seguirão uma distribuição aproximadamente normal.
Como funciona a matemática da normal?
Mas, afinal, qual a importância de realizar esta operação matemática? A importância consiste no fato de que o gráfico de controle só tem sentido caso se refira a dados normalmente distribuídos. Ou seja, os valores indicados para os limites de controle do gráfico são calculados com base em propriedades muito específicas da curva normal, e só valem para ela.
Assim, para dados que não são normais, dados fora dos limites de controle não apresentam nenhum significado, já que os limites de controle calculados não fazem sentido. Por outro lado, dados transformados pelo método de Box-Cox que estão fora dos limites de controle, ou que constituam uma tendência representam, de fato, a ocorrência de causa especial. Em caso de a causa especial ter sido intencionalmente provocada, leve a indicadores de processo superiores e seja perene, o gráfico de individuais da variável transformada será capaz de mostrar uma melhoria, o que não é possível pelo gráfico de individuais da variável original.
A transformada de Box-Cox transforma um dado X, obtido do processo, em um novo valor Y, tal que:
O parâmetro mostrado nesta equação é encontrado, por exemplo, por métodos computacionais, sendo que o Minitab fornece automaticamente este valor ao usuário. Após a análise do gráfico dos valores transformados - os valores Y - caso verificadas causas especiais, tendências ou melhoria, o analista retorna aos dados originais - o X correspondente ao Y - que indique alguma destas situações. O valor transformado indica que algo especial ocorreu, mas a interpretação da informação é feita a partir do dado original correspondente.
Em caso de ser possível trabalhar com as médias de subgrupos (ou lotes), a situação de análise da normalidade não é tão complexa. Existe um teorema da Estatística, chamado Teorema Central do Limite, que afirma que as médias dos subgrupos tendem a uma distribuição de forma normal. Quanto mais elementos tiver cada subgrupo, e quanto mais subgrupos existirem, mais próximo à distribuição normal estará o conjunto dos valores médios dos subgrupos.
Assim, antes de se analisar qualquer dado por meio de um gráfico de controle de individuais, é essencial avaliar se os dados são contínuos e distribuídos normalmente. Caso contrário, a análise realizada a partir de tais dados, se não acompanhada pela interpretação dos dados obtidos pelo método de Box-Cox, não terá significado e valor científico. Abordados no White Belt, Green Belt e Black Belt, além do Lean do PMP.
Quer se aprofundar ainda mais nesse assunto? Inscreva-se no Curso de Certificação Green Belt da FM2S
Ou faça parte da Assinatura FM2S clicando no banner abaixo:
[caption id="attachment_24739" align="aligncenter" width="680"] Assinatura FM2S[/caption]
Referência Bibliográfica
BOX, G. E. P.; COX, D. R. An analysis of transformations, Journal of the Royal Statistical Society, Series B, v.26, p.211-252, 1964.