Como fazer uma Regressão Linear no Excel?
A princípio, a análise de regressão linear gerará uma equação que descreve a relação estatística entre uma ou mais variáveis preditoras (X1, X2, Xn) e a variável resposta (Y). A regressão linear encontra a linha que melhor representa as variáveis de entrada (X1, X2, Xn) com a variável de saída (Y). Ademais, se você quiser aplicar essa técnica na sua empresa, comece baixando nossa Apostila Green Belt. Onde você pode encontrar o passo a passo para executar essa técnica usando o Minitab.
No entanto, se você não possui o Minitab na empresa, mas mesmo assim quer aplicar a técnica, continue lendo, pois é isso que vamos explicar aqui. Alias, o post de hoje tem por objetivo ajudá-lo a entender uma das ferramentas mais utilizadas em estatística para se verificar a existência de correlação entre variáveis. Já explicamos como interpretar uma regressão linear, além disso, hoje iremos ensinar como fazê-la no Excel - que foi o que já fizemos em nossa certificação Green Belt e revisamos na Black Belt.
Passo a Passo para sua Regressão Linear
Etapa 1: coletar os dados
Antes de tudo, para uma boa análise, uma boa coleta é fundamental. Nesse sentido, pode-se conferir na tabela 1 um extrato dos dados do exemplo que estamos utilizando: de um call center. Em síntese, a análise de interesse neste caso é saber se a variabilidade no número de atendimentos do call center está correlacionada ao tamanho da equipe disponível para atendê-los. Por isso esta análise é importante, pois dirá à empresa se é necessário fazer contratações para que a meta de atendimentos seja cumprida. Aliás, quantas vezes você já não se pegou pensando se mais gente poderia melhorar o atendimento de sua empresa?
Tabela 1: Extrato da tabela oriunda do formulário de coleta de dados.
Dia | Dia da Semana | Time slot | Intervalo de Tempo | Chamadas atendidas | Equipe |
1 | Mon | 1 | 6-6:30 | 6 | 3 |
2 | Tue | 1 | 6-6:30 | 7 | 6 |
3 | Wed | 1 | 6-6:30 | 7 | 4 |
4 | Thu | 1 | 6-6:30 | 10 | 5 |
5 | Fri | 1 | 6-6:30 | 9 | 6 |
6 | Mon | 1 | 6-6:30 | 11 | 4 |
7 | Tue | 1 | 6-6:30 | 12 | 4 |
Etapa 2: elaborar a análise de dados
Em seguida, após coletar e organizar os dados, partimos para a elaboração da análise. Ou seja, existem duas maneiras de se fazer isso no Excel, uma via gráfico de dispersão e outra mais completa. Em síntese, utilizando-se o módulo de análise de dados, a qual utilizaremos neste exemplo. Para acompanhar a análise, basta acompanhar o passo a passo a seguir.
[caption id="attachment_32944" align="aligncenter" width="1366"] passo 3[/caption]
[caption id="attachment_32945" align="aligncenter" width="1024"] [/caption]
Por fim, após realizar a sequência (fig. 1 a 6), você deve analisar o resultado obtido. Mas se você procurar no Excel uma análise de regressão padrão ele não irá traçar os gráficos de resíduos, que são importantes para verificar a qualidade da sua análise. Pois, muita gente incorre nesse erro. Até porque o Excel favorece esta análise errônea. Em algumas empresas, quando formam seus Green Belts, eles não chegam até aqui. Preferem pular essa etapa. Porém, a FM2S entende que nossos alunos merecem aprender, isto é, não apenas saber do que se trata.
Como analisar a regressão linear no Excel?
Por exemplo, deste artigo pedimos ao Excel que, além da análise padrão (Estatística da Regressão), nos mostrasse os resíduos da regressão. Com os resíduos expostos, pedimos então que nos mostrasse a plotagem dos resíduos, a plotagem de probabilidade normal e a plotagem de ajuste de linha.
Dessa maneira, esses gráficos servem para entendermos o comportamento dos resíduos, e analisarmos se há causas especiais ou se os resíduos estão sob controle. Dessa forma, caso haja, não é recomendável utilizar a análise de regressão elaborada. Sendo assim, um outro gráfico, de plotagem de probabilidade, serve para avaliarmos se a distribuição dos resíduos é uma curva normal ou se é necessário transformar as variáveis. Portanto, caso este gráfico seja uma reta, podemos concluir que a distribuição dos resíduos é normal.
Ademais, já no último gráfico, de plotagem de ajuste de linha, nos informa o valor previsto e o compara com os dados reais, permitindo a análise visual do comportamento dos resíduos ao longo do X. Ou seja, se observarmos o resíduo aumentar ao longo do eixo X, temos um forte indício de que algo está errado ou que a previsão se deteriora à medida que X aumenta.
Isto é, somente após essas muitas análises é que podemos verificar se a nossa regressão é adequada ou não. Caso não seja, uma das saídas possíveis é realizar a transformação das variáveis, como por exemplo, para log. Afinal, é muito comum em análises de regressão de dados econômicos, como o PIB por exemplo, termos de aplicar a transformação log nas variáveis, tanto na dependente (Y) como na independente (X). Decerto, ao fazermos isso, repetimos a análise e verificamos se o comportamento dos resíduos está adequado. Caso esteja, verificamos o novo R² e o novo coeficiente de correlação.
O que significa a correlação na regressão linear?
Contudo, nesta vida de consultor de empresas Master Black Belt, já observei várias barbaridades quando o assunto é regressão linear. Visto que, o primeiro e maior erro é o fato de muitas pessoas pensarem que regressão é previsão. Não é. Ou seja, regressão é uma maneira de correlacionarmos variabilidade entre as variáveis (X e Y). Outro erro é verificar a qualidade da regressão pelo R². Também está errado. Precisamos avaliar o gráfico dos resíduos antes.
Ainda sim, ao ver tantos conceitos entendidos e aplicados de maneira errada, pergunto-me: qual será a razão disso? Afinal, acho que a principal é a falha do sistema educacional que forma pessoas sem os mínimos conhecimentos técnicos em estatística. Entretanto, possa que a outra razão pode estar no Excel. Em si, o programa é muito bom, não há dúvida, mas, por ser muito fácil, permite que as pessoas façam coisas sem saber bem o porquê. Dessa forma, possibilitando que qualquer um, sem conhecimento básico de estatística, vá lá e extraia o R² de um conjunto de dados e saia pelos quatro cantos afirmando inverdades.
Como apresentar sua Regressão Linear no Excel?
Em resumo, vale denotar que, sem a devida revisão e aproveitando-se do pouco conhecimento estatístico disponível nas empresas, este R² foge ao controle e vai parar numa reunião de planejamento estratégico. Lá, ele encontra a paixão grega que nos persegue até hoje pela retórica, argumentação e elaboração de teorias sem fundamentação nos experimentos e, após um ano, o estrago costuma ser grande. Portanto, ao usarmos o Excel, devemos ir com calma. Afinal, o próprio software pressupõe que você domina o conceito por trás dele, portanto, aprenda estatística básica antes de utilizar o Excel.
Certamente, uma das coisas boas do Minitab é que ele é mais complicado de mexer. Pois, à primeira vista, exige que o operador esteja mais por dentro dos conceitos antes de utilizar a ferramenta para sair cuspindo dados e análises rebuscadas.
Por fim, Como dica: Invistam no estudo e na capacitação da sua equipe nas ferramentas e conceitos de estatística. Salvo que, cada centavo investido retorna na proporção de 1:10 em menos de 1 ano. Só pela quantidade de deslizes que sua equipe deixará de cometer, vai economizar muita dor de cabeça e prejuízos.