O que é análise de regressão?
O que é análise de regressão?
A análise de regressão é uma maneira de classificar matematicamente qual variáveis realmente tem um impacto. Esta técnica responde às perguntas: quais os fatores que mais importam? O que podemos ignorar? Como esses fatores interagem uns com os outros? E, talvez o mais importante, quão certos somos sobre todos esses fatores? Estas são perguntas que respondemos nos nossos cursos de Black Belt.
Que tal um exemplo: suponha que você seja um gerente de vendas tentando prever os números do próximo mês. Você sabe que dezenas, talvez até mesmo centenas de fatores, como o tempo para a promoção, um competidor, um boato de um modelo novo e melhorado, podem afetar o número. Talvez as pessoas da sua organização tenham até uma teoria sobre o que terá o maior efeito nas vendas. "Confie em mim. Quanto mais chuva nós temos, mais vendemos. '" Seis semanas após a promoção do concorrente, as vendas sobem ".
Na análise de regressão, esses fatores são chamados de variáveis. Você tem sua variável dependente - o principal fator que você está tentando entender ou prever. No exemplo acima, a variável dependente é a venda mensal. E, então você tem suas variáveis independentes - os fatores que você suspeita ter um impacto em sua variável dependente.
Como funciona?
Para realizar uma análise de regressão, você coleciona os dados sobre as variáveis em questão. (Lembrete: você provavelmente não precisa fazer isso sozinho, mas é útil para você entender o processo que seu colega responsável pela análise dos dados utiliza.) Você tira todos os seus números de vendas mensais, digamos, nos últimos três anos e todos os dados sobre as variáveis independentes em que você está interessado. Neste caso, digamos que você também descobriu as chuvas mensais médias nos últimos três anos. Então você traça todas essas informações em um gráfico que se parece com isto:
[caption id="attachment_33540" align="aligncenter" width="300"] Figura 1: gráfico de dispersão[/caption]
O eixo Y é a quantidade de vendas (a variável dependente, a coisa em que você está interessado, está sempre no eixo y) e o eixo dos x é a precipitação total. Cada ponto azul representa os dados de um mês - quanto choveu nesse mês (x) e quantas vendas você fez no mesmo mês (y).
Olhando para esses dados, você provavelmente percebe que as vendas são maiores nos dias em que chove muito. Isso é interessante de saber, mas quanto mais? Se chover 3 mm, você sabe o quanto você vai vender? E se chover 4 mm?
Agora imagine desenhar uma linha no meio do gráfico acima, um que corre aproximadamente no meio de todos os pontos de dados. Esta linha irá ajudá-lo a responder, com certo grau de certeza, quanto você vende normalmente quando chove em um certo valor.
E a Linha de Regressão?
Isso é chamado de linha de regressão e é desenhado (usando um programa de estatísticas como o Minitab ou mesmo Excel) para mostrar a linha que melhor se adequa aos dados. Em outras palavras: "A linha vermelha é a melhor explicação da relação entre a variável independente e a variável dependente".
Além de desenhar a linha, seu programa de estatísticas também exibe uma fórmula que explica a inclinação da linha e se parece com algo assim:
Y = 200 + 5x + erro
[caption id="attachment_33542" align="aligncenter" width="300"] Figura 2: linha de dispersão[/caption]
Ignore o termo de erro por enquanto. Refere-se ao fato de que a regressão não é perfeitamente precisa. Apenas se concentre no modelo:
Y = 200 + 5x
O que esta fórmula está dizendo é que, se não houver "x", então, Y = 200. Então, historicamente, quando não choveu, você fez uma média de 200 vendas e você pode esperar fazer o mesmo no futuro assumindo que outras variáveis permanecem iguais. E no passado, por cada mm adicional de chuva, você fez uma média de mais cinco vendas. "Por cada incremento em que x sobe um, o y subiu às cinco".
E o erro nesta história?
Agora vamos retornar ao termo de erro. Você pode estar tentado dizer que a chuva tem um grande impacto nas vendas, se para cada mm você receber mais cinco vendas, mas se essa variável vale a pena, a sua atenção dependerá do termo de erro. Uma linha de regressão sempre tem um termo de erro porque, na vida real, variáveis independentes nunca são preditores perfeitos das variáveis dependentes. Em vez disso, a linha é uma estimativa baseada nos dados disponíveis. Então, o termo de erro diz o quão certo você pode estar sobre a fórmula. Quanto maior, menos certeza terá sua linha de regressão.
O exemplo acima usa apenas uma variável para prever o fator de interesse - neste caso chuva para prever as vendas. Normalmente é assim que iniciamos uma análise de regressão que quer entender o impacto de várias variáveis independentes. Então você pode incluir não apenas a chuva, mas também dados sobre a promoção de um competidor. Você deve continuar fazendo isso até o termo de erro ficar muito pequeno. Tente obter a linha que melhor se adapta aos seus dados. Embora possa haver perigos ao incluir muitas variáveis em uma análise de regressão, analistas qualificados podem minimizar esses riscos. E, considerar o impacto de muitas variáveis ao mesmo tempo, é uma das maiores vantagens da regressão.
Como as empresas o usam?
A análise de regressão é o método "go - no go" na análise de dados. Empresas inteligentes usam isso para tomar decisões sobre todos os tipos de questões comerciais. Como gerentes, queremos descobrir como podemos impactar vendas, retenção de funcionários ou recrutar as melhores pessoas. Isso nos ajuda a descobrir o que podemos fazer.
A maioria das empresas usa análise de regressão para explicar um fenômeno que eles querem entender (por exemplo, por que as chamadas de serviço ao cliente caíram no mês passado?); prever coisas sobre o futuro (por exemplo, com o que as vendas parecerão nos próximos seis meses?); ou para decidir o que fazer (por exemplo, devemos ir com esta promoção ou adotar uma diferente?).
Uma nota: "correlação não é causalidade"
Sempre que você trabalha com análise de regressão ou qualquer outra análise que tente explicar o impacto de um fator em outro, você precisa se lembrar do ditado importante: a correlação não é causalidade. Isso é crítico porque: é fácil dizer que existe uma correlação entre a chuva e as vendas mensais. A regressão mostra que eles estão realmente relacionados. Mas é uma coisa totalmente diferente dizer que a chuva causou as vendas. A menos que você esteja vendendo guarda-chuvas, pode ser difícil provar que há causa e efeito.
A correlação de fatores
Às vezes, são correlacionados fatores que, obviamente, não estão conectados por causa e efeito, mas mais frequentemente nos negócios, não é tão óbvio. Quando você vê uma correlação de uma análise de regressão, você não pode fazer suposições. Em vez disso, "Você tem que sair e ver o que está acontecendo no mundo real. Qual é o mecanismo físico que está causando o relacionamento? "Saia observando os consumidores comprando seu produto na chuva, conversando com eles e descubra o que realmente os faz fazer a compra. Muitas pessoas ignoram esse passo e acho que é porque eles são preguiçosos. O objetivo é não descobrir o que está acontecendo nos dados, mas descobrir o que está acontecendo no mundo. Você tem que sair e gastar sola de sapato.
Muita gente descreve a experiência e análise na tentativa de perder peso e a conexão entre viagem e ganho de peso. Percebe-se que, em viagens, come-se mais e exercita-se menos. O aumento de peso é causado pela viagem? Não necessariamente. Foi bom quantificar o que estava acontecendo, mas a viagem não é a causa. Pode estar relacionado, mas não é a estrada que coloca esses quilos extras. Deve-se entender mais sobre o que acontece durante as viagens. Quando viajamos, muitas vezes estamos em novos ambientes, então será que comemos mais porque estamos nervosos? É necessário olhar mais de perto para essa correlação. Este é nosso conselho para os gerentes. Use os dados para orientar mais experimentos, não para tirar conclusões sobre causa e efeito.
Que erros cometem as pessoas ao trabalharem com análise de regressão?
Como consumidor de análise de regressão, há várias coisas que você precisa ter em mente.
Primeiro, não diga ao responsável pela análise de dados para sair e descobrir o que está afetando as vendas. A maneira pela qual a maioria das análises dá errado, é que o gerente não reduz o foco no que ele está procurando. É seu trabalho identificar os fatores que você suspeita ter um impacto e pedir ao seu analista que olhe para aqueles.
Se você disser a um cientista de dados para fazer uma expedição de pesca ou para lhe dizer algo você não sabe, então você merece o que obtém, o que é uma análise ruim. Em outras palavras, não peça a seus analistas que vejam todas as variáveis que possivelmente possam colocar em mãos de uma só vez. Se você fizer isso, é provável que você encontre relacionamentos que realmente não existam. É o mesmo princípio que lançar uma moeda: faça o suficiente, e você acabará por pensar que vê algo interessante, como um monte de caras, todos seguidas.
Também tenha em mente se você pode fazer alguma coisa sobre a variável independente que está considerando. Você não pode mudar o quanto chove, então, como é importante entender isso? Não podemos fazer nada sobre o clima ou a promoção de nossos concorrentes, mas podemos afetar nossas próprias promoções ou adicionar recursos, por exemplo. Sempre se pergunte o que você fará com os dados. Que ações você vai levar? Que decisões você tomará?
O cuidado com os dados
Em segundo lugar, "análises são muito sensíveis a dados incorretos", então tenha cuidado com os dados que você coleta. Todos os dados não precisam ser corretos ou perfeitos, mas considere o que você fará com a análise. Se as decisões que você tomará como resultado não terão um impacto enorme em seu negócio, então estará certo se os dados tiverem pequenas imperfeições de coleta. Mas se você estiver tentando decidir se deve construir 8 ou 10 de algo e cada um custar US $ 1 milhão para construir, então é um negócio maior. Para esses casos a coleta deve ser perfeita e o grau de confiança na análise também.
Alguns gerentes que são novos para entender a análise de regressão e cometem o erro de ignorar o termo de erro. Isso é perigoso porque eles estão considerando que a relação é maior do que é. Muitas vezes, os resultados são cuspidos de um computador e os gerentes pensam:" Isso é ótimo, vamos usar isso no futuro ". Mas lembre-se de que os resultados são sempre incertos. Se a regressão explica 90% da relação, isso é ótimo. Mas se isso explica 10%, e você age como se fosse 90%, isso não é bom. O objetivo da análise é quantificar a certeza de que algo acontecerá. Isso não está lhe dizendo como a chuva influenciará suas vendas, mas está dizendo a probabilidade de que a chuva possa influenciar suas vendas.
O último erro é permitir que os dados substituam sua intuição.
“Você sempre precisa colocar sua intuição sobre os dados"
Pergunte a si mesmo se os resultados se encaixam na sua compreensão da situação. E se você ver algo que não faz sentido, pergunte se os dados estavam certos ou se há realmente um grande erro para gerentes mais experimentados ou outras análises, se você está recebendo algo que não faz sentido.
E, nunca se esqueça de olhar além dos números. Olhe para o que está acontecendo fora do seu escritório: "Você precisa emparelhar qualquer análise com o estudo do mundo real. Os melhores cientistas - e os gerentes - olham para ambos ".
Para aprender mais sobre regressão linear não deixe de realizar nossos cursos de Green Belt e Black Belt.