Correlação: como estudar a relação entre variáveis?
O que é correlação?
Correlação - relação entre variáveis: uma das etapas mais deliciosas de um projeto de melhoria é o Analyse, pois é nesta hora que focamos nossa atenção para desenvolver as mudanças que irão resultar em melhoria. E dentro do Analyse, um dos estudos que mais gosto é o da relação entre variáveis. Tal estudo tem como objetivo entender como a variação numa variável de entrada x, afeta uma variável de saída y. É neste momento que atuamos como verdadeiros detetives, deduzindo o que devemos fazer para que nossa variável y alcance a nossa meta.
Como fazer a correlação?
A primeira coisa que fazemos neste estudo é a classificação das variáveis em análise. Nosso X é numérico ou categórico? E nosso Y? Isto é importante, pois para cada tipo de cruzamento iremos utilizar um conjunto de ferramentas para avaliarmos as relações. Na figura 1 temos o gráfico que nos ajuda a entender qual ferramenta escolher, dependendo do tipo de nossas variáveis.
Figura 1: análise de relações.
Vamos para um exemplo prático? Imagine que desejamos entender a relação de um governo (variável categórica) com o índice de inflação IPCA mensal (variável numérica). Segundo a figura 1, precisamos elaborar um Dot-plot estratificado ou um gráfico de tendência estratificado. Vamos lá? Que tal compararmos o primeiro governo Lula com o primeiro governo Dilma?
Figura 2: dot-plot estratificado da inflação versus governo.
Figura 3: gráfico de tendência estratificado.
Por meio da figura 2 e da figura 3 é possível entender que não há uma diferença significativa entre os primeiros anos de governo de Lula e Dilma no que toca o IPCA. Poderíamos se quiséssemos mais confiança estatística termos feito um ANOVA, conforme figura 4.
Figura 4: "interval plot" do IPCA para os dois governos.
Como analisar correlação?
Pelo teste ANOVA, é possível verificar que o IPCA no governo Lula parece ser um pouco maior, mas pouca coisa. Quando fizemos o gráfico de tendência estratificado nós vimos que isto adveio do início do governo, com o pico de inflação sendo ocasionado nos primeiros 4 meses.
Como fazer a análise dos dados de correlação?
Vamos começar analisando o índice “salário real médio” publicado pela FIESP que mede os salários na indústria e tem a base 100, fixada no ano de 2006.
Figura 5: salário real médio (fonte: FIESP)
Pela figura 5, fica claro o período de salários reais médios na indústria mais altos, parece que começou a chegar ao fim. Se olhamos para a série história, no início de 2016 o valor já é o mesmo de 2005. Parece-me que houve um retrocesso nos salários reais de 11 anos, o que parece ser não muito agradável para os colaboradores. E por que será que isto aconteceu? Numa análise básica, poderíamos intuir que uma das possíveis causas seja o desemprego, concordam? Como realizar uma análise de dados para comprovar isto?
Figura 6: regressão entre salário médio real e taxa de desemprego.
A figura 6, que mostra que a relação entre salário real médio e taxa de desemprego é comprovada estatisticamente. Não tem lorota, achismo ou história que possa ir contra o resultado desta análise. Também, é possível verificar que 71% da variação do salário real pode ser explicada pelo índice de desemprego. Com exceção de dezembro de 2006, um ponto fora da curva, há uma forte correlação entre estes dois indicadores. Portanto, só veremos salário maiores quando possuirmos uma demanda por emprego maior. E qual seria o modelo para predizer o valor do salário real médio em função do desemprego?
Como fazer a previsão de correlação?
Figura 7: relatório de previsão do salário real médio em função da taxa de desemprego.
Como a série história disponível sobre os salários reais tem o último valor disponível no mês 8, podemos utilizar o dado da taxa de desemprego para inferir o índice de salários. O último dado divulgado de setembro, mostra que o desemprego foi de 11,8%. Diante disto, espera-se um índice de 92, o mesmo de 2001, ou seja, voltamos 15 anos atrás. Com isto, não é difícil intuir os motivos pelo qual a população se revoltou com o status quo e respondeu com mudanças em grande parte dos municípios.
O que aprendemos com esse exemplo?
Neste exemplo, é possível analisar como aplicamos os conceitos que aprendemos no Green Belt e Black Belt na prática. Com uma simples regressão, realizada por meio do assistente do Minitab, é possível entender a relação forte que há entre vários indicadores. Agora, fé no método e aproveite para afinar suas análises de dados.
Viram como é fácil estruturarmos testes para entendermos as relações entre variáveis? Então mãos a obra. Se você tem um restaurante ou uma loja que atende ao público, estes testes irão ajuda-lo a entender melhor seus clientes. Imagina que você deseja entender se uma sobremesa de cortesia irá aumentar a satisfação de seus clientes. Como medir? Muito fácil. Sobremesa é uma variável categórica (sim ou não) e a satisfação, numérica (0-100). Estruture a coleta de dados, por meio do PDSA e faça suas análises. É lucro certo.
Analisar dados e usá-los da melhor forma é essencial para liderar projetos e destacar sua carreira e empresa. Portanto, você precisa saber quais ferramentas usar para analisar dados em cada situação. O melhor caminho para adquirir as habilidades necessárias e aprender as ferramentas é através da certificação Lean Seis Sigma Black Belt.