Tutorial: como escolher o tipo correto de análise de regressão?
Por que devemos escolher a regressão? Quais são os erros comuns que os especialistas fazem quando se trata de análise de regressão? E, como você distingue uma boa análise de regressão de uma análise de regressão menos rigorosa? Vamos ver um apanhado geral.
Tutorial: como escolher o tipo correto de análise de regressão?
Suculento, peru grelhado de manteiga.
Salpicão. Tender. Lombo. Farofa. Pernil. Leitão....
O menu tradicional de Natal tem tantos pratos deliciosos sobre a mesa, você não sabe por onde começar.
Se você saborear as estatísticas tanto quanto a comida, você pode se sentir da mesma forma quando olhar para todas as deliciosas análises no menu Minitab Regression, que é o Menu de Regressão.
Como você pode decidir qual análise de regressão escolher? Vou dar-lhe algumas amostras de cada prato de regressão para ajudá-lo a decidir qual deles colocar no prato.
Regressão com uma resposta categórica
Já notou as linhas de divisão horizontal nos menus do Minitab? Pense nelas como os separadores em um prato de papel que protege seu molho mostarda de correr para seu nhoque ao sugo, evitando que eles seu nhoque transforme-se num estranho molho rose.
Por exemplo, a linha na parte inferior do menu separa cuidadosamente todas as análises de regressão que possuem uma variável de resposta categórica.
Para usar uma dessas análises, cada resposta em seus dados deve cair em uma categoria separada. Escolha entre eles de acordo com o tipo de resposta categórica que você possui. Aqui está um cenário concreto:
Você seleciona aleatoriamente 100 indivíduos no Natal e anota quantos pedaços de cada prato eles possuem.
Agora você quer utilizar uma análise de regressão para descrever a relação entre as variáveis preditoras (o número de porções servidas de cada prato) e a variável resposta.
Regressão logística binária
A resposta cai em uma das duas categorias. Há duas respostas possíveis.
Exemplo: você rastreia se cada pessoa tomou um antiácido após a Ceia de Natal ou não (Sim ou Não)
As chances de uma pessoa que tomar um antiácido aumentam, em média, 2,35 vezes com cada porção de batata doce confeitada.
Regressão Logística Ordinária
As categorias de sua resposta podem ser ordenadas da menor para a maior.
Exemplo: Você grava quantos buracos do cinto, cada pessoa aumentou após o jantar (0-4 entalhes)
Em média, cada porção adicional de purê de batatas resulta em um aumento de 36% nas chances de expandir seu cinto após a ceia.
Regressão Logística Nominal
As categorias de sua resposta não seguem uma ordem.
Exemplo: Você pergunta a cada pessoa qual dos animais que mais elas mais se assemelham após a ceia de Natal: uma baleia encalhada, um elefante marinho ou uma anaconda depois de engolir um porco selvagem.
Com cada porção adicional de peru, as pessoas são 4,37 vezes mais propensas a se sentir como uma anaconda depois de engolir porco selvagem do que uma baleia encalhada.
Regressão com uma resposta contínua
A linha no topo do menu Regression do Minitab separa cuidadosamente análises de regressão que usam uma variável de resposta contínua.
Para usar uma dessas análises, cada resposta deve ser uma variável contínua, como comprimento, peso ou tempo.
Regressão
Você tem um ou mais variáveis preditoras contínuas e uma variável resposta contínua.
Exemplo: você acompanha quantos minutos cada pessoa gasta deitada no chão da sala de estar, depois do jantar da Ceia de Natal.
Cada porção adicional de castanha resulta em um aumento de 4,28 minutos, em média, deitado no chão da sala após a ceia (quando as porções de todos os outros pratos são mantidas constantes).
Regressão geral
Você tem uma mistura de variáveis preditoras categóricas e contínuas e uma variável resposta contínua.
Exemplo: Além das variáveis preditoras contínuas para as porções de cada prato, seu modelo para o tempo em que a pessoa fica deitada, também inclui uma variável preditora categórica. Essa variável categórica indica, sim ou não, se a pessoa comeu lanches antes da Ceia de Natal.
Comer lanches antes da Ceia de Natal aumenta o tempo que as pessoas passam deitadas no chão em cerca de 17 minutos, em média, quando as porções de todos os outros pratos são mantidas constantes.
Regressão Passo a Passo
O Minitab identifica um subconjunto útil de variáveis preditoras com base na significância estatística delas (usando stepwise, seleção para frente ou eliminação para trás)
Exemplo: você quer que o Minitab lhe diga quais pratos têm um efeito estatisticamente significativo sobre o número de minutos que as pessoas passam deitados no chão depois do jantar.
Dos 7 pratos na mesa, o Minitab determina que a porção de castanha e o pão de milho são as variáveis preditoras com significância estatística para avaliar o tempo gasto deitado no chão.
Regressão dos Melhores Subconjuntos
O Minitab identifica um subconjunto útil de variáveis preditoras com base no quanto de variação o modelo explica (o critério R² máximo).
Exemplo: Você quer que Minitab lhe diga qual combinação de pratos explica a maior parte da variação no número de minutos que as pessoas passam deitadas no chão.
No caso do jantar, 2 das 7 variáveis preditoras do modelo, o ressalto da casquinha de molho de maionese (CR) e o pão de milho (CB), explicam a maior variação no tempo gasto deitado no chão. A adição de mais preditores (pratos) não aumenta significativamente o valor do R².
Gráfico de Linha Ajustada
Exibe uma linha ajustada de uma regressão. É possível apenas com uma variável preditora contínua e uma variável resposta contínua.
Exemplo: você deseja visualizar a associação entre as porções de comida ingeridas e o tempo gasto deitado no chão.
Há uma associação quadrática fraca, mas estatisticamente significante entre as porções de comida ingeridas e o tempo gasto deitado no chão.
Regressão não linear
Especifica uma função não-linear para modelar a relação entre variáveis preditoras contínuas e uma variável resposta contínua.
Exemplo: Tio Alberto, um brilhante Ph.D. químico, realizou experimentos sobre as propriedades químicas das castanhas e seu efeito nas reações enzimáticas metabólicas que induzem fadiga. Com base em sua pesquisa, ele sabe que ele pode modelar a relação entre porções de castanha ingeridas e a postura pós-prandial por meio de uma curva de crescimento de Gompertz com três parâmetros.
A função exponencial teórica de tio Alberto de uma função exponencial negativa descreve a relação entre a porção de castanha e o tempo deitado no chão. No entanto, tio Alberto é o único que entende seu modelo não-linear complexo. Quando tenta explicar depois do jantar, todos adormecem no chão.
Análises de regressão especializadas
Duas análises no menu Regressão formam sua própria categoria. Essas análises modelam uma variável de resposta contínua e variáveis preditoras contínuas, mas suas aplicações são especializadas.
Regressão ortogonal
Testa se dois instrumentos ou métodos fornecem medidas comparáveis.
Exemplo: A vovó adquiriu um novo termômetro de peru digital para um presente, mas suspeita de que não funcione tão bem como o seu antigo termômetro. Antes do Natal, ela a testa usando os termômetros para medir a temperatura em uma panela com água. Para testar, ela esfria a água na geladeira e aquece no fogão, registrando a temperatura medida em cada instrumento.
Apesar das suspeitas da avó, o termômetro digital é equivalente ao seu termômetro de metal. (O intervalo de confiança para a inclinação inclui 1 e o intervalo de confiança para a constante inclui 0.)
Regressão de mínimos quadrados parciais
Você tem poucas observações em relação ao número de variáveis preditoras, ou elas estão altamente associadas entre si, tornando problemática uma análise de regressão padrão.
Exemplo: suponha que seu estudo da Ceia de Natal tenha amostrado apenas 10 indivíduos, em vez de 100 indivíduos, mas ainda incluíram todas as 7 variáveis preditoras. Sua pequena amostra causou alto erro padrão para as estimativas de coeficientes. Além disso, as mesmas pessoas que comeram muitas porções de castanha também comeram muitas porções de purê de batatas e peru, e tiveram respostas semelhantes, fazendo com que essas variáveis preditoras fossem correlacionados.
Ao usar um modelo de mínimos quadrados parciais com 6 componentes, cada um formado por uma combinação linear das variáveis preditoras, você pode explicar cerca de 84% da variação no tempo de permanência na posição deitado. Adicionar outro componente não aumenta muito o R².
Para aprender sobre essas e mais ferramentas do Minitab faça nossos cursos de Green Belt e Black Belt!