Quais os perigos da Estatística nas previsões
O problema: ilusão de previsibilidade e previsões
Os decisores podem usar equações de regressão para previsões de resultados. No entanto, Soyer e Hogarth acham que especialistas em análise de regressão aplicada geralmente não avaliam corretamente as incertezas envolvidas na elaboração de previsões. Em vez disso, eles avaliam o efeito médio de mudar um preditor, mas não a distribuição em torno dessa média.
O resultado final é que os resultados são percebidos como mais previsíveis do que o modelo justificado. Soyer e Hogarth referem-se a isso como a ilusão de previsibilidade.
Estudando a Percepção da Previsão de Incerteza
Soyer e Hogarth pediram a 257 economistas para usar os resultados de regressão para tomar decisões. A maioria dos estudos econômicos empíricos usa a análise de regressão, por isso é muito familiar para os economistas.
Os pesquisadores apresentaram os resultados da regressão no formato utilizado pela maioria dos estudos empíricos nas principais revistas econômicas: estatística descritiva, coeficientes de regressão, constantes, erros padrão, R-quadrado e número de observações.
Os autores apresentaram vários modelos e questionaram principalmente professores em economia aplicada e econometria. Passemos por um exemplo.
Tomar uma decisão com base em um modelo de regressão
Qual seria o valor mínimo X, que um indivíduo precisaria garantir para ele/ela obter um resultado positivo (Y> 0) com 95% de probabilidade?
Os erros padrão estão entre parênteses e o coeficiente é significativo no nível de confiança de 95%.
As respostas ilustram a diferença entre percepção e realidade
76% dos participantes acreditavam que um X muito pequeno (X <10) é suficiente para garantir um Y positivo. Dada a equação de regressão: Y = 0,32 + 1,001X, um X igual 10 produz um Y de 10,33. Isso parece bem acima de zero para garantir um resultado positivo, não é? Esse é o resultado médio, mas e a variabilidade ao redor?
Por causa da variabilidade, a resposta correta é na verdade 47! Apenas 20% dos especialistas forneceram uma resposta que foi fechada apesar do fato de que é possível resolvê-lo matematicamente usando as informações fornecidas (estes são os especialistas, afinal).
E se uma decisão importante estive em análise com essa resposta?
Os especialistas subestimaram seriamente a variabilidade em torno do resultado médio. Soyer e Hogarth fizeram a mesma pergunta sobre um modelo com R² de apenas 25% e os resultados eram praticamente idênticos. Nenhum ajuste foi feito para a maior incerteza!
Este é um problema psicológico onde as estatísticas e a equação de regressão tornam as previsões mais precisas do que realmente são.
Eu escrevi sobre como um alto R² nem sempre é tão importante, exceto quando você está fazendo previsões. Assim, usar um R² de 50% - e muito menos de 25% - deveria levantar bandeiras de advertência sobre previsões imprecisas.
A solução: gráfica a incerteza no relacionamento
Soyer e Hogarth fizeram a mesma pergunta para diferentes grupos de especialistas, mas alteraram a apresentação: um grupo viu os resultados de regressão com pontos de dispersão, e o outro grupo viu apenas os diagramas de dispersão. Surpreendentemente, os diagramas de dispersão produziram a maior porcentagem de respostas corretas.
O diagrama de dispersão corresponde aos resultados da regressão. Com o diagrama de dispersão, apenas 10% dos entrevistados responderam com menos de 10 e 66% estavam no balcão certo.
A chave é que gráficos de dispersão ajudam o espectador a experimentar e compreender a incerteza. Na verdade, podemos ver pontos de dados que se situam abaixo do valor desejado. Isso coloca a incerteza em seu rosto, por assim dizer!
Para trazer a ilusão da previsibilidade para a vida, compare o diagrama de dispersão acima que exibe a variabilidade real para o diagrama de dispersão abaixo com a quantidade de variação percebida. A diferença entre os dois é surpreendente!
Pensamentos de encerramento
As previsões não são tão simples como conectar um número a uma equação. Se a maioria dos especialistas em regressão aplicada foram enganados pelos resultados numéricos, imagine a taxa de erro entre os analistas menos experientes!
Concordo plenamente com o apelo de Soyer e Hogarth para renovar a forma como os resultados de regressão aplicados são apresentados. Eu frequentemente uso Minitab's Fitted Line Plots (gráfico de dispersão com uma linha de regressão) em meus blogs. É uma ótima ferramenta para explicar resultados de regressão de forma rápida e fácil de entender. É ver para crer!
No entanto, o modelo que os pesquisadores apresentam é particularmente propício para uma análise visual. Existe apenas uma variável preditora, que permite um gráfico em duas dimensões. Existem muitos pontos de dados (n = 1.000) distribuídos uniformemente no espaço analítico. Este exemplo produz uma demarcação visualmente clara entre valores prováveis e improváveis para qualquer valor de X.
- E quanto a uma regressão múltipla aplicada, onde você tem mais de um preditor?
- Ou modelos com interações e curvatura?
- Ou casos em que os dados não são tão básicos e abundantes?
Ainda precisamos incorporar a incerteza do mundo real nas decisões com base na análise de regressão aplicada. Esse é o assunto da segunda parte.