Blog

06/02/2018

Última atualização: 25/01/2023

Quais os perigos da Estatística nas previsões

O problema: ilusão de previsibilidade e previsões

Os decisores podem usar equações de regressão para previsões de resultados. No entanto, Soyer e Hogarth acham que especialistas em análise de regressão aplicada geralmente não avaliam corretamente as incertezas envolvidas na elaboração de previsões. Em vez disso, eles avaliam o efeito médio de mudar um preditor, mas não a distribuição em torno dessa média.

O resultado final é que os resultados são percebidos como mais previsíveis do que o modelo justificado. Soyer e Hogarth referem-se a isso como a ilusão de previsibilidade.

Estudando a Percepção da Previsão de Incerteza

Soyer e Hogarth pediram a 257 economistas para usar os resultados de regressão para tomar decisões. A maioria dos estudos econômicos empíricos usa a análise de regressão, por isso é muito familiar para os economistas.

Os pesquisadores apresentaram os resultados da regressão no formato utilizado pela maioria dos estudos empíricos nas principais revistas econômicas: estatística descritiva, coeficientes de regressão, constantes, erros padrão, R-quadrado e número de observações.

Os autores apresentaram vários modelos e questionaram principalmente professores em economia aplicada e econometria. Passemos por um exemplo.

Tomar uma decisão com base em um modelo de regressão

Qual seria o valor mínimo X, que um indivíduo precisaria garantir para ele/ela obter um resultado positivo (Y> 0) com 95% de probabilidade?

Os erros padrão estão entre parênteses e o coeficiente é significativo no nível de confiança de 95%.

As respostas ilustram a diferença entre percepção e realidade

76% dos participantes acreditavam que um X muito pequeno (X <10) é suficiente para garantir um Y positivo. Dada a equação de regressão: Y = 0,32 + 1,001X, um X igual 10 produz um Y de 10,33. Isso parece bem acima de zero para garantir um resultado positivo, não é? Esse é o resultado médio, mas e a variabilidade ao redor?

Por causa da variabilidade, a resposta correta é na verdade 47! Apenas 20% dos especialistas forneceram uma resposta que foi fechada apesar do fato de que é possível resolvê-lo matematicamente usando as informações fornecidas (estes são os especialistas, afinal).

E se uma decisão importante estive em análise com essa resposta?

Os especialistas subestimaram seriamente a variabilidade em torno do resultado médio. Soyer e Hogarth fizeram a mesma pergunta sobre um modelo com R² de apenas 25% e os resultados eram praticamente idênticos. Nenhum ajuste foi feito para a maior incerteza!

Este é um problema psicológico onde as estatísticas e a equação de regressão tornam as previsões mais precisas do que realmente são.

Eu escrevi sobre como um alto R² nem sempre é tão importante, exceto quando você está fazendo previsões. Assim, usar um R² de 50% - e muito menos de 25% - deveria levantar bandeiras de advertência sobre previsões imprecisas.

A solução: gráfica a incerteza no relacionamento

Soyer e Hogarth fizeram a mesma pergunta para diferentes grupos de especialistas, mas alteraram a apresentação: um grupo viu os resultados de regressão com pontos de dispersão, e o outro grupo viu apenas os diagramas de dispersão. Surpreendentemente, os diagramas de dispersão produziram a maior porcentagem de respostas corretas.

O diagrama de dispersão corresponde aos resultados da regressão. Com o diagrama de dispersão, apenas 10% dos entrevistados responderam com menos de 10 e 66% estavam no balcão certo.

A chave é que gráficos de dispersão ajudam o espectador a experimentar e compreender a incerteza. Na verdade, podemos ver pontos de dados que se situam abaixo do valor desejado. Isso coloca a incerteza em seu rosto, por assim dizer!

Para trazer a ilusão da previsibilidade para a vida, compare o diagrama de dispersão acima que exibe a variabilidade real para o diagrama de dispersão abaixo com a quantidade de variação percebida. A diferença entre os dois é surpreendente!

Pensamentos de encerramento

As previsões não são tão simples como conectar um número a uma equação. Se a maioria dos especialistas em regressão aplicada foram enganados pelos resultados numéricos, imagine a taxa de erro entre os analistas menos experientes!

Concordo plenamente com o apelo de Soyer e Hogarth para renovar a forma como os resultados de regressão aplicados são apresentados. Eu frequentemente uso Minitab's Fitted Line Plots (gráfico de dispersão com uma linha de regressão) em meus blogs. É uma ótima ferramenta para explicar resultados de regressão de forma rápida e fácil de entender. É ver para crer!

No entanto, o modelo que os pesquisadores apresentam é particularmente propício para uma análise visual. Existe apenas uma variável preditora, que permite um gráfico em duas dimensões. Existem muitos pontos de dados (n = 1.000) distribuídos uniformemente no espaço analítico. Este exemplo produz uma demarcação visualmente clara entre valores prováveis ​​e improváveis ​​para qualquer valor de X.

 Ainda precisamos incorporar a incerteza do mundo real nas decisões com base na análise de regressão aplicada. Esse é o assunto da segunda parte.