Estatística Explica: quem vai levar a Copa do Mundo?
Como você prevê qual país vai ganhar a Copa do Mundo? Essa questão, ao que parece, esta é uma das questões mais cotadas nos maiores bancos do mundo. Se olharmos bem, está mais em voga do que a discussão do campeonato brasileiro nos bares de São Paulo, Minas, Rio, enfim, do Brasil todo.
A Copa do Mundo começou hoje, quando a Rússia enfrentou a Arábia Saudita. O grupo de 32 equipes será gradualmente reduzido até que um campeão seja coroado em 15 de julho. Como em qualquer competição esportiva, há muita análise a ser feita - e aqui está o mergulho profundo que o The New York Times fez com todas as equipes que serão jogando.
No que agora se tornou um exercício quadrienal, os estrategistas e analistas de alguns dos maiores bancos do mundo aplicaram suas habilidades quantitativas para prever o vencedor. O jornal reviu a análise - que inclui inteligência artificial, modelagem estatística, teoria do portfólio e análise econômica - de quatro bancos diferentes.
[caption id="attachment_15315" align="aligncenter" width="600"] White Belt Lean Six Sigma[/caption]
Aqui está um resumo de suas previsões, juntamente com uma descrição de como eles chegaram aos seus resultados.
Quem vai levar a Copa do Mundo na previsão do UBS?
Sua abordagem: Um grupo do escritório de investimentos do banco suíço classificava cada equipe com base em uma medição objetiva de nível de habilidade chamada classificação Elo, sua rota para se qualificar e qualquer vantagem do país de origem. Os analistas então realizaram a modelagem estatística conhecida como simulação de Monte Carlo, que pode ser explicada assim:
Nós desenhamos um grande número de variáveis aleatórias e as usamos para trazer um componente aleatório para nossos cálculos e para simular o campeonato. Uma equipe melhor ainda tem mais chances de vencer do que seu oponente de menor classificação, mas isso é esporte, e as surpresas acontecem. Depois de repetimos isso de novo e de novo, acabamos com os resultados de 10.000 torneios virtuais. Em seguida, contamos quantas vezes cada equipe ganhou.
O resultado: Alemanha, Brasil e Espanha têm mais chances de vencer - mas a Alemanha, favorita do UBS, tem 24% de chance de vitória.
Quem vai levar a Copa na previsão do Goldman?
Sua abordagem: A equipe de pesquisa macroeconômica global da Goldman Sachs optou por usar algoritmos de inteligência artificial para conduzir sua análise. Aqui está a sua abordagem:
Nós fornecemos dados sobre as características da equipe, jogadores individuais e desempenho recente da equipe em quatro tipos diferentes de modelos de aprendizado de máquina para analisar o número de gols marcados em cada partida. Os modelos então aprendem a relação entre essas características e os gols marcados, usando as pontuações dos jogos competitivos da Copa do Mundo e da Copa da Europa desde 2005. Percorrendo combinações alternativas de variáveis, temos uma noção de quais características são importantes para o sucesso e quais permanecem Banco. Em seguida, usamos o modelo para prever o número de gols marcados em cada encontro possível do torneio e usar a pontuação não arredondada para determinar o vencedor.
O resultado: Uma pontuação incompreensivelmente algorítmica na final de 1,70 gols para o Brasil e apenas 1,41 para a Alemanha.
Bônus: O Goldman previu uma vitória brasileira nas últimas três Copas do Mundo e acabou errando toda vez. Infelizmente, Paul, o Polvo, não está mais vivo para prever os resultados.
[caption id="attachment_12511" align="aligncenter" width="700"] Apostila Minitab[/caption]
Quem vai levar a Copa na previsão do ING?
Sua abordagem: O banco holandês usou uma das técnicas mais incomuns descritas aqui, optando por calcular as chances de sucesso usando uma medida baseada no valor de mercado da equipe do país e seu desempenho anterior. (O pressuposto aqui é que o valor e o sucesso estão intimamente correlacionados.) O valor de uma equipe foi calculado a partir de estimativas individuais de valores de transferência de jogadores e seu histórico de classificações mundiais da FIFA.
Os resultados: a Espanha será coroada campeã mundial, com um valor total de equipe de € 1,04 bilhão (US $ 1,16 bilhão). O segundo colocado: a França, que está avaliada em € 1,03 bilhão.
Quem vai levar a Copa na previsão do Nomura?
Sua abordagem: O banco japonês optou por tratar o torneio com as mesmas técnicas que usaria para oferecer um risco equilibrado aos investidores:
Sendo analistas, temos que aplicar algum rigor às nossas previsões da Copa do Mundo, então decidimos aplicar a teoria do portfólio e a hipótese dos mercados eficientes para a Copa do Mundo. Analisamos o valor dos jogadores em cada equipe, o momento de desempenho da equipe e o desempenho histórico para chegar a três portfólios de equipes para assistir.
Os resultados: Sua análise sugere que a França, a Espanha e o Brasil são os mais propensos a chegar às semifinais, e prevê que a França e a Espanha se encontrem na final.
Como a Universidade de Dortmund está prevendo a Copa?
Uma equipe liderada por Andreas Groll, da Universidade Técnica de Dortmund, na Alemanha, combinou o aprendizado de máquina e a análise estatística para identificar quem eles acreditam ser o vencedor mais provável da Copa do Mundo de 2018.
A equipe simulou o torneio de futebol 100.000 vezes e usou três diferentes abordagens de modelagem baseadas em performances de todos os jogos anteriores, de 2002 até 2014.
[caption id="attachment_14854" align="aligncenter" width="560"] Análise de Dados[/caption]
Qual a previsão da abordagem de floresta aleatória?
A abordagem de floresta aleatória, um método desenvolvido recentemente para analisar grandes conjuntos de dados com base no conceito de que um evento futuro pode ser previsto. Para fazer as suas previsões, este método utiliza uma árvore de decisão complexa e intrincada, onde um resultado potencial é estimado em cada ramo por referência a um conjunto de dados de treinamento.
A maioria das árvores de decisão, no entanto, está sobrecarregada em estágios posteriores do processo por decisões não confiáveis que são distorcidas devido a dados de treinamento inconsistentes e dispersos, uma condição chamada overfitting. O processo de floresta aleatória evita esse problema calculando o resultado de ramificações aleatórias várias vezes, cada vez com um conjunto diferente de ramificações selecionadas aleatoriamente.
O resultado produzido por esse método é uma média dessas muitas árvores de decisão aleatórias e, portanto, ignora com sucesso o overfitting, revelando ao mesmo tempo quais elementos foram mais importantes em sua criação. Groll e sua equipe usaram essa abordagem para garantir que fossem incluídos tantos possíveis fatores que pudessem determinar o resultado do jogo.
O modelo do pesquisador incluiu elementos óbvios, como os rankings da FIFA e estatísticas relevantes da equipe, como idade média e número de jogadores da Liga dos Campeões. No entanto, o modelo também chegou a incluir outros elementos menos diretamente relacionados, como as taxas de população e o PIB dos países e até mesmo as nacionalidades dos treinadores.
Métodos de previsão de melhor desempenho
A equipe então extrapolou os métodos de previsão de melhor desempenho e os combinou para "melhorar substancialmente o poder preditivo". " Finalmente, essa combinação de métodos é escolhida como modelo final e, com base em suas estimativas, a Copa do Mundo da FIFA 2018 é simulada repetidamente e as probabilidades de ganho são obtidas para todas as equipes", afirma o jornal.
O processo, no final, pegou a Espanha como o vencedor mais provável, com uma probabilidade de sucesso de 17,8% e uma chance de 73% de chegar às quartas-de-final. No entanto, os pesquisadores acrescentaram que, se a Alemanha fosse eliminar a fase de grupos da competição, suas chances de chegar às quartas-de-final aumentariam para 58%.
"A modelo favorece ligeiramente a Espanha antes da defesa da Alemanha. Além disso, fornecemos probabilidades de sobrevivência para todas as equipas e em todos os estádios do torneio, bem como para o resultado mais provável do torneio", concluiu o documento.
Se os resultados se mostrarem verdadeiros na Copa do Mundo de 2018, o estudo introduziria uma nova indústria para a aprendizagem de máquina para conquistar. O novo método pode até mesmo ver os apostadores se tornarem obsoletos.
E aí? Quem vai ganhar a Copa do Mundo 2018?
Nós, da FM2S, fizemos nossas previsões e, até agora, encontramos Brasil, Alemanha e Espanha. O Brasil, está com 5% mais chances do que a Alemanha em nosso modelo. Como engenheiro de dados e torcedor, vai dar Brasil!