A análise de dados e o Cargo Cult Science
Ciência de dados

31 de maio de 2017

Última atualização: 25 de janeiro de 2023

A análise de dados e o Cargo Cult Science

O que é o Cargo Cult Science?


Num discurso no início de 1974 no Instituto de Tecnologia da Califórnia, Richard Feynman falou sobre a proteção contra o "cargo cult Science". Os cultos à carga, explicou ele, eram práticas de sociedades tribais pré-industriais do Pacífico Sul. Elas  estavam desesperadas para atrair a riqueza material (carga) que viram durante a Segunda Guerra Mundial.


Em seguida à interação com a tecnologia avançada, essas sociedades tribais - desesperadas para ver o retorno da carga - tentaram reafirmar o influxo de bens. Dessa forma, elas faziam antenas de rádio de bambu e pistas de imitações de pista de pouso. A questão aqui, é que essas sociedades viam essa interação com a tecnologia como algo sobrenatural. 


No entanto,  apesar dos esforços, os aviões e sua carga nunca voltaram. A mesma coisa começamos a ver na "Ciência", que se parece com a Ciência, mas lhe falta integridade, honestidade e experimentos reprodutíveis. Portanto, essa “Ciência” pode ser colocada na mesma categoria do “cargo cult Science”.


Análise de Dados


Agora, mais do que nunca, o potencial de análise de dados está  em novos campos. As empresas estão cada vez mais formando equipes de analistas de dados para ajudar a avaliar seus produtos. O marketing está sendo transformado por empresas como Target. Em um processo de reconhecimento de padrões de compra individuais.


Ao melhorar a condição humana, Bill Gates escreveu em sua Carta Anual de 2013, sobre como quantificar metas e medir o desempenho são cada vez mais precisos para acabar com doenças. E como Hans Rosling diz tão bem, "é somente medindo que podemos atravessar o rio dos mitos".


E os dados do Big Data?


À medida que o mundo do Big Data cresce, enfrentamos grandes oportunidades que mudarão o mundo. No entanto, precisamos nos proteger contra a ciência de dados a la Cargo Cult Science. Seja por meio de medições falsas ou compreensões precárias das estatísticas. Pois corremos o risco de criar uma indústria feita por conclusões duvidosas e inúmeros falsos alarmes.


Apesar de uma enorme pressão, seja financeira ou política, é difícil apresentar cientistas de dados como oráculos que moram no topo da montanha mágica. Eles devem apresentar todos os resultados- triunfos e armadilhas.  Para então não enganar os leigos e permitir que as pessoas tomem decisões por si mesmas de maneira equivocada.


A "Ciência" na Ciência dos Dados


Há uma disciplina clara que podemos seguir para evitar armadilhas. Você pode lembrar que em suas aulas de ciência na escola, havia uma forte ênfase na configuração experimental e na honestidade total dos relatórios de resultados. Fossem eles "bons" ou não. O objetivo provável de tudo isso foi você aprender que a ciência é mais do que apenas uma coleção de fatos interessantes. Em vez disso, o que difere a ciência da dedução é o método científico que a acompanha.


Como se dá a Ciência de Dados?


A ciência de dados é, chamada de forma apropriada, pois sua prática correta reflete esses mesmos valores. O problema não é que as pessoas estejam sendo desonestas ou falsificando seus dados. Isso porque são práticas que são erradas ou imorais e esperamos que ninguém as faça. Mas a ciência precisa de outro nível de honestidade. Aquele que vá além de dizer os resultados que sustentam nossas conclusões.


Não podemos apenas falar sobre os resultados que apoiam nosso caso. Em vez disso, devemos apresentar todos os fatos. Ou seja, inclusive aqueles que são contra nossas conclusões.


Tomemos, por exemplo, o caso de um cientista de dados responsável por dar informações sobre o desempenho do anúncio on-line. As agências de anúncios ou clientes de forma geral pedem isso para saber qual a cópia que eles criaram é a melhor. Além disso, eles desejam saber qual perfil demográfico responde melhor ao seu produto. 


 


Quais são os problemas da Ciência de Dados?


Quatro problemas principais são mencionados de forma rara:


1. Resultados não transferíveis:


A solução mais comum vem de perceber quais os trabalhos demográficos melhores em uma certa campanha. Então eles relatam e recomendam que, para todas as campanhas para esse público-alvo, utilize-se o modelo com melhor valor. Dessa forma, os clientes ficam desapontados quando os resultados não se transferem para outros casos. O problema é que para descobrir isso, eles acabaram gastando muito dinheiro desnecessário.


2. Experimentos não replicáveis:


A maioria desses pseudo experimentos ocorre em campanhas específicas. De forma infeliz, porque eles não são repetidos ou as aprendizagens são extrapoladas de uma única campanha. Portanto, há poucos acúmulos de conhecimento ou confiança nesses resultados.


3. Causalidade não passível de inferência:


A inferência de causalidade (por exemplo, se você definir esses lances, você terá custos mais baixos) não pode ser feita apenas a partir de dados observados. Além disso, as ferramentas de aprendizado de máquinas, que muitas empresas afirmam usar para resolver essa inferência de causalidade, são de forma fundamental inúteis contra esse objetivo. Uma  vez que  elas se baseiam em prever correlações sem estrutura causal.


O padrão ouro aqui é o teste randomizado, que deve ser projetado antes que as campanhas funcione. Uma distinção sutil, mas muito importante. É meu amigo, quem mandou não estudar Planejamento de Experimentos no Green Belt?


4. Recomendações estatisticamente pobres ou insignificantes:


Uma das demandas mais comuns das agências é saber exatamente o que o título, corpo, imagem, público-alvo, etc melhorou. Eles então poderiam criar um anúncio Frankenstein que se encaixasse em todos esses parâmetros! No entanto, na maioria das vezes:



  1. Os dados precisos para fazer tais determinações são, de fato, estatisticamente insignificantes e as pessoas estão apenas se informando sobre o ruído;

  2. Essa prática é de maneira fundamental falha, já que o desempenho do anúncio não é apenas uma soma dos atributos de um anúncio.


Como funcionam as consultas de dados?


Talvez com curiosidade, as consultas de dados de forma rara dão (e poucos clientes estão satisfeitos) uma conclusão de que os dados que estão sendo analisados não forneceram uma visão significativa.


Em contraste, "o Google gerou cerca de 12.000 experimentos randomizados em 2009, com somente cerca de 10 por cento destes levando a mudanças de negócios". (Manzi, Jim. Não controlado: O Suprising Payoff de Trial-and-Error para Negócios, Política e Sociedade. S.1: Livros básicos, 2012.). Há poucas razões para acreditar que os dados que você está analisando gerem uma diferença tão marcante em conclusões para tomada de ações.


O problema prejudicial para essa falta de rigor é que os fatos surgirão de maneira eventual. As pessoas vão tentar essas recomendações fracas. Em seguida, vão descobrir seus resultados mistos ou sem graça. E, embora possamos fugir, a curto prazo, todos nós sofremos  um desgaste  da fé na ciência dos dados reais.


Qual é a visão alternativa sobre o valor do Data Science?


Os cientistas devem fazer suposições que simplificam para analisar qualquer sistema difícil. Não há motivo para ter medo de fazer suposições. Nós pagamos muito dinheiro para poder termos uma visão e não pode inferir com facilidade - e devemos confiar que isso proporciona algum valor. No entanto, a chave para construir nossa compreensão é conhecer os pressupostos que estamos realizando. Só podemos corrigir aqueles que descobrimos serem incorretos se permanecermos fiel à completa honestidade do rigor científico.


Um erro comum é pensar que a ciência possui uma bala de prata que irá dissolver assim que haja necessidade de fazer qualquer suposição. No entanto, essa visão subestima de forma grosseira a complexidade dos sistemas que queremos entender. Quantas variáveis devemos controlar para entender como alguém escolhe as roupas que ele quer usar?


Quantos fatores interdependentes determinam a intenção do cliente em comprar? Quantos sinais afetam os impulsos de compra a curto prazo de um potencial cliente? Essas questões são de forma fundamental difíceis. Mas a única maneira de abordar elas é se começarmos a buscar os ganhos compostos para construir sobre o conhecimento científico.


Muitas vezes, as pessoas acreditam que a abordagem para resolver questões complexas é apenas reduzir nossos padrões de confiança ao tomar uma decisão sobre os dados. Mais tecnicamente, isso pode se traduzir em reduzir o nível de significância em um teste estatístico.


Em vez de confiar em uma mistura de resultados pseudo-significativos (ou pseudocientíficos), devemos ter a disciplina para reconhecer aqueles que consideramos verdadeiros. Além disso, devemos reconhecer que o resto são atualmente suposições que teremos que ver de novo mais tarde. O valor da ciência dos dados não é a suspeita de conclusões. O valor está nas poucas conclusões que encontramos e que são de fato verdadeiras.


As teorias da nossa cabeça estão fundamentadas em dados?


As pessoas têm teorias razoáveis. Eles não devem ser intimidados por conclusões ou narrativas do Cargo Cult Science. À medida que pensamos em coisas como a forma como queremos criar nossos filhos ou cuidar da nossa saúde, nós nos esforçamos para seguirmos as recomendações de falsos especialistas. Os mesmos, que não usam uma base científica em sua metodologia.


Os números de observações simples, que não possuem ensaios aleatórios e experimentação científica, não são suficientes para convencer-nos a mudar as práticas aprimoradas por anos de experiência. Mas quando reconhecemos esses raros casos de descoberta científica, reconhecemos como coisas em que devemos confiar. O mesmo deve ser dito na prática comercial.


Conhecedores do Método Científico: temos a responsabilidade de não conversar com leigos de forma enganosa. Claro, talvez não possamos obter o mesmo financiamento e receita. No entanto, não devemos destruir o potencial real da ciência de dados. Potencial este que vai tranquilizar suas preocupações com a vantagem projetada.


Deixe as pessoas tomarem suas próprias decisões sobre o que é certo. Ou seja, dê  a elas a informação para permitir que elas repitam isso sozinhas. Data Science será lucrativo nos próximos anos, mas nessa jornada, não podemos comprometer a integridade da ciência.


O que Feynman falava sobre a Cargo Cult Science?


O grande prêmio Nobel de 1965, Feynman, advertiu que, para evitar se tornar cientistas do Cargo Cult Science, os pesquisadores devem evitar enganar-se. Eles devem estar dispostos a questionar e duvidar de suas próprias teorias e seus próprios resultados. Além disso, devem buscar possíveis falhas em uma teoria ou um experimento.


Feynman recomendou que os pesquisadores adotem um nível alto de honestidade que de forma rara é encontrado na vida cotidiana. Ele deu exemplos na publicidade, política e psicologia para ilustrar a desonestidade diária que deveria ser inaceitável na ciência.


Feynman advertiu, aprendemos com a experiência de que a verdade aparecerá. Outros pesquisadores repetirão sua experiência e descobrirão se você estava errado ou certo. Os fenômenos da natureza concordarão ou não, com sua teoria. E, embora você possa ganhar alguma fama e entusiasmo temporário, você não ganhará uma boa reputação como pesquisador se você não tentar ter muito cuidado nesse tipo de trabalho. E é esse tipo de integridade, esse tipo de cuidado para não enganar a si mesmo, que está faltando em grande parte da pesquisa tomada pelo Cargo Cult Science.


Um exemplo do Cargo Cult Science é uma experiência que usa os resultados de outro pesquisador em vez de um controle experimental. Uma vez que as condições do outro pesquisador podem ser diferentes das do presente experimento de maneiras desconhecidas, as diferenças no resultado podem não ter relação com a variável independente em consideração.


Outros exemplos, dados por Feynman, são de pesquisa educacional, psicologia (particularmente parapsicologia) e física. Ele também menciona outros tipos de desonestidade, por exemplo, promovendo de forma falsa a pesquisa para garantir o financiamento.


Qual é a apelo da FM2S sobre análise de dados?


Por isso, faço aqui um apelo pela verdade. Sei que um artigo desses é um tanto quanto fora do modelo que escrevo sempre, mas achei válido. Não aguento mais ver várias receitas prontas no Linkedin, em blogs ou no Facebook. Elas nada mais fazem do que gerar falsas esperanças e até mesmo problemas. Por favor, escrevam suas dicas apenas se tiverem base técnico-científica para tal. Sem isso, sem método científico, é muito fácil nos enganarmos. Dessa forma, as consequências disso são perigosas e desastrosas.


[caption id="attachment_38288" align="aligncenter" width="720"]E-book Análise de Dados E-book Análise de Dados[/caption]

Quando digo ter orgulho da Certificação Green Belt e Black Belt que ministramos, digo porque para mim, lá estão as ferramentas para vocês se protegerem contra as besteiras que vão tentar te vender. Por exemplo, gatilhos mentais, imagens bonitas e muito bla-bla-bla. Elas não vão te fazer mais esperto e nem a sua vida mais fácil.





Virgilio Marques Dos Santos

Virgilio Marques Dos Santos

Sócio-fundador da FM2S, formado em Engenharia Mecânica pela Unicamp (2006), com mestrado e doutorado na Engenharia de Processos de Fabricação na FEM/UNICAMP (2007 a 2013) e Master Black Belt pela UNICAMP (2011). Foi professor dos cursos de Black Belt, Green Belt e especialização em Gestão e Estratégia de Empresas da UNICAMP, assim como de outras universidades e cursos de pós-graduação. Atuou como gerente de processos e melhoria em empresa de bebidas e foi um dos idealizadores do Desafio Unicamp de Inovação Tecnológica.