Como a Cerveja revolucionou a Estatística e essa, a Cerveja?
Uma das maiores mentes da Estatística do século XX não era um estudioso. Ele fazia cerveja.
O trabalho do cervejeiro da Guinness, William S. Gosset, é responsável por inspirar o conceito de significância estatística, controle de qualidade industrial, projeto eficiente de experimentos e, não menos importante, cerveja consistentemente de excelente sabor.
Mas Gosset certamente não é um nome familiar. Livros e artigos sobre ele são escassos, e ele raramente é discutido entre os estatísticos mais importantes da história. Porque ele usou um pseudônimo, seu nome nem é familiar para a maioria das pessoas que frequentemente usam sua descoberta mais famosa. Gosset é o "student" do Student's T-Test, um método para interpretar o que pode ser extrapolado de uma pequena amostra de dados.
Como um cervejeiro revolucionou a Estatística?
Gosset fez suas grandes inovações enquanto trabalhava como cervejeiro para a Guinness de 1899 a 1937. Por todos os relatos históricos, William S. Gosset era um cara muito legal.
Estatísticos contemporâneos como W. Edward Deming, Udny Yule e Florence Nightingale David, respectivamente, o chamaram de uma “personalidade muito humilde e agradável”, “um sujeito muito agradável” e “Um bom homem [...] sem um osso ciumento em seu corpo”. Tanto Karl Pearson quanto RA Fisher, os dois mais famosos pensadores estatísticos do início do século XX, que eram conhecidos por se odiarem, encontraram um terreno comum em seu gosto por Gosset.
Nascido em 1876 em Canterbury, Inglaterra, Gosset entrou em um mundo de enorme privilégio. Seu pai era um coronel da Royal Engineers e, embora pretendesse seguir seus passos, não conseguiu devido a problemas de visão. Em vez disso, Gosset frequentou o prestigioso Winchester College e depois Oxford, onde estudou matemática e ciências naturais. Logo depois de se formar em Oxford, em 1899, Gosset se juntou à cervejaria Guinness em Dublin, na Irlanda, como um cervejeiro experimental.
Em uma deliciosa retrospectiva sobre as realizações de Gosset, o economista Stephen Ziliak escreve de forma colorida sobre o jovem Gosset:
Gosset era em 1899 um cientista cavalheiro e enérgico - embora um tanto maluco - de 23 anos. Ele possuía uma imaginação perversamente fértil e mais energia e foco do que um São Bernardo em uma tempestade de neve. Um obsessivo observador, contador, ciclista e jogador de críquete, o cervejeiro de alta classe tinha um gosto para a invenção, e experimentos ao ar livre.
Gosset passaria o resto de sua vida trabalhando para a Guinness, e foi trabalhando em produtos da Guinness que ele desenvolveria suas grandes inovações estatísticas.
A ciência que faz parte do processo de fermentação inspirou as inovações estatísticas de Gosset.
Quando Gosset começou a trabalhar na Guinness, esta já era a maior cervejaria do mundo. Mesmo comparada às empresas modernas, a Guinness estava focada no uso da ciência para melhorar seus produtos. Eles contrataram os “jovens mais brilhantes que puderam encontrar” como cientistas, e deram a eles licença para inovar e implementar suas descobertas. Talvez o equivalente a ser um cientista da computação no Bell Labs nos anos 70 ou um pesquisador de inteligência artificial no Google hoje, foi um trabalho maravilhoso para um Gosset curioso e prático.
Como a Guiness entrou para Estatística?
Naquela época, o foco principal do Guinness era manter a qualidade de sua cerveja, enquanto aumentava a quantidade e diminuía os custos. Entre 1887 e 1914, a produção da cervejaria dobrou, atingindo quase um bilhão de litros. Como a empresa poderia aumentar a produção, mantendo a degustação de cerveja como os consumidores esperavam? Gosset foi designado como parte da equipe que responderia a essa pergunta.
Como a maioria das cervejas, a Guinness é aromatizada com as flores da planta Humulus lupulus, também conhecida como "lúpulo". A cervejaria usou quase cinco milhões de libras do material em 1898. Eles determinaram quais plantas usar com base em medidas qualitativas, como " aparência e fragrância ".
Na escala em que a Guinness estava fermentando, o método “aparência e fragrância” não era econômico nem preciso. A equipe de cervejeiros científicos, da qual Gosset fazia parte, melhoraria esse processo de seleção.
O primeiro chefe de Gosset, o “cervejeiro científico” Thomas B. Case, acreditava que a melhor maneira de determinar a qualidade do lúpulo era calcular a proporção de resinas “macias” para resinas “duras” em um lote (resinas são substâncias semissólidas que sai das glândulas do lúpulo).
Case decidiu pegar um pequeno número de amostras de diferentes lotes de lúpulo de Kent, na Inglaterra, e calcular a porcentagem de resinas macias para resinas duras. Ele encontrou uma média de 8,1% de resinas macias em um lote de onze amostras, e em outra amostra de quatorze, 8,4% de resinas macias. O que esses números significam para a consistência dos lotes? Case não sabia realmente. Ele olhou para os dados e não podia “tirar” qualquer conclusão em particular, mas Case sabia que eles iriam querer resolver esse problema para analisar esses dados no futuro.
Foi nesse momento que ele se virou para Gosset. A historiadora Joan Fisher Box explica que Gosset foi chamado porque estudou um pouco de matemática em Oxford e ficou “menos assustado” com esse tipo de problema do que os outros cervejeiros.
Como a Estatística da cerveja atraiu Gosset?
Para um pesquisador quantitativo trabalhando hoje, é quase insondável imaginar, mas naquela época, uma teoria de fazer inferências a partir de pequenas amostras não existia. É claro, as pessoas usavam periodicamente pequenas amostras como prova de conclusões, mas não tinham como medir a provável precisão de sua estimativa.
Todos os métodos para extrapolar a partir de uma amostra baseavam-se na ideia de que você tinha um tamanho amostral grande, com mais de 30 observações e poderia usar a “distribuição normal padrão”. Embora isso fosse verdade para a maioria dos estudos acadêmicos da época, em muitos ambientes industriais, não era possível obter uma amostra tão grande. Mesmo uma empresa “cientificamente ocupada” como a Guiness estava limitada na quantidade de seu produto que poderia dedicar a testes.
Gosset descobre a distribuição Estatística t de Student
Então Gosset começou a trabalhar. Seu objetivo era entender o quanto uma amostra é menos representativa quando seu tamanho é menor. Em termos mais técnicos, quão maior é a distribuição de erros de uma estimativa quando você tem apenas uma amostra de dois ou dez, comparado a quando você tem uma amostra de mil?
O primeiro problema de Gosset consistiu em descobrir exatamente quantas observações do extrato de malte, uma substância usada na produção de cerveja, eram necessárias para ter certeza de que os "graus sacarinos" do extrato estavam dentro da precisão de 0,5 grau de uma meta de 133 graus.
Sua abordagem inicial era apenas para simular muitos dados. Ele tinha um extrato para o qual ele tinha um número muito grande de amostras e podia ter relativa certeza dos graus exatos de sacarina. Ele então pegou muitas amostras diferentes de duas observações do extrato para testar a precisão de uma amostra tão pequena. Ele descobriu que cerca de 80% do tempo, a medição de apenas duas observações estava dentro de 0,5 graus do número verdadeiro.
Ele então tentou a mesma coisa com três medidas. Desta vez, houve uma probabilidade aproximada de 87,5% de obter 0,5 grau. Com quatro medições, ele encontrou uma chance melhor que 92%. Com 82 medições, a probabilidade de chegar a 0,5 graus era "praticamente infinita".
Seus chefes na Guinness ficaram entusiasmados com as descobertas. Isso permitiria que eles tomassem decisões inteligentes sobre quais materiais usar para sua cerveja, de uma maneira que nenhum outro negócio poderia fazer.
No entanto, Gosset não estava satisfeito com seu método aproximado. Ele queria descobrir a matemática exata por trás da inferência de pequenas amostras. Ele disse à Guinness que queria consultar um “físico matemático” sobre o assunto. A empresa enviou Gosset ao laboratório de Karl Pearson na University College London. Pearson foi uma das principais figuras científicas de seu tempo e o homem a quem mais tarde foi creditado o estabelecimento do campo da estatística.
Como Gosset se tornou o "estudante"?
Depois de um ano em licença sabática no laboratório de Pearson, Gosset elaborou a matemática por trás de uma "lei dos erros" ao trabalhar com pequenas amostras. Hoje, conhecemos sua descoberta como a " distribuição t de Student ". É a principal maneira de entender o erro provável de uma estimativa, dependendo do tamanho da amostra, e ainda hoje é muito utilizada pelos acadêmicos e pela indústria. Está entre os pilares das estatísticas modernas e entre as primeiras lições aprendidas nos cursos de estatística introdutória. É a fonte do conceito de "significância estatística".
Mas por que é a distribuição t de Student e não de Gosset?
Ao concluir seu trabalho na distribuição t, Gosset estava ansioso para tornar seu trabalho público. Foi uma descoberta importante e que ele queria compartilhar com o resto do mundo. Os gerentes da Guinness não estavam tão interessados nisso. Eles perceberam que tinham uma vantagem sobre os concorrentes usando esse método, e não estavam empolgados em abandonar essa vantagem. Se Gosset publicasse um paper, outras cervejarias estariam com o mesmo conhecimento deles.
Então eles chegaram a um compromisso. A Guinness concordou em permitir que Gosset publicasse a descoberta, contanto que usasse um pseudônimo. Desta forma, os concorrentes não seriam capazes de perceber que alguém na folha de pagamento da Guinness estava fazendo essa pesquisa, e descobrir que a abordagem cientificamente esclarecida da empresa era a chave para seu sucesso.
Então Gosset publicou seu artigo introduzindo a distribuição t, "O provável erro da média", sob o nome de "Student". "O provável erro da média" é um trabalho relativamente seco, composto principalmente de derivações matemáticas e uma simulação de Monte Carlo para demonstrar a precisão do seu método.
Embora o artigo de Gosset tenha sido, no início, ignorado principalmente por pesquisadores estatísticos, um jovem matemático chamado RA Fisher leu o artigo e ficou entusiasmado com os resultados e a abordagem de Gosset. Fisher foi especialmente tomado pela ideia de Gosset de que sua tabela de distribuição poderia ser usada para ter uma ideia de quão provável seria um determinado resultado, comparado ao acaso. E, que se as chances fossem baixas, poderíamos considerar o resultado "significativo". A resposta de Fisher ao trabalho de Gosset teria grandes ramificações para a ciência moderna.
RA Fisher é o "Pai da Estatística Moderna" e, talvez, infelizmente, estendeu as ideias de Gosset em uma direção mais rigorosa.
O que aconteceu com as Extensões de Fisher e a Santificação de .05?
O cientista e escritor britânico Richard Dawkins chamou RA Fisher de “um gênio que quase sozinho criou as bases para a ciência estatística moderna”. Alguns dos trabalhos mais importantes de Fisher incluem suas teorias de desenho experimental, análise de variância e introdução do conceito de fazer. Suposições de incógnitas baseadas na máxima verossimilhança (o conceito de aproximar um valor desconhecido com base no número que torna os dados relacionados mais prováveis). Além de tudo isso, ele era um biólogo extremamente influente.
Fisher começou a estudar matemática na Universidade de Cambridge apenas um ano depois que Gosset publicou "O provável erro de médias". Fisher sabia que Gosset estava envolvido em algo grande.
A distribuição de Gosset e a ideia de “significância estatística”, discutida usando termos ligeiramente diferentes de Gosset, tornaram-se fundamentais para as ideias de Fisher sobre métodos estatísticos. Em 1925, Fisher publicou o que se tornaria, sem dúvida, o livro mais influente na história da estatística, Statistical Methods for Research Workers, que apresentava o trabalho de Gosset e Fisher a um público mais amplo.
Algumas das extensões de Fisher das ideias de Gosset eram controversas. Na verdade, o próprio Gosset se opôs a alguns deles.
O mais controverso foi o resultado que tinha uma probabilidade de menos de 5% de ocorrer aleatoriamente (essa probabilidade é às vezes referida como p-valor ou P). Por exemplo, se uma empresa perguntava as pessoas sobre qual das duas cervejas elas preferem, elas poderiam descobrir que 20 dos 25 pesquisados preferem uma cerveja. Mas como decidir se isso é prova suficiente da supremacia dessa cerveja? Fisher sugere que, se 20 das 25 pessoas que escolheram uma cerveja tiverem menos de 5% de probabilidade de acontecerem aleatoriamente, e as pessoas realmente gostarem das cervejas igualmente, podemos ficar à vontade usando isso como prova. Ele escreveu em Statistical Methods for Research Workers :
“O valor para o qual P = 0,05, ou 1 em 20 ... é conveniente tomar este ponto como um limite para julgar se um desvio deve ser considerado significativo ou não. Desvios que excedem o dobro do desvio padrão são formalmente considerados significativos”.
No jornal Guinnessometrics, o economista Stephen Ziliak demonstra que Gosset considerou arbitrário o limiar de 0,05.
Gosset estava mais preocupado em saber se um resultado era praticamente significativo do que se era estatisticamente “significativo”. Ele se referiu ao conceito de significância estatística como sendo “quase sem valor”. Gosset achou que a evidência deveria ser avaliada dependendo da “importância do resultado”. Das questões em jogo e não de alguma autoridade externa em matemática. Ziliak acredita que Gosset abordou seu trabalho com uma filosofia bayesiana, uma filosofia que geralmente se opõe à ainda popular abordagem “Fisheriana”do teste de hipótese nula, rejeitando ou aceitando uma hipótese baseada em um p-valor limiar.
Hoje, muitos estatísticos sentem que a afirmação de Fisher de que 0,05 constitui significância tenha causado sérios danos à ciência. O médico e pesquisador John Ioannidis demonstrou que uma grande proporção de resultados de pesquisas publicados em revistas científicas é falsa. Em grande parte por causa da confiança no limiar de 0,05. Dado o grande número de estudos que são realizados a cada ano, e o fato de que um em cada vinte estudos atingirá o limiar de 0,05 por acaso, muitos estudos que alegam ter detectado um achado “significativo” são espúrios.
Gosset era um homem cético que sempre considerou o contexto. Ao longo de sua vida, ele nunca usaria a regra de 0,05 que Fisher criara em seu trabalho. Gosset uma vez referiu-se a um p-valor de 0,13 como sendo “um ajuste razoavelmente bom”. Gosset também achava que um p-valor de 0,02 não era necessariamente evidência de que uma descoberta é correta. Se isso fosse suficiente ou se iria exigir mais trabalho, dependeria da importância da conclusão e da dificuldade de obter [dados adicionais].
As ideias de Gosset são parte da base do controle de qualidade industrial.
Black Belt original do Seis Sigma
A pouca fama que Gosset tem hoje ocorre principalmente entre os estudantes de Estatística. Mas talvez seu impacto mais amplo seja como um pioneiro do controle de qualidade industrial.
A revolução industrial e os métodos modernos de fábrica levaram à criação de produtos em uma escala e velocidade nunca antes vistas. Antes dessa produção escalonada, geralmente era possível verificar a qualidade de seus produtos usando métodos qualitativos. Fabricantes de pão, construtores de barcos e cervejeiros fabricavam tão pouco produto que geralmente podiam verificar individualmente cada um deles em busca de problemas de qualidade.
A produção industrial trouxe consigo grandes benefícios, mas também o desafio de garantir que você não arruinasse a reputação da sua marca ao deixar o produto defeituoso escapar.
O trabalho de Gosset foi uma benção para os industriais. Ele demonstrou aos produtores quantas amostras aleatórias precisavam checar para ter uma ideia da qualidade do todo. Seus métodos são agora uma parte quase padrão do protocolo de fábrica. O trabalho de Gosset veio muitos anos antes do de W. Edward Demings, considerado por muitos o pai da evolução da qualidade, e do “six sigma”, uma metodologia de controle de qualidade que depende muito das ideias de Gosset.
O matemático John D. Cook considera “surpreendente” que o controle de qualidade seja fundado por um fabricante de cerveja. Ele explica que, ao contrário dos fabricantes de vinho, que valorizam a variação, os fabricantes de cerveja "se orgulham da consistência".
As ideias de Gosset sobre o design experimental agrícola também foram extremamente influentes.
Embora a descoberta da distribuição-t tenha sido a grande conquista de Gosset, ele também teve várias outras ideias estatísticas influentes. Gosset desenvolveu uma teoria de planejamento eficiente de experimentos de campo e métodos para aplicar técnicas estatísticas a dados experimentais. Gosset publicaria todos, exceto um artigo, sob o pseudônimo de “aluno”, apenas uma vez liberando um artigo em seu próprio nome. O economista Heinz Kohler escreve: “Por muitos anos, um ar de romantismo cercou o surgimento dos papers de 'Student', e apenas alguns indivíduos conheciam sua verdadeira identidade, mesmo após algum tempo após sua morte.”
Ainda assim, dado o incrível impacto de Gosset, ele permanece pouco conhecido. Ele raramente é listado entre os estatísticos mais importantes da história, embora possa ser argumentado que ele merece esse reconhecimento. Sua página da Wikipedia é mísera (580 palavras) em comparação com seus pares (as páginas de RA Fisher e Karl Pearson têm mais de 3.000 palavras).
Certamente, parte da razão para isso é que Gosset trabalhava nos negócios e não na academia. Se ele fosse um professor como Fisher e Pearson, ele teria sido capaz de usar seu próprio nome em seu trabalho e, talvez, publicar livros detalhando seus métodos e ideias. Mas se ele tivesse trabalhado fora da indústria, ele poderia nunca ter tido a oportunidade de assumir os problemas práticos que parecem tê-lo mais estimulado.
Talvez tão importante para a ausência de renome de Gosset fosse sua falta de ideologia. Fisher, que tomaria suas ideias e as tornaria famosas, era um homem que acreditava na criação de regras e estruturas de como a pesquisa quantitativa deveria ser feita. Gosset nunca foi preso a nenhum método em particular. Ele estava simplesmente interessado em resolver os problemas que garantiriam que cada cerveja fosse tão boa quanto a última.