Por que o mais simples é melhor?

A Navalha de Ockham diz que a simplicidade é uma virtude científica, mas a justificativa dessa filosofia é estranhamente ilusória.


Duas obras arquitetônicas de Barcelona são tão diferentes quanto podem ser. A Sagrada Família, projetada por Antoni Gaudí, fica a apenas algumas milhas do pavilhão alemão, construído por Mies van der Rohe. A igreja de Gaudí é extravagante e complexa. O pavilhão de Mies é tranquilo e simples. Mies, o apóstolo da arquitetura minimalista, usou o slogan “menos é mais” para expressar o que ele estava procurando. Gaudí nunca disse ‘mais é mais’, mas seus edifícios sugerem que isto é o que ele tinha em mente.

Uma reação ao contraste entre Mies e Gaudí é escolher lados com base em uma convicção sobre como toda a arte deve ser. Se toda a arte deve ser simples ou se toda a arte deve ser complexa, a escolha é clara. No entanto, ambas as normas parecem absurdas. Não é óbvio que alguma arte estimável é simples e algumas são complexas? É verdade, pode haver extremos que estão além dos limites; somos alienados pela arte que é demasiado complexa e entediados com a arte que é muito simples. No entanto, entre estes dois extremos existe um vasto espaço de possibilidades. Diferentes artistas tiveram objetivos diferentes. Os artistas não estão trabalhando para descobrir o único grau correto de complexidade que todas as obras de arte devem ter. Não existe tal ideal atemporal.

A ciência é diferente, pelo menos de acordo com muitos cientistas. Albert Einstein falou por muitos quando disse que “dificilmente pode ser negado que o objetivo supremo de toda a teoria é fazer com que seus elementos básicos e irredutíveis sejam tão simples e tão poucos quanto possível, sem ter que se render a uma representação adequada de um único dado da experiência”. A busca de teorias simples, então, é uma exigência do empreendimento científico. Quando as teorias ficam muito complexas, os cientistas chegam com a Navalha de Ockham, o princípio da parcimônia, para fazer o corte. Este princípio diz que uma teoria que postula menos entidades, processos ou causas é melhor do que uma teoria que postula mais, desde que a teoria mais simples seja compatível com o que se observa. Mas o que “melhor” quer dizer? É óbvio que as teorias simples podem ser bonitas e fáceis de entender, lembrar e testar. O problema difícil de explicar é por que o fato de uma teoria ser mais simples do que outra diz algo sobre como o mundo é.

Um dos mais famosos endossos científicos da Navalha de Ockham pode ser encontrado em Princípios Matemáticos da Filosofia Natural (1687), de Isaac Newton, onde ele afirma quatro “regras de raciocínio”. Aqui estão as duas primeiras:

Regra I. Não devemos admitir mais causas para as coisas naturais do que aquelas que forem verdadeiras e suficientes para explicar as suas aparências. Como dizem os filósofos: a natureza não faz nada em vão, e mais causas são em vão quando menos suficientes. A natureza é simples e não entra no luxo de causas supérfluas.

Regra II. Portanto, aos mesmos efeitos naturais devemos, na medida do possível, atribuir as mesmas causas. Exemplos são a causa da respiração no homem e animal, ou da queda de pedras na Europa e na América, ou da luz de um incêndio na cozinha e do Sol, ou da reflexão da luz sobre a nossa Terra e nos outros planetas.

Newton não fez muito para justificar estas regras, mas em um comentário inédito sobre o livro de Apocalipse, ele diz mais. Aqui está uma das suas “Regras para a metodização/construção do Apocalipse”:

Escolher aquelas construções que, sem esforço, reduzem as coisas à maior simplicidade possível. A razão disso é… [que] a verdade sempre será encontrada na simplicidade, e não na multiplicidade e confusão das coisas. É a perfeição das obras de Deus que são todas feitas com a maior simplicidade. Ele é o Deus da ordem e não da confusão. E, portanto, na medida em que eles compreendessem como funciona o mundo, eles deveriam se esforçar em reduzir todo conhecimento ao máximo de simplicidade possível, e isso deveria ser realizado através da tentativa de entender o que perceberam (sobre o mundo).

Newton acha que preferir teorias mais simples faz sentido, seja para interpretar a Bíblia ou para descobrir as leis da física. A Navalha de Ockham é certa em ambos os casos, porque o universo foi criado por Deus.

No século XX, filósofos, estatísticos e cientistas fizeram progressos na compreensão de por que a simplicidade de uma teoria é relevante para avaliar o que e como o mundo é. Suas justificativas da navalha de Ockham não dependem de teologia, nem invocam a tese grandiosa de que a natureza é simples. Há pelo menos três “paradigmas da parcimônia” dentro dos quais a navalha pode ser justificada.

O primeiro é exemplificado pelo conselho dado a estudantes de medicina que eles deveriam “evitar perseguir zebras”. Se os sintomas de um paciente podem ser explicados pela hipótese de que ele tem uma doença comum C, e também podem ser explicados pela hipótese de que ela tem a doença rara R, deve preferir o diagnóstico C em vez do R. C é entendido como mais parcimonioso. Neste caso, a hipótese mais parcimoniosa tem a maior probabilidade de ser verdadeira.

Há uma outra situação em que as teorias mais simples têm maiores probabilidades. Envolve a versão da Navalha de Ockham, que eu chamo de “a navalha do silêncio”. Se você tiver provas de que C1 é uma causa de E, e nenhuma evidência de que C2 é uma causa de E, então C1 é uma explicação melhor de E do que C1 e C2 podem ser. O filósofo do século 19, John Stuart Mill, estava pensando em tais casos, quando disse que o princípio da parcimônia é

um caso de princípio geral prático, de não acreditar em nada que não haja evidência alguma… A suposição de uma causa supérflua é uma crença sem provas; como se fôssemos supor que um homem que foi morto por cair num precipício devesse ter tomado veneno também.

Mill está falando sobre a navalha do silêncio. A melhor explicação de E é manter silêncio sobre C2; ele não nega que C2 seja uma causa. O problema muda se você considerar duas hipóteses conjuntivas. Qual é a melhor explicação para E: C1 & não-C2 ou C1 & C2? A navalha do silêncio não fornece orientação alguma, mas outra navalha, a navalha da negação, o faz. Nos diz para preferirmos a primeira. Infelizmente, não está claro que justificação poderia haver para esta reivindicação se você não tem provas, de um modo ou de outro, quanto ao fato de C2 ser verdade. A navalha do silêncio é fácil de justificar; justificar a navalha da negação é mais difícil.

Postular uma única causa comum é mais parcimonioso do que postular um grande número de causas independentes, separadas.

No exemplo das doenças raras e comuns, as duas hipóteses conferem a mesma probabilidade nas observações. O segundo paradigma da parcimônia concentra-se em situações em que uma hipótese mais simples e uma hipótese mais complexa conferem diferentes probabilidades sobre as observações. Em muitos casos, as provas favorecem a teoria mais simples sobre seu competidor mais complexo. Por exemplo, suponha que todas as luzes no seu bairro apaguem ao mesmo tempo. Você, então, considerará duas hipóteses:

(H1) algo aconteceu à usina elétrica às 20h00, na terça-feira, o que afetou todas as luzes; ou

(H2) algo aconteceu a cada uma das lâmpadas, às 8:00 na terça-feira, que influenciou se a luz continuaria.

Postular uma única causa comum é mais parcimonioso do que postular um grande número de causas independentes, separadas. O escurecimento simultâneo de todas essas luzes é mais provável se H1 for verdade em vez de H2. Com base em ideias desenvolvidas pelo filósofo Hans Reichenbach, você pode provar matematicamente (a partir das hipóteses que H1 e H2 estão refletindo) que as observações favorecem H1 sobre H2. O matematicamente curioso poderia ter um olhar para o meu livro de Ockhams Razors: A Users Manual (2015).

Um exemplo biológico importante em que causas comuns são preferíveis às causas distintas pode ser encontrado na hipótese de Charles Darwin, de que toda a vida atual remonta a um ou alguns progenitores originais. Os biólogos modernos estão na mesma página quando apontam para a universalidade perto do código genético, favorecendo tão fortemente a hipótese de ancestralidade comum universal sobre a hipótese de múltiplos antepassados. O código compartilhado seria uma coincidência surpreendente se diferentes grupos de organismos resultassem de diferentes pontos de partida. Seria muito mais provável se toda a vida atual fosse rastreada até uma única origem.

De acordo com o terceiro paradigma da parcimônia, a parcimônia é relevante para estimar a precisão com que um modelo irá prever novas observações. Um resultado central na parte de estatísticas chamados “teoria de seleção de modelos” é devido a Hirotugu Akaike, que provou um teorema surpreendente que demonstrou essa relevância. Este teorema é a base de um critério de avaliação modelo que veio a ser chamado AIC (Critério de Informação Akaike). O AIC diz que a capacidade de um modelo de prever novos dados pode ser estimada ao ver o quão bem ele encaixa dados antigos e vendo como são simples.

Aqui está um exemplo. Você está dirigindo por uma estrada rural no final do verão e percebe que existem dois grandes campos de milho, um de cada lado da estrada. Você para seu carro e colhe uma amostra de 100 plantas de milho de cada campo. Você acha que a altura média na primeira amostra é de 52 polegadas e a altura média na segunda amostra é de 56 polegadas. Uma vez que seja no final da estação de crescimento, você assume que as alturas médias nos dois campos enormes não vão mudar ao longo dos próximos dias. Você pretende voltar aos dois campos no dia seguinte, e colher novas amostras de 100 plantas de milho de cada lado. Qual das duas previsões seguintes você considera ser mais precisa?

Predição A: as 100 plantas que você colher no dia seguinte da primeira colheita terão, em média, 52 polegadas; e as 100 plantas que você colher no dia seguinte da segunda colheita terão, em média, 56 polegadas.

Previsão B: cada uma das duas amostras terão, em média, 54 polegadas.

A teoria da seleção de modelos diz que este problema pode ser resolvido ao considerar os dois seguintes modelos das alturas médias das duas populações:

DIFF: a altura média na primeira população = h1, e a altura média na segunda população = h2.

NULL: a altura média na primeira população = altura média na segunda população = h.

Nenhum modelo diz quais são os valores de h1, h2, e h; estes são chamados de ‘parâmetros ajustáveis’. O modelo NULL tem esse nome porque ele diz que as duas populações não diferem em suas alturas médias. O nome que dão ao modelo DIFF é um pouco enganador, uma vez que o modelo não diz que as duas populações diferem em suas alturas médias. DIFF permite esta possibilidade, mas também permite que as duas populações possam ter a mesma altura média.

O que DIFF e NULL preveem sobre os dados que você irá desenhar a partir dos dois campos de amanhã? Os modelos por conta própria não fornecem números. No entanto, você pode adequar cada modelo aos dados antigos ao estimar os valores dos parâmetros ajustáveis ​​(H1, H2, e h) nos dois modelos. O resultado é os dois modelos embutidos seguintes:

f(DIFF): H1 = 52 polegadas, e H2 = 56 polegadas.

f(NULL): h = 54 polegadas.

A questão de qual modelo irá prever com maior precisão os novos dados é interpretada para dizer: qual é o modelo que, quando equipado com os dados antigos que você tem, vai prever com maior precisão os novos dados que você ainda não tem?

DIFF, você pode estar pensando, tem que ser verdadeiro. E NULL, você também pode estar pensando, deve ser falsa. Quais são as chances de que essas duas grandes populações de plantas de milho devem ter exatamente a mesma altura média? Se seu objetivo fosse dizer qual dos dois modelos é verdadeiro e qual é falso, tudo estaria feito. Mas esse não é o problema em questão. Em vez disso, você quer avaliar os dois modelos para as suas precisões de previsão. Um dos fatos surpreendentes sobre modelos como NULL e DIFF é que um modelo conhecido por ser falso, às vezes, faz previsões mais precisas do que um modelo conhecido para ser verdadeiro. NULL, embora falso, pode significar perto da verdade. Se for, pode ser melhor que você use NULL para prever novos dados, ao invés de usar DIFF para fazer a sua previsão. Afinal, os dados antigos podem não ser representativos! NULL o mantém na reta e à estreita; DIFF o convida a se desviar.

Não há questões de gosto em disputa quando se trata do valor da simplicidade e da complexidade nas obras de arte. Mas a simplicidade, na ciência, não é uma questão de gosto.

O AIC avalia NULL e DIFF, tendo em conta dois fatos: f(DIFF) adequa os dados antigos melhor do que f(NULL) faz, e DIFF é mais complexo do que NULL. Aqui, a complexidade de um modelo se dá pelo número de parâmetros ajustáveis ​​que o modelo contém. Como eu mencionei, a AIC é baseada no teorema de Akaike, o que pode ser descrito informalmente, como segue:

Uma estimativa imparcial da precisão da previsão do modelo M = [quão bem f(M) se ajusta aos dados antigos] menos [o número de parâmetros ajustáveis que ​​M contém].

Um resultado matemático, portanto, pode estabelecer que a parcimônia é relevante para estimar a precisão da previsão.

O teorema de Akaike é um teorema, o que significa que ele é derivado de suposições. Há três. A primeira é que os conjuntos de dados antigos e novos são gerados a partir da mesma realidade subjacente; esta hipótese é satisfeita no nosso exemplo, sobre se a altura média de cada população permanece inalterada enquanto os conjuntos de dados antigos e novos são desenhados. A segunda hipótese é que as estimativas repetidas de cada um dos parâmetros de um modelo irá formar uma distribuição em forma de sino. A terceira hipótese é que um dos modelos concorrentes é verdade, ou é perto da verdade. Essa suposição está satisfeita no exemplo do milho, uma vez que NULL ou DIFF deve ser verdade.

Gaudí e Mies lembram-nos que não há questões em disputa de gosto quando se trata de avaliar o valor da simplicidade e complexidade nas obras de arte. Einstein e Newton dizem que a ciência é diferente – simplicidade, na ciência, não é uma questão de gosto. Reichenbach e Akaike fornecem algumas razões pelas quais isso é assim. O resultado é que existem três paradigmas da parcimônia que explicam como a simplicidade de uma teoria pode ser relevante para dizer sobre como o mundo é:

Paradigma 1: às vezes, as teorias mais simples têm maiores probabilidades.

Paradigma 2: às vezes, as teorias mais simples são melhor suportadas pelas observações.

Paradigma 3: às vezes, a simplicidade de um modelo é relevante para estimar a sua precisão preditiva.

Estes três paradigmas têm algo importante em comum. Se um determinado problema se encaixa em qualquer um deles, isso depende de premissas empíricas sobre o problema. Essas hipóteses podem ser verdadeiras para alguns problemas, mas falsas para outros. Embora a parcimônia seja comprovadamente relevante para formar um juízo sobre como é o mundo, não há, ao fim das contas, nenhuma justificação incondicional de pressupostos para a Navalha de Ockham.


Artigo traduzido por Alysson Augusto e originalmente publicado em Aeon.


Seja patrono do AZ para traduzirmos mais artigos como este.
CLIQUE AQUI e escolha sua recompensa.


Newsletter AZ | sabedoria budista


Você pode querer ler também:

O pior inimigo da ciência é seu melhor amigo?
As 20 mulheres que mudaram a ciência (e o mundo)

escrito por:

Elliott Sober

Professor pesquisador na Universidade de Wisconsin, Madison.