A função gaussiana

Thursday 16 August 2012 at 11:02 am

Versão para impressão


A função gaussiana é uma importante função de densidade de probabilidade, muito presente na física experimental. Ela tem a forma de um sino com a boca virado para baixo segundo a expressão:

H(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}

Onde \sigma corresponde ao desvio padrão da distribuição e \mu, o seu valor médio. A figura 1 mostra a distribuição gaussiana.


Figura 1 - Função densidade de probabilidade gaussiana.

Por ser uma função densidade de probabilidade, a área entre dois limites da curva indica a probabilidade de encontrar a variável x entre esses limites. Em particular x pode assumir um valor entre \mu-\sigma e \mu+\sigma com, aproximadamente, 68% de probabilidade.

Neste texto vamos mostrar algumas características da função gaussiana, o porque ela é tão presente na física experimental e uma maneira (dentre várias) de inferir a sua expressão matemática.

O Teorema do Limite Central

O Teorema do Limite Central é um dos teoremas fundamentais da teoria de probabilidade e, em linhas gerais pode ser enunciado como:

Em uma amostra aleatória qualquer simples \{X_1,X_2,X_3,...,X_n\} de elementos independentes entre si, com distribuições de probabilidade bem definida com variância \sigma^2 e média \mu, na medida em que n aumenta, a distribuição de probabilidades do valor médio dessa amostra aproxima-se de uma distribuição gaussiana de valor médio \mu e variância \sigma^2/n.

Esse teorema tem um grande impacto na física experimental em particular e explica porque a grande maioria das distribuições de grandezas experimentais apresentam uma distribuição gaussiana. Sabemos que toda medida tem um erro associado a ela. Esse erro é, em geral, composto da soma de um número muito grande de pequenos erros individuais, em geral, independentes. Por conta disso e, aplicando o teorema do limite central, a distribuição de probabilidade dessa medida experimental acaba seguindo uma distribuição gaussiana.

Esse teorema não é simples de ser provado no nível do curso de Física Experimental II. Mas para quem estiver interessado há uma demonstração formal neste link. Contudo, podemos fazer uma "demonstração" empírica a partir de um experimento virtual simples: jogar moedas.

Uma moeda tem duas faces: cara e coroa. Para fins matemáticos, vamos assumir que cara tem valor 1 e coroa tem valor -1. Se jogarmos uma moeda, podemos obter cara ou coroa, ou seja, 1 ou -1. Para cada moeda jogada, verificamos qual face obtemos e preenchemos um histograma com o seu valor numérico (1 ou -1). Depois de repetir esse experimento 10000 vezes, obteremos aproximadamente 5000 vezes 1 e outras 5000 vezes, -1, conforme mostra a figura 2.


Figura 2 - Cara ou coroa.

Agora vamos repetir o experimento mas, ao invés de jogar uma moeda, jogaremos duas e somaremos os resultados. Nesse caso, temos três valores possíveis, -2 (coroa+coroa), 0 (cara+ coroa ou coroa+cara) ou 2 (cara+cara), sendo 0 duas vezes mais provável que os demais. Repetindo o experimento 10000 vezes obtemos o resultado da figura 3.


Figura 3 - Duas moedas.

Jogando três moedas temos 4 possibilidades. Repetindo o experimento 10000 vezes obtemos o histograma da figura 4.


Figura 4 - Três moedas.

Você já percebeu onde vamos chegar. Imagine jogando um saco de 5000 moedas. Basicamente podemos obter valores entre -5000 e +5000, cada um com diferente probabilidade. Repetimos então esse experimento 10000 vezes. O resultado é mostrado na figura 5.


Figura 5 - 5000 moedas.

Obter como resultado o valor 5000 ou -5000 (todas moedas cara ou todas moedas coroa) é praticamente impossível. É muito mais provável obter metade cara e metade coroa, resultando em uma soma de valores nula. Note como a distribuição se assemelha a da figura 1, uma gaussiana. Isso é efeito do teorema do limite central onde temos várias grandezas aleatórias sendo somadas de forma independente. O engraçado disso é que o resultado não depende da distribuição de cada grandeza. Tanto faz se temos uma distribuição com duas possibilidades (cara e coroa) ou muitas possibilidades. O resultado é sempre uma gaussiana.

Inferência da expressão da distribuição Gaussiana

Há alguns anos eu topei com uma dedução da expressão para a gaussiana a partir de princípios muito simples. Eu não encontrei mais a referência (se alguém descobrir me avise) então resolvi reproduzir esta dedução aqui. Acredito que esta não é uma dedução muito formal como a que encontramos em geral em livros de estatística e sim uma forma de inferir a fórmula da gaussiana a partir de um experimento imaginário simples. Uma dedução mais formal, onde fica claro o teorema do limite central, pode ser encontrada no livro Tratamento Estatístico de Dados em Física Experimental, do Otaviano Helene e Vito Vanin, no capítulo IV.

Vamos partir de princípios simples, tentando imaginar um experimento que consiste em atirar flechas contra um alvo. A mosca deste alvo é a origem de um plano cartesiano x-y. Contudo, por conta da precisão do arqueiro, nem sempre se consegue acertar a mosca. Vamos assumir que:

  1. Não há problemas de acurácia, ou seja, o arqueiro, em média, acerta a mosca.
  2. Acertar longe da mosca é menos provável que acertar perto.
  3. Os erros da posição que a flecha atinge o alvo são independentes, ou seja, uma boa precisão na posição no eixo x não significa uma boa precisão no eixo y, e vice-versa.
  4. Os erros da posição que a flecha atinge o alvo não dependem da orientação do plano cartesiano. Isto é, tanto faz qual é a direção e sentido dos eixos x e y.

Um esquema desse experimento imaginário é mostrado na figura 6.


Figura 6 - Esquema do experimento imaginário do artirador, bem como representação de grandezas utilizadas no texto.

A probabilidade de o atirador acertar uma certa posição do alvo entre x e x+\Delta x pode ser calculada a partir da função densidade de probabilidade em x, H(x) e vale P(x,\Delta x) = H(x)\Delta x, desde que H(x) não varie muito no intervalo \Delta x. O mesmo pode ser aplicado ao eixo y e a probabilidade de acertar uma região entre y e y+\Delta y é P(y,\Delta y) = H(y)\Delta y.

Deste modo, a probabilidade de acertar uma pequena região quadrada do alvo, de larguras \Delta x e \Delta y, na posição (x,y) em relação à origem é o produto das duas probabilidades, já que os erros em cada eixo são independentes, ou seja, P(x,y) = H(x)H(y)\Delta x \Delta y.

O produto G(r) = H(x)H(y) corresponde à função densidade de probabilidade de acertar a posição (x,y) e depende somente da distância à origem, uma vez que a orientação dos eixos cartesianos não afeta a probabilidade final do arqueiro acertar uma posição do alvo. Sendo assim, eu posso orientar esses eixos em qualquer direção. Uma rotação qualquer desses eixos em torno da origem por um ângulo \theta qualquer não deve mudar o valor de G(r). Isso significa que:

\frac{d}{d\theta}G(r) = 0

Vamos então calcular essa derivada:

\frac{d}{d\theta}G(r) = 0 = \frac{d}{d\theta}(H(x)H(y)) = H(y)\frac{d}{d\theta}H(x) + H(x)\frac{d}{d\theta}H(y)

Manter o ângulo nessa expressão não é interessante, já que queremos obter as densidades de probabilidade em x e y. Sabemos que a conversão de coordenadas (x,y), cartesiana, para (r,\theta), polares, é bastante simples, ou seja:

x = r\cos(\theta)

y = r\sin(\theta)

De modo que:

\frac{dx}{d\theta} = -r\sin(\theta}) \rightarrow d\theta = -\frac{dx}{r\sin(\theta)} = -\frac{dx}{y}

\frac{dy}{d\theta} = r\cos(\theta}) \rightarrow d\theta = \frac{dy}{r\cos(\theta)} = \frac{dy}{x}



Substituindo isso na expressão para a derivada de G(r) em \theta obtem-se que:

-H(y)y\frac{d}{dx}H(x) + H(x)x\frac{d}{dy}H(y) = 0

Isolando tudo que vem de x de um lado da equação e tudo de y do outro lado, chega-se à:

\frac{\frac{d}{dx}H(x)}{xH(x)} = \frac{\frac{d}{dy}H(y)}{yH(y)}

O interessante desta equação é que a única forma dela ser verdadeira é se os termos da direita e esquerda não dependerem mais de y e x, ou seja, forem constantes. Deste modo:

\frac{\frac{d}{dx}H(x)}{xH(x)} = \frac{\frac{d}{dy}H(y)}{yH(y)} = C

Onde C é uma constante. Portanto, para achar H(x) e H(y) devemos resolver as equações:

\frac{d}{dx}H(x) = CxH(x)

\frac{d}{dy}H(y) = CyH(y)

Estas equações diferenciais são simples de resolver e têm como solução (aplique essas solução e veja você mesmo), no caso para x:

H(x) = Ae^{\frac{C}{2}x^2}

A solução para y é equivalente. A constante C deve ser negativa pois a probabilidade deve diminuir na medida em que x (ou y) aumenta. Deste modo podemos reescrever a expressão acima como:

H(x) = Ae^{-\frac{k}{2}x^2}

onde k>0. Precisamos agora determinar quanto vale A e k. O valor de A é facilmente determinado sabendo-se que a integral da função densidade de probabilidade em todo espaço vale 1. Assim:

\int_{-\infty}^{+\infty}{H(x)dx} = \int_{-\infty}^{+\infty}{Ae^{-\frac{k}{2}x^2}dx} = 1

Consultando uma boa tabela de integrais, é fácil encontrar que:

\int_{-\infty}^{+\infty}{e^{-ax^2}dx} = \sqrt{\frac{\pi}{a}}

Por comparação e igualando à 1, é fácil ver que:

A = \sqrt{\frac{k}{2\pi}}

Resta-nos agora determinar o valor de k. Podemos fazer isso através da definição de variância:

\sigma^2=\left<(x-\mu)^2\right>

onde \mu é o valor verdadeiro de uma grandeza. No nosso caso é zero, já que a mosca está posicionada na origem do nosso sistema cartesiano. Para uma distribuição contínua de possibilidades, a média acima é escrita em termos da função densidade de probabilidade como:

\sigma^2= \int_{-\infty}^{+\infty}{x^2H(x)dx} = \int_{-\infty}^{+\infty}{x^2Ae^{-\frac{k}{2}x^2}dx}

Consultando uma boa tabela de integrais, também encontramos que:

\int_{-\infty}^{\infty} x^2 e^{-ax^2}\,\mathrm{d}x=\frac{1}{2} \sqrt{\pi \over a^3} \quad (a>0)

Aplicando essa expressão no cálculo da variância chegamos que:

k=\frac{1}{\sigma^2}

Ou seja, substituindo A e k na expressão para H(x) chegamos, finalmente, à:

H(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x}{\sigma}\right)^2}

Que é a expressão da função densidade de probabilidade gaussiana, ou normal, com valor verdadeiro zero e desvio padrão \sigma. A generalização para valor verdadeiro (\mu) diferente de zero corresponde somente a uma translação da origem do eixo no plano cartesiano por esse valor, ou seja:

H(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}