Erro, incerteza e grandezas estatísticas básicas (médias e variâncias)

Sunday 06 May 2012 at 2:49 pm

Versão para impressão


É fácil observar que quando repetimos uma mesma medida, mesmo com todo cuidado do mundo e com o mesmo aparato experimental e procedimentos, o resultado obtido não é idêntico ao anterior. Isto decorre do fato de que sempre existem flutuações inerentes ao processo de medida que não podem ser eliminadas. Devemos aprender a conviver com elas e saber interpretá-las. A teoria de erros é uma parte da estatística que nos ajuda a trabalhar e compreender estas flutuações. Neste texto vamos abordar o conceito de incerteza de uma medida e aspectos introdutórios de estatística, como média, desvio padrão e desvio padrão da média.

Quando realizamos um experimento para medir algo, este "algo" é obtido da análise dos dados adquiridos no experimento realizado. Um aspecto importante para começar a desenvolver a teoria de erros, e também como motivação para se medir alguma coisa é admitir que existe um valor verdadeiro para a grandeza que queremos medir com o experimento. Contudo, este valor verdadeiro é desconhecido e, por mais precisos e acurados que sejam os experimentos realizados, o valor final obtido da análise dos seus dados está sujeito à flutuações. Neste caso, o resultado de uma medida experimental é sempre uma aproximação do valor verdadeiro da grandeza investigada.

Supondo a existência de um valor verdadeiro para uma grandeza, que chamaremos de \tilde{y} (note o til acima da letra. Este acento será sempre utilizado para representar valores verdadeiros de uma grandeza), o resultado do experimento realizado para medir esta grandeza resulta no valor y. Definimos como erro da medida realizada para esta grandeza a diferença entre o valor medido e o valor verdadeiro da mesma, ou seja:

\epsilon = y - \tilde{y}

Uma vez que não conhecemos o valor verdadeiro da grandeza medida, é impossível determinar o erro de um experimento. Neste caso, deve-se utilizar de ferramentas estatísticas para definir o erro de uma medida do ponto de vista probabilístico. Sendo assim, define-se a incerteza de uma medida experimental como sendo a melhor estimativa estatística para o erro da medida efetuada.

Apesar de erro e incerteza serem conceitualmente diferentes, é bastante comum, na prática, as pessoas chamarem as incertezas obtidas em um experimento de erros. Isto não significa que o erro foi determinado. É apenas um vício de linguagem.

A teoria de erros consiste em uma formulação probabilística que tem como objetivos principais:

Valor médio de uma grandeza

A partir de um conjunto de medidas estatisticamente idênticas (medidas repetidas de um mesmo experimento, com mesmos instrumentos e procedimentos):

\{y\} = \{y_1,y_2,y_3,...,y_n\}

Definimos o valor médio deste conjunto de medidas como sendo:

\bar{y} = \frac{1}{n}\sum_{i=1}^{n}{y_i}

A lei dos grandes números estabelece que [1]:

Se um evento de probabilidade p é observado repetidamente em ocasiões independentes, a proporção da frequência observada deste evento em relação ao total número de repetições converge em direção a p à medida que o número de repetições se torna arbitrariamente grande.

Esta lei pode ser aplicada à situação na qual, no limite em que o número de dados no conjunto de medidas tende a infinito, o valor médio daquela amostra tende ao valor verdadeiro da grandeza, ou seja:

\tilde{y} = \lim_{n\rightarrow\infty} {\bar{y}} = \lim_{n\rightarrow\infty} {\frac{1}{n}\sum_{i=1}^{n}{y_i}}

Isto é intuitivo. Na medida em que aumentamos o conjunto de dados o valor médio deste conjunto torna-se mais preciso e, consequentemente, o erro deste valor médio, menor. Por conta disso, podemos dizer que a melhor estimativa para o valor verdadeiro de uma grandeza é obtida do valor médio de um conjunto de n medidas idênticas para esta grandeza.

Variância e desvio padrão

Queremos agora avaliar, de uma amostra, quão dispersos estão os seus dados do valor verdadeiro. Definimos o desvio da i-ésima medida da amostra como sendo:

d_i = y_i - \tilde{y}

É natural pensar em usar o valor médio de \{d\} = \{d_1,d_2,...,d_n\} como uma forma de quantificar quão dispersos estão os dados em relação ao valor verdadeiro da grandeza medida. Por outro lado, pode-se demostrar [2] este valor médio tende a zero quando a amostra torna-se muito grande, independente de quão dispersos estejam os dados da amostra. Neste caso, define-se a variância de uma amostra como sendo a média dos desvios quadráticos, ou seja:

\sigma^{2} = \frac{1}{n} \sum_{i=1}^{n}{(y_i-\tilde{y})^2}

Da mesma forma que para o valor verdadeiro, o valor verdadeiro da variância associada ao processo de medidas é dada pelo:

\tilde{\sigma}^2 = \lim_{n\rightarrow\infty} {\sigma^2}

Note que para calcular a variância de uma amostra é necessário conhecer o valor verdadeiro da grandeza medida, o que não é possível. Uma boa estimativa da variância de uma amostra pode ser obtida através do cálculo do valor médio desta amostra e da expressão:

\sigma^{2} = \frac{1}{n-1} \sum_{i=1}^{n}{(y_i-\bar{y})^2}

O fator n-1 surge quando manipulamos a expressão original para a variância de modo a trocar o valor verdadeiro pelo valor médio. Veja o apêndice, no final do texto, para a dedução desta expressão.

Definimos o desvio padrão de uma amostra como sendo a raiz quadrada da variância desta amostra, ou seja \sigma=\sqrt{\sigma^2}. O desvio padrão tem a mesma unidade dos valores contidos na amostra e é uma estimativa da flutuação média destes valores em torno do valor verdadeiro. Por conta disto, o desvio padrão é a quantidade mais utilizada para representar a incerteza de cada valor contido na amostra de dados.

Desvio padrão da média

Aceitamos naturalmente que o valor médio de uma amostra é uma estimativa mais precisa do valor verdadeiro do que cada valor individualmente. Por conta disso, o erro do valor médio (consequentemente a incerteza do valor médio) deve ser menor do que o erro de cada medida individual. A variância do valor médio, então, deve ser menor que a variância das medidas individuais.

Vamos pensar em uma situação na qual o experimentador realiza o mesmo experimento todos os dias sob as mesmas condições. Em cada dia ele mede uma amostra \{y\}=\{y_1,y_2,...,y_n\}. Ao final do dia ele obtém o valor médio desta amostra. Depois de k dias ele tem em mãos uma amostra de k valores médios:

\{\bar{y}\} =\{\bar{y}_1,\bar{y}_2,...,\bar{y}_k\}

Podemos então calcular a variância desta amostra de valores médios, que é dada por:

\sigma_{m}^{2} = \frac{1}{k}\sum_{j=1}^{k}{(\bar{y}_j-\tilde{y})^2}

O índice m representa que a quantidade está sendo calculada na amostra de valores médios. Substituindo na expressão acima o cálculo da média de cada dia, temos:

\sigma_{m}^{2} = \frac{1}{k}\sum_{j=1}^{k}{(\frac{1}{n}\sum_{i=1}^{n}{y_i}-\tilde{y})^2}

Removendo o termo 1/n da somatória, temos:

\sigma_{m}^{2} = \frac{1}{n^2 k}\sum_{j=1}^{k}{(\sum_{i=1}^{n}{y_i}-n\tilde{y})^2}

Sabendo que n = \sum_{i=1}^{n}{1}, temos que:

\sigma_{m}^{2} = \frac{1}{n^2 k}\sum_{j=1}^{k}{(\sum_{i=1}^{n}{y_i}-\sum_{i=1}^{n}{\tilde{y}})^2}

Ou seja:

\sigma_{m}^{2} = \frac{1}{n^2 k}\sum_{j=1}^{k}{\sum_{i=1}^{n}{(y_i-\tilde{y})^2}} +\text{termos cruzados}

Os termos cruzados tendem a se anular. Assim, podemos reescrever a expressão acima como:

\sigma_{m}^{2} = \frac{1}{n k}\sum_{j=1}^{k}{\frac{1}{n}\sum_{i=1}^{n}{(y_i-\tilde{y})^2}} = \frac{1}{n k}\sum_{j=1}^{k}{\sigma_j^2}

Se as amostras tomadas dia a dia tiverem a mesma variância, ou seja, \sigma_1^2 = \sigma_2^2=...=\sigma_k^2 = \sigma^2, podemos tirar a variância da somatória acima de modo que:

\sigma_{m}^{2} = \frac{1}{n}\sigma^2\frac{1}{k}\sum_{j=1}^{k}{1} = \frac{1}{n}\sigma^2

Ou seja, o desvio padrão da média está relacionado ao desvio padrão dos dados individuais através de:

\sigma_{m} = \frac{1}{\sqrt{n}}\sigma

Note que o desvio padrão é uma medida da dispersão de cada medida efetuada e é, por conta disto, dependente das condições experimentais. Por outro lado, o desvio padrão da média diminui quando n aumenta. Ou seja, quanto maior for a amostra da qual se calcula a média, mais precisa esta média se torna, independentemente da flutuação dos valores individuais da amostra. Isto é compatível com a afirmação de que no limite de infinitas medidas, o valor médio da amostra torna-se o valor verdadeiro da grandeza e, consequentemente, o erro deste valor médio tende a zero.

Apêndice: dedução da melhor estimativa da variância de uma amostra

A variância de uma amostra é definida como:

\sigma^{2} = \frac{1}{n} \sum_{i=1}^{n}{(y_i-\tilde{y})^2}

Somando e subtraindo o valor médio, temos:

\sigma^{2} = \frac{1}{n} \sum_{i=1}^{n}{(y_i - \bar{y} + \bar{y} -\tilde{y})^2} =  \frac{1}{n} \sum_{i=1}^{n}{((y_i - \bar{y}) + (\bar{y} -\tilde{y}))^2}

Expandindo o termo na somatória temos:

\sigma^{2} = \frac{1}{n} \sum_{i=1}^{n}{(y_i - \bar{y})^2} + \frac{2}{n} \sum_{i=1}^{n}{(y_i - \bar{y})(\bar{y}-\tilde{y})} + \frac{1}{n}\sum_{i=1}^{n}{(\bar{y} - \tilde{y})^2}

Na segunda somatória acima é nula (mostre isso como exercício). Assim temos:

\sigma^{2} = \frac{1}{n} \sum_{i=1}^{n}{(y_i - \bar{y})^2} + \frac{1}{n}\sum_{i=1}^{n}{(\bar{y} - \tilde{y})^2}

Na segunda somatória acima, podemos tirar (\bar{y}-\tilde{y})^2 da somatória, de modo que a expressão resulta em:

\sigma^{2} = \frac{1}{n} \sum_{i=1}^{n}{(y_i - \bar{y})^2} + (\bar{y} - \tilde{y})^2

A expressão acima não é ainda independente do valor verdadeiro, como gostaríamos. Para torna-la independente, precisamos estimar a quantidade (\bar{y}-\tilde{y})^2. Uma estimativa é assumir que (\bar{y}-\tilde{y})^2\rightarrow \sigma_m^2. Note que é uma estimativa e não temos como fazer muito melhor que isto. Sabendo que \sigma_m^2 = \sigma^2 / n, temos que:

\sigma^{2} = \frac{1}{n} \sum_{i=1}^{n}{(y_i - \bar{y})^2} + \frac{\sigma^2}{n}

Isolando a variância na expressão acima, temos:

\sigma^{2} = \frac{1}{n-1} \sum_{i=1}^{n}{(y_i - \bar{y})^2}


Referências

[1] http://pt.wikipedia.org/wiki/Lei_dos_grandes_n%C3%BAmeros
[2] Fundamentos da Teoria de Erros, J. H. Vuolo.