Erro, incerteza e grandezas estatísticas básicas (médias e variâncias)

These icons link to social bookmarking sites where readers can share and discover new web pages.

Versão para impressão

É fácil observar que quando repetimos uma mesma medida, mesmo com todo cuidado do mundo e com o mesmo aparato experimental e procedimentos, o resultado obtido não é idêntico ao anterior. Isto decorre do fato de que sempre existem flutuações inerentes ao processo de medida que não podem ser eliminadas. Devemos aprender a conviver com elas e saber interpretá-las. A teoria de erros é uma parte da estatística que nos ajuda a trabalhar e compreender estas flutuações. Neste texto vamos abordar o conceito de incerteza de uma medida e aspectos introdutórios de estatística, como média, desvio padrão e desvio padrão da média.

Quando realizamos um experimento para medir algo, este "algo" é obtido da análise dos dados adquiridos no experimento realizado. Um aspecto importante para começar a desenvolver a teoria de erros, e também como motivação para se medir alguma coisa é admitir que existe um valor verdadeiro para a grandeza que queremos medir com o experimento. Contudo, este valor verdadeiro é desconhecido e, por mais precisos e acurados que sejam os experimentos realizados, o valor final obtido da análise dos seus dados está sujeito à flutuações. Neste caso, o resultado de uma medida experimental é sempre uma aproximação do valor verdadeiro da grandeza investigada.

Supondo a existência de um valor verdadeiro para uma grandeza, que chamaremos de $\tilde{y}$ (note o til acima da letra. Este acento será sempre utilizado para representar valores verdadeiros de uma grandeza), o resultado do experimento realizado para medir esta grandeza resulta no valor

. Definimos como erro da medida realizada para esta grandeza a diferença entre o valor medido e o valor verdadeiro da mesma, ou seja:

$\epsilon = y - \tilde{y}$
Uma vez que não conhecemos o valor verdadeiro da grandeza medida, é impossível determinar o erro de um experimento. Neste caso, deve-se utilizar de ferramentas estatísticas para definir o erro de uma medida do ponto de vista probabilístico. Sendo assim, define-se a incerteza de uma medida experimental como sendo a melhor estimativa estatística para o erro da medida efetuada.

Apesar de erro e incerteza serem conceitualmente diferentes, é bastante comum, na prática, as pessoas chamarem as incertezas obtidas em um experimento de erros. Isto não significa que o erro foi determinado. É apenas um vício de linguagem.

A teoria de erros consiste em uma formulação probabilística que tem como objetivos principais:

Determinar o melhor valor possível para uma grandeza física a partir de um conjunto de dados obtidos de um experimento e;
Determinar a incerteza deste melhor valor obtido.

Valor médio de uma grandeza

A partir de um conjunto de medidas estatisticamente idênticas (medidas repetidas de um mesmo experimento, com mesmos instrumentos e procedimentos):

$\{y\} = \{y_1,y_2,y_3,...,y_n\}$
Definimos o valor médio deste conjunto de medidas como sendo:

$\bar{y} = \frac{1}{n}\sum_{i=1}^{n}{y_i}$
A lei dos grandes números estabelece que [1]:

Se um evento de probabilidade p é observado repetidamente em ocasiões independentes, a proporção da frequência observada deste evento em relação ao total número de repetições converge em direção a p à medida que o número de repetições se torna arbitrariamente grande.

Esta lei pode ser aplicada à situação na qual, no limite em que o número de dados no conjunto de medidas tende a infinito, o valor médio daquela amostra tende ao valor verdadeiro da grandeza, ou seja:

$\tilde{y} = \lim_{n\rightarrow\infty} {\bar{y}} = \lim_{n\rightarrow\infty} {\frac{1}{n}\sum_{i=1}^{n}{y_i}}$
Isto é intuitivo. Na medida em que aumentamos o conjunto de dados o valor médio deste conjunto torna-se mais preciso e, consequentemente, o erro deste valor médio, menor. Por conta disso, podemos dizer que a melhor estimativa para o valor verdadeiro de uma grandeza é obtida do valor médio de um conjunto de medidas idênticas para esta grandeza.

Variância e desvio padrão

Queremos agora avaliar, de uma amostra, quão dispersos estão os seus dados do valor verdadeiro. Definimos o desvio da i-ésima medida da amostra como sendo:

$d_i = y_i - \tilde{y}$
É natural pensar em usar o valor médio de $\{d\} = \{d_1,d_2,...,d_n\}$ como uma forma de quantificar quão dispersos estão os dados em relação ao valor verdadeiro da grandeza medida. Por outro lado, pode-se demostrar [2] este valor médio tende a zero quando a amostra torna-se muito grande, independente de quão dispersos estejam os dados da amostra. Neste caso, define-se a variância de uma amostra como sendo a média dos desvios quadráticos, ou seja:

$\sigma^{2} = \frac{1}{n} \sum_{i=1}^{n}{(y_i-\tilde{y})^2}$
Da mesma forma que para o valor verdadeiro, o valor verdadeiro da variância associada ao processo de medidas é dada pelo:

$\tilde{\sigma}^2 = \lim_{n\rightarrow\infty} {\sigma^2}$
Note que para calcular a variância de uma amostra é necessário conhecer o valor verdadeiro da grandeza medida, o que não é possível. Uma boa estimativa da variância de uma amostra pode ser obtida através do cálculo do valor médio desta amostra e da expressão:

$\sigma^{2} = \frac{1}{n-1} \sum_{i=1}^{n}{(y_i-\bar{y})^2}$
O fator n-1

surge quando manipulamos a expressão original para a variância de modo a trocar o valor verdadeiro pelo valor médio. Veja o apêndice, no final do texto, para a dedução desta expressão.

Definimos o desvio padrão de uma amostra como sendo a raiz quadrada da variância desta amostra, ou seja $\sigma=\sqrt{\sigma^2}$ . O desvio padrão tem a mesma unidade dos valores contidos na amostra e é uma estimativa da flutuação média destes valores em torno do valor verdadeiro. Por conta disto, o desvio padrão é a quantidade mais utilizada para representar a incerteza de cada valor contido na amostra de dados.

Desvio padrão da média

Aceitamos naturalmente que o valor médio de uma amostra é uma estimativa mais precisa do valor verdadeiro do que cada valor individualmente. Por conta disso, o erro do valor médio (consequentemente a incerteza do valor médio) deve ser menor do que o erro de cada medida individual. A variância do valor médio, então, deve ser menor que a variância das medidas individuais.

Vamos pensar em uma situação na qual o experimentador realiza o mesmo experimento todos os dias sob as mesmas condições. Em cada dia ele mede uma amostra $\{y\}=\{y_1,y_2,...,y_n\}$ . Ao final do dia ele obtém o valor médio desta amostra. Depois de

dias ele tem em mãos uma amostra de

valores médios:

$\{\bar{y}\} =\{\bar{y}_1,\bar{y}_2,...,\bar{y}_k\}$
Podemos então calcular a variância desta amostra de valores médios, que é dada por:

$\sigma_{m}^{2} = \frac{1}{k}\sum_{j=1}^{k}{(\bar{y}_j-\tilde{y})^2}$
O índice

representa que a quantidade está sendo calculada na amostra de valores médios. Substituindo na expressão acima o cálculo da média de cada dia, temos:

$\sigma_{m}^{2} = \frac{1}{k}\sum_{j=1}^{k}{(\frac{1}{n}\sum_{i=1}^{n}{y_i}-\tilde{y})^2}$
Removendo o termo 1/n

da somatória, temos:

$\sigma_{m}^{2} = \frac{1}{n^2 k}\sum_{j=1}^{k}{(\sum_{i=1}^{n}{y_i}-n\tilde{y})^2}$
Sabendo que $n = \sum_{i=1}^{n}{1}$ , temos que:

$\sigma_{m}^{2} = \frac{1}{n^2 k}\sum_{j=1}^{k}{(\sum_{i=1}^{n}{y_i}-\sum_{i=1}^{n}{\tilde{y}})^2}$
Ou seja:

$\sigma_{m}^{2} = \frac{1}{n^2 k}\sum_{j=1}^{k}{\sum_{i=1}^{n}{(y_i-\tilde{y})^2}} +\text{termos cruzados}$
Os termos cruzados tendem a se anular. Assim, podemos reescrever a expressão acima como:

$\sigma_{m}^{2} = \frac{1}{n k}\sum_{j=1}^{k}{\frac{1}{n}\sum_{i=1}^{n}{(y_i-\tilde{y})^2}} = \frac{1}{n k}\sum_{j=1}^{k}{\sigma_j^2}$
Se as amostras tomadas dia a dia tiverem a mesma variância, ou seja, $\sigma_1^2 = \sigma_2^2=...=\sigma_k^2 = \sigma^2$ , podemos tirar a variância da somatória acima de modo que:

$\sigma_{m}^{2} = \frac{1}{n}\sigma^2\frac{1}{k}\sum_{j=1}^{k}{1} = \frac{1}{n}\sigma^2$
Ou seja, o desvio padrão da média está relacionado ao desvio padrão dos dados individuais através de:

$\sigma_{m} = \frac{1}{\sqrt{n}}\sigma$
Note que o desvio padrão é uma medida da dispersão de cada medida efetuada e é, por conta disto, dependente das condições experimentais. Por outro lado, o desvio padrão da média diminui quando

aumenta. Ou seja, quanto maior for a amostra da qual se calcula a média, mais precisa esta média se torna, independentemente da flutuação dos valores individuais da amostra. Isto é compatível com a afirmação de que no limite de infinitas medidas, o valor médio da amostra torna-se o valor verdadeiro da grandeza e, consequentemente, o erro deste valor médio tende a zero.

Apêndice: dedução da melhor estimativa da variância de uma amostra

A variância de uma amostra é definida como:

$\sigma^{2} = \frac{1}{n} \sum_{i=1}^{n}{(y_i-\tilde{y})^2}$
Somando e subtraindo o valor médio, temos:

$\sigma^{2} = \frac{1}{n} \sum_{i=1}^{n}{(y_i - \bar{y} + \bar{y} -\tilde{y})^2} = \frac{1}{n} \sum_{i=1}^{n}{((y_i - \bar{y}) + (\bar{y} -\tilde{y}))^2}$
Expandindo o termo na somatória temos:

$\sigma^{2} = \frac{1}{n} \sum_{i=1}^{n}{(y_i - \bar{y})^2} + \frac{2}{n} \sum_{i=1}^{n}{(y_i - \bar{y})(\bar{y}-\tilde{y})} + \frac{1}{n}\sum_{i=1}^{n}{(\bar{y} - \tilde{y})^2}$
Na segunda somatória acima é nula (mostre isso como exercício). Assim temos:

$\sigma^{2} = \frac{1}{n} \sum_{i=1}^{n}{(y_i - \bar{y})^2} + \frac{1}{n}\sum_{i=1}^{n}{(\bar{y} - \tilde{y})^2}$
Na segunda somatória acima, podemos tirar $(\bar{y}-\tilde{y})^2$ da somatória, de modo que a expressão resulta em:

$\sigma^{2} = \frac{1}{n} \sum_{i=1}^{n}{(y_i - \bar{y})^2} + (\bar{y} - \tilde{y})^2$
A expressão acima não é ainda independente do valor verdadeiro, como gostaríamos. Para torna-la independente, precisamos estimar a quantidade $(\bar{y}-\tilde{y})^2$ . Uma estimativa é assumir que $(\bar{y}-\tilde{y})^2\rightarrow \sigma_m^2$ . Note que é uma estimativa e não temos como fazer muito melhor que isto. Sabendo que $\sigma_m^2 = \sigma^2 / n$ , temos que:

$\sigma^{2} = \frac{1}{n} \sum_{i=1}^{n}{(y_i - \bar{y})^2} + \frac{\sigma^2}{n}$
Isolando a variância na expressão acima, temos:

$\sigma^{2} = \frac{1}{n-1} \sum_{i=1}^{n}{(y_i - \bar{y})^2}$

Referências

[1] http://pt.wikipedia.org/wiki/Lei_dos_grandes_n%C3%BAmeros
[2] Fundamentos da Teoria de Erros, J. H. Vuolo.

Alexandre Sunday 06 May 2012 at 2:49 pm | ¶ | laboratorio

No comments

« O que é o bóson de … | Home | Matéria explosiva no… »

Últimos comentários

Alexandre Suaide op Osciloscópio cas…: Já corrigi os links
Rodrigo op Osciloscópio cas…: Alexandre, tentei entrar nos três links de baixo em casa, mas nenhum deu certo. Há alguma outra man…
Tadeu Nunes de So… op O bóson de Higgs…: Caro professor Alexandre, quero parabenizá-lo pelo texto. Sua escrita é muito clara e elegante. Esc…
Alexandre op Osciloscópio cas…: É por isso que eu copiei todas as páginas e mantenho elas localmente. São os três links logo abai…
pedro op Osciloscópio cas…: não consegui entrar no link…
Alexandre op Teoria de cordas …: Infelizmente não sei se existe este vídeo disponível em português.

Quarks de Ciência

Alexandre Suaide