Testes de hipóteses - o teste-z

Friday 24 August 2012 at 1:10 pm

Versão para impressão


É comum na atividade científica nos depararmos com questionamentos que envolvem a comparação de um resultado obtido através de um experimento (ou de um trabalho teórico), sujeito a incertezas e flutuações, com uma expectativa qualquer, ou com outros resultados de um outro trabalho. Por exemplo: os resultados do LHC suportam a existência do bóson de Higgs? O valor da aceleração que eu obtive é compatível com a aceleração da gravidade em São Paulo, medida pelo IAG? Estas duas molas são iguais, ou seja, têm constantes elásticas e comprimentos compatíveis uma com a outra?

Para isso, existe um tópico de estatística chamado inferência, no qual um dos problemas que é abordado neste tópico é o teste de hipótese. Há vários testes diferentes que dependem do tipo de amostra a ser comparada, suas propriedades e características. Neste texto vamos discutir um pouco o teste-z. Este tem uma aplicação bastante limitada, pois depende de condições que nem sempre (ou raramente) são obtidas em uma amostra. Contudo, por ser um teste bastante simples, sendo fácil compreender os fundamentos que estão por trás dele, é bastante utilizado em disciplinas básicas de laboratório e estatística. Antes disso vamos rever alguns conceitos de probabilidade e densidades de probabilidade.

Probabilidade e densidade de probabilidade


Pode-se definir a probabilidade [1,2] de se obter um determinado resultado como sendo a relação entre o número de vezes que este resultado é obtido em uma amostra e o tamanho desta amostra, quando esta é suficientemente grande, ou seja:

P(R) = \lim_{N\rightarrow\infty}{\frac{N(R)}{N}}

onde R é o resultado que queremos calcular a probabilidade de ocorrência. Em geral esse resultado é definido em termos de um intervalo: qual a probabilidade de encontrar um aluno ingressante na USP entre 35 e 40 anos? Por conta disso, vamos definir a probabilidade de encontrar, em uma amostra suficientemente grande, um resultado no intervalo de x e x+\Delta x como sendo [1]:

P(x,x+\Delta x) = \lim_{N\rightarrow\infty}{\frac{N(x,x+\Delta x)}{N}}

É obvio que, quanto mais amplo o intervalo, maior a probabilidade de encontrar um resultado neste intervalo. Para eliminar essa dependência, define-se a função densidade de probabilidade (F.D.P.) de tal forma que a probabilidade de encontrar um resultado em um intervalo entre x e x+\Delta x e [1]:

P(x,x+\Delta x) = \int_{x}^{x+\Delta x}{H(x')dx'}

Sendo H(x) a densidade de probabilidade de ocorrer um evento x. Podemos escrever então que a função densidade de probabilidade é:

H(x) = \lim_{\Delta x\rightarrow 0}{\frac{P(x,x+\Delta x)}{\Delta x}}

Por ter um significado de densidade, a função densidade de probabilidade é sempre positiva. Ademais, podemos escrever que, como a probabilidade de ocorrer qualquer evento é 1, a relação:

\int_{-\infty}^{+\infty}{H(x')dx'} = 1

Deve ser sempre satisfeita. Em estatística encontramos diversas funções de densidade de probabilidade, tais como a binomial, poison, gaussiana, etc. [1,2], sendo esta última bastante comum, principalmente em experimentos didáticos.

Conhecendo-se a função densidade de probabilidade de uma determinada grandeza é fácil calcular probabilidades de determinado evento ocorrer. Por exemplo, podemos pensar em responder qual é a probabilidade de se obter, em uma medida, um valor inferior à x_0. Conhecendo-se a F.D.P. basta resolver:

P(x<x_0) = \int_{-\infty}^{x_0}{H(x')dx'}

Ou, por exemplo, qual é a probabilidade de um determinado valor ser superior à x_0? Da mesma forma, escrevemos:

P(x>x_0) =\int_{x_0}^{+\infty}{H(x')dx'} = 1-\int_{-\infty}^{x_0}{H(x')dx'}

Da mesma forma, podemos nos perguntar qual é a probabilidade de encontrar x_0<x<x_1. Em termos de densidade de probabilidade a resposta é:

P(x_0<x<x_1) =\int_{x_0}^{x_1}{H(x')dx'}

Vamos tomar como exemplo uma função densidade de probabilidade gaussiana de média zero e desvio padrão 1. Nas figuras 1 a 3 são mostrados alguns exemplos da relação entre a integral da F.D.P. e a probabilidade de obter um evento em determinada região.


Figura 1 - A área pintada corresponde à probabilidade de se obter um evento com x>-1.


Figura 2 - A área pintada corresponde à probabilidade de se obter um evento com x<0.75.



Figura 3 - A área pintada corresponde à probabilidade de se obter um evento com -1.5<x<1.5.

Teste de hipótese e o teste-z

Fazer um teste de hipótese [3-5] corresponde, em linhas gerais, à calcular a probabilidade de a sua amostra satisfazer uma determinada hipótese e, com base nesta probabilidade determinar a validade da hipótese efetuada. Um importante conceito envolvido em testes de hipótese é o nível de significância do seu resultado.

Nível de significância

O nível de significância [4] (\alpha) corresponde a um limite de probabilidade para se rejeitar uma hipótese. É comum utilizar níveis de 10% (0.1), 5% (0.05) e 1% (0.01). Um teste de hipótese vai retornar a probabilidade de o resultado obtido da sua amostra ser compatível com a hipótese testada. Se esta probabilidade for inferior ao nível de significância estipulado, em linhas gerais, a hipótese é rejeitada. Por exemplo, um teste de hipótese que retorna um nível de significância de 0.01 indica que há uma chance em 100 de que a hipótese testada seja verdadeira.

Um cuidado importante: em muitas áreas da ciência, incluindo a física, é comum mostrar os níveis de significância em valores de 1-\alpha. Neste caso, um resultado com 99% de significância em relação a uma hipótese significa que há uma probabilidade de 1% de rejeição da hipótese. Por conta disso, é importante ter claro como que é definido o valor do nível de significância (\alpha ou 1-\alpha). Mais importante ainda é saber interpretar o que está sendo apresentado.

Em física, em particular em física nuclear e de partículas, é comum apresentar valores de significância em número de sigmas (\sigma). Por exemplo, esse resultado tem 5\sigma de significância. Essa significância, em números de sigma, é obtida pressupondo que a função densidade de probabilidade da grandeza estudada é uma gaussiana de desvio padrão \sigma. Por exemplo, em uma gaussinana, a probabilidade de encontrarmos um valor entre \mu-\sigma < x<\mu+\sigma, sendo \mu o valor médio da gaussiana, é de aproximadamente 68% (ver figura 4). Neste caso, quando falamos que o resultado tem 1\sigma de significância, temos implícito que \alpha=0.32. Um resultado de 3\sigma de significância indica que \alpha = 0.0027.


Figura 4 - Níveis de significância em uma gaussiana.

Para converter de número de \sigma para \alpha, e vice-versa, define-se a função de probabilidade acumulada de uma gaussiana como sendo:

P(x < x_0) = \int_{-\infty}^{x_0}{\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}x'^2}dx'}

Ou seja, a probabilidade de se obter um valor menor que x_0 para uma F.D.P. gaussiana de média zero e desvio padrão 1. Neste caso, x_0 equivale ao número de \sigma, ou seja, P(x < -2.5) é a probabilidade de (x-\mu) < 2.5\sigma em uma gaussiana qualquer. O gráfico da função de probabilidade acumulada para uma gaussiana é mostrado na figura 5 e é uma função universal. Encontra-se facilmente páginas na internet com calculadoras para esta função, por ser muito utilizada.


Figura 5 - Probabilidade acumulada para uma função gaussiana.

Na tabela 1 mostramos alguns valores de probabilidade acumulada para referência, por serem, em geral, os mais utilizados.

Tabela 1 - Probabilidade acumulada de uma gaussiana.

x_0 (\sigma)
P(x<x_0)
-4
0.000032
-3
0.00135
-2
0.02275
-1
0.1586
0
0.5000
1
0.8413
2
0.9772
3
0.9986
4
0.9999


Por exemplo, para grandes descobertas científicas, como a do bóson de Higgs, utiliza-se 5\sigma como nível de significância. Este nível de significância indica que há uma chance em 1,744,278 de que a observação nos dados analisados no LHC seja apenas uma flutuação estatística do fundo e que não exista nenhum novo bóson. Em física de partículas é comum adotar uma significância de 3\sigma como uma interpretação para uma observação de um fenômeno e 5\sigma como o nível necessário para fazer um anúncio de uma descoberta. Se você rever os anúncios do bóson de Higgs no LHC perceberá que em 2010 eles fizeram uma observação e que, em 2012, anunciaram uma descoberta. Justamente por conta do nível de significância.

No dia a dia é comum utilizar 3\sigma, que equivale a um valor de \alpha \sim 0.0027, ou seja, há uma chance em quase 400 da hipótese testada ser falsa.

A escolha do nível de significância é importante porque estabelece o nível de rigor no teste de hipótese. Mais importante ainda é sempre relatar qual foi o nível de significância obtido na sua análise.

Mais a frente mostraremos alguns exemplos de como utilizar esta função na prática.

Teste de uma cauda ou duas caudas

Em um teste de hipótese estabelece-se um nível de significância \alpha que é um valor de probabilidade de a sua hipótese ser falsa. Se a F.D.P. da sua grandeza é simétrica em relação ao valor verdadeiro há três hipóteses estatísticas que dão o mesmo valor de \alpha. Duas delas correspondem a testes de uma cauda [6], quando olhamos essencialmente a probabilidade de o resultado assumir um valor maior (ou menor) que um certo valor e uma dessas hipóteses corresponde a um teste de duas caudas [6] ou seja, a probabilidade de o resultado estar em um intervalo simétrico em torno do valor verdadeiro. A escolha de qual teste é feito depende da hipótese a ser testada.

No teste de uma cauda, o nível de significância é referente à probabilidade de o resultado ser maior (ou menor) que um determinado valor. Em um teste de uma cauda, \alpha corresponde à área da curva em um dos lados apenas da distribuição, como mostrado nas figuras 1 ou 2. Por exemplo, um teste de significância de uma cauda com nível de significância de 0.05 para a cauda da direita significa que há uma probabilidade de 0.05 de o seu resultado ser maior que um determinado valor.

Em um teste de duas caudas, o nível de significância é referente à probabilidade de o resultado estar distante do valor verdadeiro nas duas direções, simetricamente, como mostra a figura 3. Por exemplo, um teste de duas caudas com significância de 0.05 indica que há uma probabilidade de 0.025 de o seu resultado estar distante da média em uma direção e 0.025 dele estar distante da média na outra direção.

A escolha se o teste a ser feito é de uma cauda ou duas depende da hipótese a ser testada.

A escolha da hipótese

Antes de se fazer um teste de significância, deve-se estabelecer as hipóteses que serão testadas. Em geral escolhe-se duas hipóteses, a principal (ou hipótese nula, no jargão, H_0) e uma hipótese contrária à principal (ou hipótese altenativa, H_1). Em geral, a hipótese H_1 ajuda a definir se o teste é de uma cauda ou duas. Alguns exemplos:

A aceleração obtida é compatível com a da gravidade medida pelo IAG? Neste caso a hipótese principal é H_0\rightarrow \mu = 9.7869\text{ m/s}^2 e a hipótese alternativa é H_1\rightarrow \mu \neq 9.7869\text{ m/s}^2.

O valor obtido pelo meu grupo (1) é o mesmo que o obtido pelo outro grupo (2)? Neste caso, a hipótese principal é H_0\rightarrow \mu_1 = \mu_2 e a hipótese alternativa é H_1\rightarrow \mu_1 \neq \mu_2.


Uma vez escolhida a hipótese a ser testada, devemos escolher o teste de hipótese que será realizado. Há vários testes disponíveis e a escolha de qual teste é o mais adequado depende do tipo de amostra que temos e do nosso conhecimento da F.D.P. desta amostra.

O teste-z

O teste-z é um teste de hipótese para um valor médio de uma amostra de tamanho N que tenha uma F.D.P. gaussiana e quando se conhece o desvio padrão verdadeiro da F.D.P. da grandeza amostrada \tilde{\sigma}. Na pratica, quase nunca se conhece o valor verdadeiro do desvio padrão da F.D.P de uma grandeza. Ele é geralmente estimado a partir da própria amostra utilizando a expressão:

\sigma = \sqrt{\frac{1}{N-1}\sum_{i=1}^{N}{(x-\bar{x})^2}}

Então, à rigor, o teste-z nunca pode ser utilizado. Neste caso, deve-se utilizar o teste-t de Student [7], que veremos em momento oportuno. Contudo, na medida em que número de dados da amostra aumenta, o teste-t converge para o teste-z. Tipicamente uma amostra com tamanho maior que N \sim 30 é grande o suficiente para utilizar o teste-z. Em laboratórios didáticos este número acaba sendo ainda mais relaxado para N\sim 10 como um compromisso de se ganhar em didática com uma pequena perda de precisão estatística.

O teste-z consiste em calcular uma variável Z que tenha uma F.D.P. gaussiana de média 0 e desvio padrão 1. Esta variável Z é equivalente ao nível de significância em termos de número de \sigma para uma gaussiana.

A importância de se conhecer o desvio padrão verdadeiro da amostra surge quando se calcula o valor Z. No cálculo de Z, em geral, subtrai-se a hipótese do valor a ser testado e divide-se pelo desvio padrão do mesmo. Se for conhecido o valor verdadeiro desse desvio padrão, a F.D.P. da variável Z é uma gaussiana de média 0 e desvio padrão 1. Se o desvio padrão for estimado a partir da amostra de dados, a F.D.P. da variável Z não é mais gaussiana e sim uma F.D.P. de Student (a menos do limite de uma amostra grande, como discutido anteriormente).

A melhor forma de explicar o teste-z é através de exemplos. Vamos fazer alguns, passo a passo.

Exemplo 1 - Comparando um resultado a uma expectativa

Foi realizado um experimento onde mediu-se a aceleração de um corpo em queda livre. Foram realizadas 30 medidas de aceleração e a análise estatística mostrou que o valor médio dessa amostra é 9.746 m/s2 com desvio padrão de 0.12 m/s2. A incerteza do valor médio, por conta disso é \sigma_m = \sigma/\sqrt{N}=0.022. Este valor é compatível com o valor tabelado do IAG para a aceleração da gravidade, que vale 9.7864 m/s2?

O primeiro passo é identificar a hipótese nula H_0 a ser testada. Esta hipótese é simplesmente H_0\rightarrow \mu = 9.7864. Queremos testar esta hipótese contra o valor médio da aceleração obtida das 30 medidas. A hipótese alternativa, H_1\rightarrow \mu \neq 9.7864, sugere o uso de um teste de duas caudas.

O segundo passo é definir o nível de significância para rejeitar esta hipótese. Isso depende de quão rigoroso você quer ser na rejeição da sua hipótese. Vamos adotar 3\sigma de significância.

A F.D.P. do valor médio da aceleração medida é assumida como sendo uma gaussiana de média \bar{a}=9.726\text{ m/s}^2 e desvio padrão \sigma_m = \sigma/\sqrt{N} = 0.022\text{ m/s}^2. A variável Z, que tenha F.D.P. com média zero e desvio padrão 1 é, neste caso:

Z = \frac{\bar{a}-\mu}{\sigma_m} = -1.84

De acordo com o nível de significância de 3\sigma não podemos rejeitar a hipótese de que o nosso valor médio é compatível com a aceleração da gravidade pois |Z|<3. Para este valor de |Z| =1.84 há uma chance em aproximadamente 150 desta diferença ser uma flutuação estatística, para qualquer um dos lados. A conclusão deste teste é que não há evidências suficientes que sugiram que a aceleração medida no laboratório seja diferente da aceleração da gravidade medida no IAG em uma significância de 3\sigma.

Exemplo 2 - Comparando dois resultados experimentais

Neste exemplo vamos fazer a comparação entre dois resultados experimentais. Note que o teste-z só é válido se conhecermos o desvio padrão das F.D.P. de ambas medidas, caso contrário devemos utilizar o teste-t. A menos que os desvios padrão sejam estimados de amostras muito grandes de dados.

No nosso exemplo, um grupo mediu a aceleração de queda de um número razoavelmente grande de dados e obteve a_1 = 9.736 \pm 0.018\text{ m/s}^2. Outro grupo, com outra amostra igualmente grande, obteve a_2 = 9.845 \pm 0.011\text{ m/s}^2. Os dois valores são compatíveis em um nível de significância de 3\sigma?

Neste caso, a hipótese nula é H_0\rightarrow \mu_1=\mu_2 ou, reescrevendo, H_0\rightarrow \mu_1-\mu_2 = 0. Novamente, a hipótese alternativa, H_1\rightarrow \mu_1 \neq \mu_2, sugere um teste de duas caudas. Se a hipótese nula for válida, a F.D.P. da diferença entre as duas medidas deve ser uma gaussiana de média 0 e desvio padrão \sigma=\sqrt{\sigma_1^2+\sigma_2^2} = 0.021 (simples propagação de incertezas). Neste caso, a variável Z que tem F.D.P. com média 0 e desvio padrão 1 é calculada através de:

Z = \frac{(a_1-a_2)-(\mu_1-\mu_2)}{\sqrt{\sigma_1^2+\sigma_2^2}} = -5.19

Note que o módulo de Z é maior que 3, que foi o nível de significância requerido para rejeitar a hipótese nula. Neste caso, podemos dizer que a hipótese de que as acelerações são iguais foi rejeitada com um nível de significância maior do que 5\sigma. Ou seja, a probabilidade desta diferença ser devido à flutuações estatísticas é menor do que uma em 1.8 milhão.

Referências

  1. Tratamento estatístico de dados em física experimental, O. Helene, V. Vanin, Ed. Edgard Blucher ltda.
  2. Fundamentos da Teoria de erros, J. H. Vuolo, Ed. Edgard Blucher ltda.
  3. http://en.wikipedia.org/wiki/Statistical_hypothesis_testing
  4. http://en.wikipedia.org/wiki/Statistical_significance
  5. http://www.stat.yale.edu/Courses/1997-98/101/sigtest.htm
  6. http://en.wikipedia.org/wiki/One-_and_two-tailed_tests
  7. http://en.wikipedia.org/wiki/Student%27s_t-test