Qual teste estatístico devo usar?

Como comentei em outro texto, a Estatística, uma ciência independente, é usada como ferramenta por ecólogos e vários outros cientistas. Não é necessário fazer uma graduação na área para rodar um qui-quadrado. Porém, é fundamental estudar direito os fundamentos dessa ciência e a lógica dos testes mais comuns, para ser um bom usuário.

Para você, que precisa aplicar a Estatística na sua pesquisa científica, escrevi este passo-a-passo e adaptei um road map com os testes mais populares. Este material visa ajudar você a escolher o melhor teste para o seu caso. O texto está estruturado na forma de perguntas que você deve responder a si mesmo a cada passo do planejamento das suas análises.

Aqui trato apenas dos casos mais comuns em Ecologia, usando uma abordagem clássica baseada em Zar (2009), mas mesclada com uma visão integrada filosófica a la Magnusson et al. (2015) e uma pitada de GLM a la Dobson & Barnett (2008) e GLMM à moda de Zuur et al. (2009).

Evitei aqui algumas abordagens heterodoxas ou desnecessariamente complicadas (statistical machismo) que atualmente estão na moda na Ecologia. Por exemplo, seleção de modelos feita às cegas. Minha opinião é que testes simples atendem a esmagadora maioria dos estudos em Ecologia. O que faz um estudo ser interessante são o problema e a pergunta, não as análises.

Antes de prosseguir na leitura, lembre-se:

To consult the statistician after an experiment is finished is often merely to ask him to conduct a post mortem examination. He can perhaps say what the experiment died of.”

Sir Ronald Fisher

É bom lembrar que este guia não substitui um bom curso de Estatística aplicada à Biologia, seja presencial ou online, e nem a leitura de livros especializados. Este guia serve apenas para dar uma introdução aos novatos ou como material de apoio para quem já tem uma noção.

Observe também esta máxima:

“Você só aprende de verdade um teste, depois que ele se torna necessário em um estudo que você está fazendo e depois de estudar a lógica matemática por trás dele.”

Sabedoria acadêmica milenar

É fundamental também pedir conselhos a estatísticos profissionais. Faça isso de tempos em tempos para os testes mais corriqueiros e sempre que for fazer um teste novo.

Bom, passemos agora às perguntas que você deve responder a si mesmo, antes de rodar um teste estatístico.

1. Qual é a sua pergunta?

Esse é o primeiro e mais importante passo em qualquer pesquisa científica. A motivação para um projeto de pesquisa vem do problema de interesse, que é o quebra-cabeças que você quer ajudar a montar.

E o cerne de um projeto é a pergunta. Fazemos pesquisas para matarmos a nossa curiosidade sobre como funciona a natureza, para resolvermos um problema prático ou para gerarmos tecnologia.

Não é possível atingir esses objetivos, se você não planejar muito bem aonde quer chegar. Não comece sem direção, apenas para ver no que vai dar. Em 99,73% dos casos, isso leva à desistência no meio do caminho ou a resultados completamente irrelevantes.

Considere também, com base na sua pergunta, a possibilidade de usar a Estatística apenas para descrever os seus resultados, e não para testar hipóteses que você fingiu ter criado a priori.

Para exemplificar, vamos trabalhar com a seguinte pergunta:

  • Dentre morcegos nectarívoros de uma mesma espécie, o tamanho do indivíduo influencia sua eficiência como polinizador?

2. O que você espera observar?

Não basta bolar uma pergunta original e relevante. Com base no que já se sabe sobre o fenômeno, organismo ou ambiente de interesse, faça um exercício dedutivo e imagine qual deve ser a resposta à pergunta feita.

Ou seja, a partir da pergunta de trabalho, crie uma hipótese. Quanto mais complexa a pergunta, mais respostas alternativas ela pode ter. Na verdade, as perguntas mais interessantes levam a uma estrutura de inferência forte, com múltiplas hipóteses concorrentes.

Para criar uma hipótese original e interessante, você precisa estudar a fundo a literatura relacionada, além de ter experiência com as entidades envolvidas no projeto. Estudando o que já se sabe sobre o assunto de interesse é possível saber onde estão as fronteiras do conhecimento e decidir em que direção você quer expandí-las.

Tomando como base a pergunta formulada anteriormente, uma possível hipótese seria:

  • Em morcegos da espécie A, quanto maior o indivíduo, maior sua eficiência como polinizador.

Note que essa é apenas uma das hipóteses possíveis para a pergunta de trabalho, que é mais ampla do que parece. Os principais tipos de raciocínio usados para elaborar hipóteses são a dedução, a abdução e a indução.

Poderíamos imaginar que a justificativa para essa hipótese específica seria baseada nas seguintes informações:

  1. Morcegos maiores precisam beber mais néctar para suprirem suas necessidades energéticas diárias;
  2. Visitantes florais que precisam beber um volume grande de néctar tendem a visitar um número maior de flores por noite;
  3. Em muitas espécies de plantas, quanto mais flores e plantas individuais forem visitas pelo mesmo animal na mesma noite, maiores as chances de ocorrer fecundação;
  4. Conclusão: morcegos maiores têm maior probabilidade de fecundar flores.

Note que essa hipótese foi construída usando raciocínio abdutivo. Ou seja, a conclusão não é necessariamente verdadeira com base nas premissas 1, 2 e 3, como seria em um argumento dedutivo. Contudo, essa conclusão é bastante provável.

Tenha sempre em mente que o significado e a relevância dos dados coletados em um projeto de pesquisa são dados pela hipótese e sua justificativa. Os resultados do teste estatístico, estejam eles de acordo ou não com o que você esperava, só fazem sentido à luz desse contexto biológico.

3. Como exatamente você vai medir o fenômeno?

Depois de criada a hipótese, pense o seguinte: se essa hipótese for mesmo uma boa resposta para a minha pergunta de trabalho, o que eu espero observar de concreto no campo, no laboratório ou no computador?

Essa expectativa se chama previsão e o processo de criá-la é conhecido como operacionalização (leia um outro artigo sobre isso). Essa é a base do método hipotético-dedutivo, o mais usado na ciência contemporânea.

A operacionalização é um passo crucial, pois nenhuma hipótese pode ser testada diretamente, já que hipóteses são feitas de conceitos abstratos (variáveis teóricas). O que é testado de fato são as previsões derivadas da hipótese, estas, sim, concretas e palpáveis (feitas de variáveis operacionais).

Quando a maioria das previsões derivadas de uma hipótese é confirmada, ela passa a ser aceita como uma tese. Caso contrário, a hipótese é abandonada ou reformulada. Se você não operacionalizar direito a sua hipótese, será impossível saber qual teste estatístico precisará usar. Na verdade, será impossível até medir as variáveis operacionais.

Vamos pegar a hipótese proposta e dela derivar uma previsão testável. Em outras palavras, vamos imaginar uma conseqüência dessa hipótese e definir que medidas precisamos tomar.

Contudo, antes de prosseguirmos, note que, para ser eficiente, um polinizador precisa primeiro ser legítimo. Ou seja, ele precisa ter um comportamento de visitação às flores com potencial concreto de resultar em fecundação. Esta é uma premissa, ou seja, algo que tem que ser verdade, para a sua hipótese fazer sentido. O conjunto de premissas de uma hipótese acaba definindo suas condições de contorno, ou seja, seu domínio de validade.

Uma possível previsão da hipótese levantada poderia ser:

  • Se, dentro de uma mesma espécie, morcegos maiores são de fato polinizadores mais eficientes, então eu espero observar que, quanto maior a massa corporal do indivíduo (em g), maior deve ser o número de flores que ele visita de maneira legítima em uma mesma noite.

Geralmente, o que se chama de hipótese em Estatística, na verdade, é uma representação matemática de uma previsão biológica (leia Farji-Brener 2003 e 2004). Cuidado com as diferenças de terminologia e seu sentido lógico. A hipótese biológica você apresenta logo na introdução, já a hipótese estatística (previsão) você explica nos métodos.

4. Como as minhas ideias se encaixam umas nas outras?

Neste ponto, faça um mapa mental do seu projeto, incluindo o seu problema de interesse, pergunta de trabalho, hipótese, premissas e previsão. Essa é uma técnica excelente para desenvolver o seu brainstorming e tranformá-lo em um plano de pesquisa concreto.

5. Que tipos de variáveis estão envolvidos?

Agora que você já tem uma previsão testável, examine a estrutura lógica dela com cuidado. A primeira coisa a checar é a natureza das variáveis escolhidas. Há diferentes classificações na Estatística.

Na maioria dos casos, primeiro você deve checar se a sua variável é qualitativa ou quantitativa.

As variáveis qualitativas não são mensuráveis. Elas se dividem em nominais, quando não há um ranking de valores (e.g., macho ou fêmea, cor dos olhos), e ordinais, quando há uma ordem entre os estados da variável (e.g., doença em estado inicial, intermediário ou terminal).

As variáveis quantitativas podem ser medidas e se dividem em discretas e contínuas. As variáveis discretas são resultado de contagens e só têm valores inteiros; e.g., número de filhotes, anos de idade, tamanho populacional. Por sua vez, as variáveis contínuas geralmente resultam de medidas com instrumentos ou índices, e assumem valores na escala real, onde frações fazem sentido; e.g., altura, massa corporal, carga alar.

Também se chama de não-paramétricas as variáveis nominais, ordinais e discretas, e de paramétricas as variáveis contínuas.

  • No nosso caso hipotético, temos então duas variáveis, sendo ambas quantitativas, porém uma discreta (número de visitas) e a outra contínua (massa).

6. Qual é a relação entre as variáveis?

Agora você precisa pensar sobre qual variável é a causa (independente ou fator) e qual é o efeito (dependente ou resposta).

  • Pegando o nosso exemplo, podemos imaginar que a massa corporal é a variável independente (X) e que o número de flores visitadas legitimamente em uma noite é a variável dependente (Y).

Isso porque só tem sentido supor que a massa causa o número de visitas legítimas e não o contrário.

A maioria dos testes estatísticos supõe implicitamente uma relação de causa e efeito. Mesmo os testes em que a variável independente é qualitativa (nominal ou ordinal), como o teste t e a ANOVA. A exceção são testes como a correlação, sem premissa de causalidade.

Aqui neste exemplo, há apenas uma variável dependente, a eficiência do morcego. Quando a sua hipótese e a sua previsão envolvem mais de uma variável dependente, você está no terreno perigoso das análises multivariadas, um tema mais complexo que eu não abordo neste artigo.

Este é o momento para fazer um mapa mental das relações entre as suas variáveis.

7. No final das contas, qual teste se adequa melhor ao exemplo?

Agora que você já tem uma pergunta, uma hipótese e uma previsão, sabe que tipo de variáveis tem em mãos e sabe como elas se relacionam entre si, então pode escolher com segurança o melhor teste estatístico para a sua previsão.

  • Continuando com o nosso exemplo, dentre todos os testes adequados, o mais simples e bem sintonizado, neste caso, seria uma regressão linear simples, tomando a massa corporal como X e o número de visitas legítimas de cada morcego individual como Y.

Através de um teste de regressão, saberíamos não apenas se a relação entre essas variáveis existe de fato ou não (significância ou P), como também se ela é positiva (maior massa, mais visitas) ou negativa (maior massa, menos visitas), e quão forte ela é (r²).

As assim chamadas “hipóteses estatísticas” seriam: hipótese nula – não há relação entre X e Y; hipótese alternativa 1 – há relação positiva entre X e Y; hipótese alternativa 2 – há uma relação negativa entre X e Y.

É bom ressaltar que, neste exemplo didático, considerando a forma como a nossa previsão biológica foi formulada, apenas a hipótese alternativa 1 confirma nossas expectativas. Relembrando, uma hipótese estatística, no fundo, é uma previsão científica, do ponto de vista epistemológico.

Antes de rodar uma regressão linear simples, é preciso também testar a normalidade da distribuição de erros. Em alguns tipos de teste estatístico, caso a distribuição dos dados, erros ou diferenças não seja normal, é preciso fazer algum tipo de transformação ou então usar uma versão não-paramétrica.

Note que, via de regra, testes não-paramétricos têm poder estatístico menor do que testes paramétricos, então sempre que possível prefira os segundos aos primeiros.

Uma outra alternativa, quando a distribuição de erros não é normal, é usar um modelo linear generalizado (GLM), usando no modelo uma distribuição mais adequada aos seus dados, sem transformá-los.

Defina também o nível de significância do teste (α). Na Ecologia, costuma-se usar 5%, mas isso varia muito entre áreas. Na verdade, o valor de P não é a “moral da história” de um teste e nunca pode ser usado sozinho para tecer interpretações. Decisões binárias do tipo “significativo vs. não-significativo” aos poucos vão caindo em desuso.

Veja se o teste escolhido tem mais algum outro pressuposto além da normalidade dos erros (e.g., homocedasticidade) e cheque tudo mais que for necessário.

Rode o teste e não se esqueça de prestar atenção também ao tamanho do efeito e ao poder estatístico, além dos graus de liberdade e tamanho amostral.

8. E, no meu caso, qual caminho devo seguir?

Considere tudo o que foi dito até este ponto. Depois, para facilitar a sua escolha, use este road map adaptado por mim a partir de um mapa usado no curso de Estatística para Biólogos ministrado pela Dra. Jutta Schmid na Universidade de Ulm, Alemanha.

Este mapa não cobre todas as possibilidades existentes, que são várias, mas abrange a esmagadora maioria dos testes rotineiramente usados por ecólogos.

Vale lembrar também que este mapa segue uma abordagem mais clássica, como a de Zar (2009), além de um pouco de abordagens mais complexas. Recomendo fortemente a leitura de Magnusson et al. (2015) para fortalecer a sua base conceitual.

9. Resumo dos passos necessários para fazer um teste estatístico

  1. Defina um problema de interesse. Esse é o quebra-cabeças que você quer ajudar a montar;
  2. Elabore um mapa mental do seu projeto, contendo problema, pergunta, hipóteses, premissas e previsões;
  3. Identifique a natureza das variáveis envolvidas em cada previsão: elas são qualitativas ou quantitativas? Nominais ou ordinais? Discretas ou contínuas?
  4. Pense sobre a relação entre as variáveis: há causalidade ou não? Use um mapa mental de análise de dados para clarear suas ideias;
  5. Defina a sua previsão matemática (hipótese estatística) de forma mais precisa e escolha o teste mais adequado para testar essa previsão;
  6. Planeje quantas amostras serão necessárias para ter um bom poder estatístico;
  7. Colete os dados no campo, laboratório, biblioteca ou computador;
  8. Plote gráficos para examinar visualmente a relação entre as variáveis e ganhar um feeling sobre seus resultados. Sempre plote um ou mais gráficos, antes de rodar qualquer teste, pois estatísticas descritivas podem ser enganosas!
  9. Cheque todos os pressupostos do teste escolhido (e.g., normalidade dos erros, homocedasticidade etc.);
  10. Se necessário, aplique alguma transformação aos dados, troque para um teste não-paramétrico ou use um GLM, dependendo da escola que preferir;
  11. Defina o nível de significância do teste e rode-o;
  12. Ao conferir os resultados, preste atenção principalmente ao tamanho do efeito e ao poder estatístico, além dos graus de liberdade e tamanho amostral;
  13. Elabore uma interpretação biológica baseada principalmente no tamanho do efeito.

10. Pressupostos dos testes

No fundo, o pressuposto mais importante de qualquer teste estatístico é a qualidade da coleta dos dados: as observações têm que ter sido feitas dentro do maior rigor possível, bem afinadas com a orientação dada pela previsão biológica, com a precisão necessária a cada caso, e de forma que as unidades amostrais sejam independentes entre si.

Vale lembrar que a normalidade dos dados brutos ou dos erros não é um pressuposto tão fundamental assim em todos os testes estatísticos. Portanto, muitas vezes, pode-se aplicar um teste paramétrico mesmo em casos de não-normalidade, sem grandes diferenças no resultado, especialmente quando o efeito é forte.

Na grande família dos modelos lineares, que incluem o teste t e a ANOVA, testes mais complexos, como os modelos lineares generalizados simples ou mistos (GLM e GLMM), permitem ainda escolher outros tipos de distribuição além da normal para estimar a significância da estatística.

Há também diferentes transformações que tornam normal a distribuição de erros dos dados.

Também é possível calcular alguns testes por reamostragem, contornando esse problema da distribuição dos dados.

11. Sinta o “jeitão” dos dados

Não confie cegamente nos resultados numéricos dos testes! Dados diferentes às vezes geram as mesmas estatísticas descritivas. Além disso, pode ter havido algum erro de cálculo por culpa sua ou do pacote estatístico. Muitas vezes, há diferenças de cálculo para um mesmo teste entre pacotes e programas estatísticos. Portanto, cuidado.

Primeiro, faça histogramas para examinar a distribuição dos dados e dos erros. Segundo, faça gráficos para inspecionar as relações entre as variáveis de interesse (gráficos de colunas, diagramas de dispersão, box-plots etc.). Só depois de ter um feeling melhor sobre os seus dados, rode as análises numéricas.

Outro erro muito comum é insistir em testar modelos lineares, quando na verdade a relação entre as variáveis é claramente não-linear. Também por isso a análise visual preliminar é fundamental.

Pode ser ainda que haja mais de uma relação (curva) embutida na sua nuvem de dados, o que cria a necessidade de usar modelos aditivos (GAM).

12. Conselhos finais

  1. Sendo você um biólogo, não dê ênfase demais às análises estatísticas no seu projeto ou artigo. Fale sobre os fenômenos biológicos estudados, usando os números como apoio;
  2. Não confunda hipótese biológica com hipótese estatística. Lembre-se de que os seus dados só farão sentido, se você elaborar uma hipótese interessante para lhes dar contexto, independente do resultado do teste estatístico;
  3. Escolha as análises estatísticas antes de iniciar o projeto e não depois de ter coletado os dados. A estatística faz parte do planejamento e envolve questões fundamentais, como o modelo a ser usado e o número de amostras que serão necessárias para testar as previsões feitas.

13. Mensagem de auto-ajuda

research whalberg 11

14. Sugestões de leitura

  1. Como pedir ajuda em estatística – alguns conselhos
  2. Is statistical software harmful?
  3. Softwares estatísticos livres para ecologia
  4. How do you learn new skills in R?
  5. De quantos dados eu preciso na minha tese?
  6. On the Appropriate Use of Statistics in Ecology: an interview with Ben Bolker
  7. In praise of exploratory statistics
  8. What’s a “small” effect, anyway, and when are they worth caring about?
  9. ¿Son hipótesis las hipótesis estadísticas?
  10. Uso correcto, parcial e incorrecto de los términos “hipótesis” y “predicciones” en ecología
  11. Ecologists need to do a better job of prediction – part I – the insidious evils of ANOVA

(Fonte da imagem destacada: Matrix, 1999 – Wachowski)

Aviso:

Eu sou biólogo, não estatístico. Portanto, posso estar errado em um ou mais pontos abordados neste texto. Minha intenção é apenas ajudar colegas menos experientes a darem seus primeiros passos no tema. Nada substitui ler livros especializados e fazer cursos com profissionais da área.

69 respostas para “Qual teste estatístico devo usar?”

  1. A figura “Qual teste estatístico devo usar?” é tão útil quanto uma receita de um chefe 3 estrelas Michelin.

    Curtir

  2. Excelente material Marco, tenho estudado estatística a um bom tempo, faço muitas coisas no R.
    Sou da informática, por isso para mim é fácil usar o R.
    Ajudo pesquisadores na área da pesquisa clínica, andei olhando livros com base nas suas sugestões e pensei em comprar esses:
    – Estatística Sem Matemática para Ciências da Saúde
    – Bioestatística Para os Cursos de Graduação da área da Saúde
    – Epidemiologia E Bioestatística: Fundamentos Para A Leitura Crítica
    – Introdução à Ciência de Dados: Mineração de dados e big data
    O que o senhor dir desses livros e se puder sugerir mais algum, eu gosto de livros com exemplos práticos preferencialmente usando o R

    Curtir

  3. Olá, Marco. Conteúdo maravilhoso. Gostaria de pedir uma pequena ajuda. Por mais que eu leia mais de uma referência, não consigo entender de jeito nenhum significância e estatísticas de teste. Estou para surtar. Poderia me indicar algum conteúdo/site/link/livro?

    Curtir

    1. Oi Paulo, você se refere a um teste específico ou a esses conceitos em geral? Bom, para dar os primeiros passos em Estatística, leia:
      1. Magnusson, William E, and Gulherme Mourão. 2003. Estatística Sem Matemática: A Ligação Entre as Questões e a Análise. 1st ed. Londrina: Planta.
      2. Zar, J H. 2009. Biostatistical Analysis. 5th ed. Upper Saddle River: Prentice-Hall.

      Curtir

    2. Posso me intrometer? 🙂
      Significância estatística é um conceito meio complicadinho e cabeludo mesmo, rs. Mas a ideia geral é a seguinte:
      Digamos que você quer saber se unicórnios macho são mais pesados do que unicórnios fêmeas. (Se quiser, substitua os unicórnios por qualquer espécie de seu interesse, rs). Mas isso é algo muito vago – vai ter alguns unicórnios machos mais pesados do que algumas fêmeas, e vice-versa, e não é isso que queremos saber.
      O que podemos querer saber é se, em média, unicórnios machos são mais pesados. Ou seja, se o peso médio dos unicórnios machos é maior do que o das fêmeas.
      Como saber isso? Simples! Tudo que precisamos fazer é pesar todos os unicórnios machos, pesar todas as unicórnios fêmeas (unicórnias? o.O), e comparar as médias.
      Só que no caso de animais que de fato existem*, via de regra nós não conseguimos fazer isso. Afinal, como medir todos os ratos que vivem em uma cidade? Não dá. Precisamos fazer uma amostragem.
      Então, se, por exemplo, temos uma população total de 2000 unicórnios macho e 1500 fêmeas, podemos, talvez, amostrar 100 machos e 100 fêmeas, e calcular o peso médio desses indivíduos. Podemos, então, calcular a diferença entre as médias:
      Diferença = Média_machos – Média_fêmeas.
      A diferença seria então a nossa estatística de teste – ela que vai nos dar a resposta se unicórnios macho são mais pesados que unicórnias fêmeas.
      O problema é que nós fizemos uma amostragem, ou seja, não temos a população completa. E como fizemos uma amostragem aleatória, é possível encontrarmos uma diferença entre machos e fêmeas pelo acaso, sem que isso represente uma diferença real.
      Por exemplo, vamos supôr que machos e fêmes de unicórnio têm o mesmo peso, em média. Mas pode acontecer que, pelo acaso, medimos unicórnios machos mais pesados e unicórnias fêmeas mais leves. Isso sempre é possível. A questão é, qual a probabilidade disso acontecer?
      Então, digamos que encontramos que o peso médio de machos é 55 kg e de fêmeas é de 50 kg. Então:
      Diferença = Média_machos – Média_fêmeas = 55 – 50 = 5 kg.
      A pergunta é, essa diferença de 5 kg poderia ser observada se não houver diferença real? Ou seja, se unicórnios machos e unicórnias fêmeas tiverem o mesmo peso médio, o simples fato de termos selecionado indivíduos aleatoriamente pode fazer com que observemos uma diferença de 5 kg?
      A resposta é: Sim, poderia!
      E a pergunta seguinte é: Qual a probabilidade disso acontecer? Qual a probabilidade da hipótese nula resultar em algo parecido (ou mais extremo) com o que foi observado no nosso estudo?
      Essa probabilidade, de que a diferença que nós observamos (ou uma diferença maior) surja pelo acaso quando a hipótese nula for verdadeira (ou seja, quando não houver diferenças reais), é a significância.
      Significância é basicamente a probabilidade de que dados como os nossos sejam observados SE a hipótese nula for verdadeira. Valores baixos de significância (sei lá, p=0.001) indicam que a hipótese nula dificilmente iria gerar um resultado como o nosso, então provavelmente ela é falsa. Valores altos de significância (tipo p=0.42) indicam que um resultado como o nosso é compatível com a hipótese nula, então não temos bons motivos para rejeitar ela.
      Em linhas gerais é isso. Qualquer teste de significância segue este princípio; o que muda é como a estatística de teste é calculada e como a significância é calculada a partir dela. 🙂
      * Nunca vi provas da inexistência de unicórnios! rs

      Curtir

          1. Pegando o seu exemplo com bichos chifrudos, eu costumo colocar suínos na explicação dos tipos de erros estatísticos. Erro do tipo I é achar chifre num porco. Erro do tipo II é não achar chifre num unicórnio. Quanto maior a significância do teste, menor a probabilidade de erro do tipo I. Quanto maior o poder do teste, menor a probabilidade de erro do tipo II. 😉

            Curtir

  4. Olá Marco, parabéns pelo seu material, conciso e didático! Sobre o tamanho do efeito, tenho visto em alguns livros a demonstração de como calculá-lo mas apenas quando se trata da comparação entre duas condições (teste-t por exemplo). Não vi nada sobre como calcular o tamanho do efeito quando temos três ou mais condições (por exemplo, ANOVA) ou quando se trata de testes não-paramétricos. O sr. já viu algo sobre isso? Abraço!

    Marcos

    Curtir

    1. Obrigado, Marcos! Excelente pergunta. Em testes mais complexos, especialmente com múltiplos fatores e níveis, ou GLMM, nem sempre é tão intuitivo calcular o tamanho do efeito. Mas o pessoal que trabalha com meta-análise tem encontrado soluções bem interessantes. Veja este artigo, por exemplo: http://dx.doi.org/10.1111/j.2041-210X.2010.00056.x. Além disso, sugiro ver os trabalhos do pessoal da Psicologia, especialmente da escola do Cohen, que sempre se preocupou bastante com essa questão. Existem agora pacotes para R que permitem calcular o tamanho do efeito em diferentes casos.

      Curtir

      1. Ok Marco, muito obrigado! Inclusive vi coisas sobre tamanho do efeito no livro de Christine Dancey e John Reidy (Estatística sem matemática para Psicologia). Sou biólogo mas consulto bastante esse material. Abraço!

        Marcos

        Curtir

  5. realizar um comparativo de um treino físico entre 2 grupos distintos de pessoas na comunidade onde vivo, por exemplo, vizinhos do lado direito versus vizinhos do lado esquerdo, qual análise estatística seria indicada para tal feito?

    Curtir

    1. Oi Harrison, só com essas informações não dá para responder. Primeiro, responda para si mesmo as perguntas que propus no texto. Depois, poste aqui as respostas para eu tentar te ajudar.

      Curtir

  6. Na figura com os testes estatísticos vc indica o uso das Correlações de Speaman e Kendall quando todas as variáveis são quantitativas, pelo que vi na literatura esses testes são indicados quando ao menos as duas variáveis são do tipo ordinal… Vc pode me esclarecer isso?

    Curtir

    1. Oi Wesley, sim, essas correlações podem ser usadas com variáveis ordinais também. No caso das variáveis quantitativas, a gente usa essas correlações, quando o pressuposto de normalidade dos erros não é atendido. Aí esses testes não-paramétricos resolvem o problema, apesar de terem menos poder estatístico do que os testes paramétricos. Sempre dá para usar testes não-paramétricos ao invés de paramétricos, quando há as duas versões. O ponto é justamente a diferença no poder estatístico.

      Curtir

  7. Prezado Marco,
    parabéns pelo trabalho e o material aqui postado. Tem sido bastante útil para consultas e fundamentação de meu trabalho. Aproveito também este momento para ter uma orientação sua quanto ao meu plano de trabalho p/ o doutorado.
    Estou trabalhando com uma análise de fatores meteorológicos (radiação solar, temperatura, precipitação, etc.) com o comportamento da floresta de mangue (fenologia, regeneração e absorção ou produção de CO2). Minha pergunta é: Qual método estatístico pode ser usado p/ a análise das variáveis meteorológicas c/ as biológicas.
    atenciosamente,
    Sérgio Freire

    Curtir

  8. Obrigada Marco. Se um dia vc se animar para oferecer um curso EAD, me avise. Sou professora e aprecio comunicações que tenham uma boa didática – é o seu caso.

    Curtir

    1. Oi Cristina, já pensei em montar cursos EAD, incluindo desenho experimental e redação científica. Talvez realize isso agora, com a infra que a UFMG oferece. De qualquer forma, semestre que vem oferecerei um curso de método científico aqui na pós em Ecologia, no qual falarei sobre epistemologia, planejamento de experimentos e, um pouco, sobre análise de dados.

      Curtir

      1. Vc tem o meu email ne? Se vc for mesmo fazer o curso EaD, peço que me avise. Eu queria mesmo um curso mais básico de estatística aplicada à Biologia. Como falei sou professora de Estatística e esse ano estou dando aula para o curso de Ciencias Biológicas. Mas preciso desenvolver o olhar da estatistica para essa área para poder dar exemplos e exercicios voltados p a Bilogia. Nao tenho a pretensão de me aprofundar. Na graduação, ele são ainda muito imaturos para isso. Vc sabe onde posso encontrar exercicios de estatística voltados apenas para as Ciências Biológicas? Tenho alguns livros de Bioestatística, mas os exemplos são muito mais da área da saúde.

        Curtir

        1. Cristina, recomendo dois ótimos livros introdutórios com um olhar mais ambiental e menos médico:
          1. Mourão G, Magnusson WE. 2005. Estatística Sem Matemática: a Ligação Entre as Questões e a Análise. Editora Planta.
          2. Emden H. 2008. Statistics for Terrified Biologists. Wiley-Blackwell.

          Tem outros dois com um viés forte para Ecologia, que tratam também de desenho experimental e outras análises:
          3. Ford D. 2000. Scientific Method for Ecological Research. Cambridge University Press.
          4. Krebs CJ. 1998. Ecological Methodology. Benjamin Cummings.

          E tem sempre os clássicos das biológicas e biomédicas em geral, como Zar (Biostatistical Analysis) e Sokal & Rohlf (Biometry).

          Curtir

    1. Cristina, de nada. Não conheço um bom curso de estatística em EAD, mas recomendo fortemente os cursos oferecidos pelo Adriano Paglia e o Frederico Neves da UFMG, assim como os cursos do Paulo Peixoto da UEFS.

      Curtir

      1. Mas esses cursos, imagino que sejam em Minas Gerais e em Feira de Santana? Sou de São Paulo. Não conhece nada por aqui?
        De onde vc é?

        Curtir

        1. Oi Cristina
          Sei que faz tempo, mas achei o blog de vcs agora. No site Veduca tem curso de Estatística em formato EAD e com valor acessível. Sei porque tive que procurar também. Att,

          Curtir

      2. Cristina, trabalho em MG. Bom, há vários bons cursos de introdução à bioestatística pelo Brasil. Recomendei os cursos desses professores, porque já assisti as aulas deles e mantemos contato, então posso assegurar que são cursos de qualidade. Já ouvi falar de vários outros cursos, mas não tenho como dar meu aval, sem conhecê-los mais a fundo. Se for para dar um palpite, eu recomendaria um dos cursos oferecidos pela Ecologia da UFG em Goiânia, pois o pessoal de lá é muito bom em análises quantitativas.

        Curtir

  9. Legal, eu sempre achei legal a proposta do Alain Zuur (http://www.highstat.com/books.htm)
    Que tenta ensinar por exemplos, ele da exemplos de trabalhos, como foi feito as analises e explica porque, e fala para a gente achar algum exemplo parecido com o que queremos e adaptar onde for necessário.
    Seguindo essa idéia, pegar um artigo legal com uma pergunta parecida com a nossa e repetir os com nossos dados pode ajudar, no sentido que alguém ja pensou numa estratégia, os referes ja bateram cabeça em cima e todos esses chegaram ao consenso que deve funcionar. Deve haver alguns risco em agir assim também, mas pode ser um bom começo.

    É isso, abraços 🙂

    Curtir

  10. Marco, conheci seu site/blog ontem e já li uma grande quantidade de artigos dele, e são excelentes. Sempre tive um grande problema com estatística, e agora que estou prestes a fazer a prova para o mestrado os problemas aumentaram, pois preciso entender o por que da estatística utilizada, e este texto sanou várias dúvidas. Muito obrigado.

    Curtir

    1. Fico feliz em saber, Diego! Se você não está seguro na Estatística, recomendo fortemente fazer um curso aplicado à sua área (por exemplo, Estatística para Biologia ou Desenho Experimental em Biologia). Só depois de um bom curso é que os livros e artigos começam a fazer sentido. Boa sorte no mestrado!

      Curtir

  11. Gostei muito da postagem. Me incomoda apenas o fato das pessoas estarem copiando e compartilhando só o quadro e não o restante do texto que, pra mim, é até mais importante. Como foi salientado no próprio texto, o quadro é interessante, mas é apenas uma ferramenta de orientação pra quem já tem conhecimento sobre o que está fazendo.

    Curtir

    1. Obrigado, Vinnie. Pois é, também preferia que as pessoas compartilhassem o link da postagem e não a figura sozinha, pois ela só faz sentido junto com o texto e, mesmo assim, só para quem já fez ao menos um curso de estatística ou desenho amostral. Espero que pelo menos uma parte das pessoas venha parar aqui também.

      Curtir

  12. Pessoal, só para deixar claro, esse guia não mostra as únicas opções de testes existentes, e nem mesmo todas as vias possíveis. Aqui segui a visão mais clássica de recomendar os testes mais usados e de dar ênfase ao pressuposto da normalidade. Até mesmo porque sou biólogo, e não estatístico, então prefiro andar por chão mais firme. Porém, há pessoas que recomendam ignorar a normalidade, fazer transformações de diferentes tipos, ou seguir outras rotas alternativas. Na Estatística, assim como em qualquer ciência, há diferentes escolas e visões, como eu havia dito no artigo.

    Curtir

  13. Marco, legal! Mas acho que você deu pouca ênfase a premissa da homocedasticidade, que é mais importante do que a da normalidade. É comum ver em teses e dissertações que os alunos testaram a normalidade, mas não testaram a homocedasticidade.
    Outra coisa, porque usar stepwise numa regressão se você tem uma hipótese. O stepwise é uma ferramenta perigosa, ela sempre acha relações significativas. Crie 11 variáveis com 20 observações independentes, gere número aleatórios para essas variáveis. Escolha uma delas como independente e rode um stepwise. Você vai ver que um será significativo. Isso é um perigo. Os alunos vão para o campo, coletam um monte de dados, rodam uma análise que busca um resultado significativo e concluem que uma variável é explicada por outra que foi pescada num stepwise. Eu tiraria o stepwise da sua figura.
    Abraços.

    Curtir

    1. Oi Nena, obrigado! Concordo plenamente contigo em ambos os casos. Acabou que não falei de outras coisas importantes, incluindo a homocedasticidade, para manter o artigo sucinto. Obrigado por trazer esse assunto à berlinda, assim os alunos o vêem pelo menos aqui na discussão. Quanto ao stepwise, também não curto esse método, assim como qualquer tipo de seleção de modelo (salvo raríssimas exceções). Acho que cabe ao biólogo a tarefa de criar hipóteses e modelos com uma base biológica sólida; os modelos não podem ser decididos pelo computador. Até mesmo porque, apesar de os diversos algoritmos de seleção de modelos serem matematicamente corretos e eficientes, no fundo, eles dependem sempre da qualidade dos dados biológicos, se quisermos manter um nível decente de realidade nas análises e não modelar no vácuo. E nossos dados em estudos ecológicos estão sempre muito longe de serem tão redondinhos quanto os dados da Física, por exemplo. Sendo assim, é capaz de duas seleções de modelos com as mesmas variáveis resultarem em diferentes escolhas, dependendo de com o que você as alimenta.

      Curtir

  14. Oi Pavel, obrigado, você tem razão. Quando comecei a escrever, meu exemplo era diferente e esqueci de mudar essa parte. Vou fazer a correção no texto.

    Curtir

  15. E… outra coisa! (nossa, estou floodando seu blog hoje… É que adoro este assunto! rs)
    Acho que ficaria interessante se você falasse tb de testes de permutação… que muitas vezes são mais flexíveis do que testes paramétricos ou nào-paramétricos e têm menos premissas. Até mesmo testes não-paramétricos como Mann-Whitney podem sofrer se, por exemplo, houver muitos valores repetidos na amostra (“tied values”) (embora haja formas de contornar este problema)… 🙂

    Curtir

    1. Oi Pavel, nesse caso, não. Na verdade, tanto o general quanto o generalized são abreviados como GLM. Então botei um “z” para diferenciar. O “M” extra é quando o modelo é misto ou multivariado. Essas siglas são uma bagunça na literatura.

      Curtir

      1. Ahhh, entendi. Eu não sabia que existem General Linear Models, só sabia dos Generalized! 🙂
        Que legal, um artigo sobre resampling! Adoro este tema 🙂 Posso ajudar se você quiser!
        Abraço!

        Curtir

      2. Pavel, os “general” são baseados na distribuição normal. Já os “generalized” são baseados em outras distribuições (Poisson, gama, você escolhe).

        Curtir

  16. Marco, na verdade a premissa da análise de regressão é normalidade dos resíduos, não da variável Y. “For any given value Xi of X, the Y’s are independently and randomly distributed. This relationship can be represented by the equation Yji = a + Bx + e where the eij’s are assumed to be normalluy distributed error terms with a mean of zero.” (Sokal & Rohlf, Biometry (4 ed), p. 476; no original as letras estão em grego). Tem também a premissa de homoscedasticidade, relação linear e variável X medida “sem erro” (mas tem formas de incluir o erro de medida na análise).
    Enfim, acho importante frisar isso porque é uma confusão comum. Se quiser, dá pra visualizar isso no R:
    a=runif(1000,0,20) # gera uma distribuição uniforme de 0 a 20 com 1000 valores
    hist(a)
    b=a+rnorm(1000) # gera uma distribuição idêntica à anterior, mas com erros normais
    hist(b)
    plot(b~a)
    lm(b~a)
    Abraços…
    – Pavel

    Curtir

Deixe um comentário

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.