Qual teste estatístico devo usar?

Como comentei em outro texto, a Estatística, uma ciência independente, é usada como ferramenta por ecólogos e vários outros cientistas. Não é necessário fazer uma graduação na área para rodar um qui-quadrado. Porém, é fundamental estudar direito os fundamentos dessa ciência e a lógica dos testes mais comuns, para ser um bom usuário.

Para você, que precisa aplicar a Estatística na sua pesquisa científica, escrevi este passo-a-passo e adaptei um road map com os testes mais populares. Este material visa ajudar você a escolher o melhor teste para o seu caso. O texto está estruturado na forma de perguntas que você deve responder a si mesmo a cada passo do planejamento das suas análises.

Aqui trato apenas dos casos mais comuns em Ecologia, usando uma abordagem clássica baseada em Zar (2009), mas mesclada com uma visão integrada filosófica a la Magnusson et al. (2015) e uma pitada de GLM a la Dobson & Barnett (2008) e GLMM a moda de Stroup (2012).

Evitei aqui algumas abordagens heterodoxas ou desnecessariamente complicadas (statistical machismo) que atualmente estão na moda na Ecologia. Por exemplo, a seleção de modelos feita às cegas. Minha opinião é que testes simples atendem a esmagadora maioria dos estudos em Ecologia. O que faz um estudo ser interessante são o problema e a pergunta, não as análises.

Antes de prosseguir na leitura, lembre-se:

To consult the statistician after an experiment is finished is often merely to ask him to conduct a post mortem examination. He can perhaps say what the experiment died of.” –  Sir Ronald Fisher

Aviso: é bom lembrar que este guia não substitui um bom curso de Estatística aplicada à Biologia, seja presencial ou online, e nem a leitura de livros especializados. O guia serve apenas como uma introdução aos novatos ou como material de apoio para quem já tem uma noção.

Observe também esta máxima:

“Você só aprende de verdade um teste, depois que ele se torna necessário em um estudo que você está fazendo e depois de estudar a lógica matemática por trás dele.” – autor desconhecido

É fundamental também pedir conselhos a estatísticos profissionais. Faça isso de tempos em tempos para os testes mais corriqueiros e sempre que for fazer um teste novo.

Lembre-se também de que eu mesmo não sou um estatístico, mas um biólogo, então não confie cegamente nas minhas recomendações, pois posso estar errado. Nada substitui a leitura das fontes primárias.

Bom, passemos agora às perguntas que você deve responder a si mesmo, antes de rodar um teste estatístico.

1. Qual é a sua pergunta?

Esse é o primeiro e mais importante passo em qualquer pesquisa científica. A motivação para um projeto de pesquisa vem do problema de interesse, que é o quebra-cabeças que você quer ajudar a montar.

E o cerne de um projeto é a pergunta. Fazemos pesquisas para matarmos a nossa curiosidade sobre como funciona a natureza, para resolvermos um problema prático ou para gerarmos tecnologia.

Não é possível atingir esses objetivos, se você não planejar muito bem aonde quer chegar. Não comece sem direção, apenas para ver no que vai dar. Em 99,73% dos casos, isso leva à desistência no meio do caminho ou a resultados completamente irrelevantes.

Considere também, com base na sua pergunta, a possibilidade de usar a Estatística apenas para descrever os seus resultados, e não para testar hipóteses que você fingiu ter criado a priori.

Para exemplificar, vamos trabalhar com a seguinte pergunta:

  • Dentre morcegos nectarívoros de uma mesma espécie, o tamanho do indivíduo influencia sua eficiência como polinizador?

2. O que você espera observar?

Não basta bolar uma pergunta original e relevante. Com base no que já se sabe sobre o fenômeno, organismo ou ambiente de interesse, faça um exercício dedutivo e imagine qual deve ser a resposta à pergunta feita.

Ou seja, a partir da pergunta de trabalho, crie uma hipótese. Quanto mais complexa a pergunta, mais respostas alternativas ela pode ter. Na verdade, as perguntas mais interessantes levam a uma estrutura de inferência forte, com múltiplas hipóteses concorrentes.

Para criar uma hipótese original e interessante, você precisa estudar a fundo a literatura relacionada, além de ter experiência com as entidades envolvidas no projeto. Estudando o que já se sabe sobre o assunto de interesse é possível saber onde estão as fronteiras do conhecimento e decidir em que direção você quer expandí-las.

Tomando como base a pergunta formulada anteriormente, uma possível hipótese seria:

  • Em morcegos da espécie A, quanto maior o indivíduo, maior sua eficiência como polinizador.

Note que essa é apenas uma das hipóteses possíveis para a pergunta de trabalho, que é mais ampla do que parece. Os principais tipos de raciocínio usados para elaborar hipóteses são a dedução, a abdução e a indução.

Poderíamos imaginar que a justificativa para essa hipótese específica seria baseada nas seguintes informações:

  1. Morcegos maiores precisam beber mais néctar para suprirem suas necessidades energéticas diárias;
  2. Visitantes florais que precisam beber um volume grande de néctar tendem a visitar um número maior de flores por noite;
  3. Em muitas espécies de plantas, quanto mais flores e plantas individuais forem visitas pelo mesmo animal na mesma noite, maiores as chances de ocorrer fecundação;
  4. Conclusão: morcegos maiores têm maior probabilidade de fecundar flores.

Note que essa hipótese foi construída usando raciocínio abdutivo. Ou seja, a conclusão não é necessariamente verdadeira com base nas premissas 1, 2 e 3, como seria em um argumento dedutivo. Contudo, essa conclusão é bastante provável.

Tenha sempre em mente que o significado e a relevância dos dados coletados em um projeto de pesquisa são dados pela hipótese e sua justificativa. Os resultados do teste estatístico, estejam eles de acordo ou não com o que você esperava, só fazem sentido à luz desse contexto biológico.

3. Como exatamente você vai medir o fenômeno?

Depois de criada a hipótese, pense o seguinte: se essa hipótese for mesmo uma boa resposta para a minha pergunta de trabalho, o que eu espero observar de concreto no campo, no laboratório ou no computador?

Essa expectativa se chama previsão e o processo de criá-la é conhecido como operacionalização (leia um outro artigo sobre isso). Essa é a base do método hipotético-dedutivo, o mais usado na ciência contemporânea.

A operacionalização é um passo crucial, pois nenhuma hipótese pode ser testada diretamente, já que hipóteses são feitas de conceitos abstratos (variáveis teóricas). O que é testado de fato são as previsões derivadas da hipótese, estas, sim, concretas e palpáveis (feitas de variáveis operacionais).

Quando a maioria das previsões derivadas de uma hipótese é confirmada, ela passa a ser aceita como uma tese. Caso contrário, a hipótese é abandonada ou reformulada. Se você não operacionalizar direito a sua hipótese, será impossível saber qual teste estatístico precisará usar. Na verdade, será impossível até medir as variáveis operacionais.

Vamos pegar a hipótese proposta e dela derivar uma previsão testável. Em outras palavras, vamos imaginar uma conseqüência dessa hipótese e definir que medidas precisamos tomar.

Contudo, antes de prosseguirmos, note que, para ser eficiente, um polinizador precisa primeiro ser legítimo. Ou seja, ele precisa ter um comportamento de visitação às flores com potencial concreto de resultar em fecundação. Esta é uma premissa, também conhecida como condição contorno.

Uma possível previsão da hipótese levantada poderia ser:

  • Se, dentro de uma mesma espécie, morcegos maiores são de fato polinizadores mais eficientes, então eu espero observar que, quanto maior a massa corporal do indivíduo (em g), maior deve ser o número de flores que ele visita de maneira legítima em uma mesma noite.

Geralmente, o que se chama de hipótese em Estatística, na verdade, é uma representação matemática de uma previsão biológica (leia Farji-Brener 2003 e 2004). Cuidado com as diferenças de terminologia e seu sentido lógico. A hipótese biológica você apresenta logo na introdução, já a hipótese estatística (previsão) você explica nos métodos.

4. Como as minhas ideias se encaixam umas nas outras?

Neste ponto, faça um mapa mental do seu projeto, incluindo o seu problema de interesse, pergunta de trabalho, hipótese, premissas e previsão. Essa é uma técnica excelente para desenvolver o seu brainstorming e tranformá-lo em um plano de pesquisa concreto.

5. Que tipos de variáveis estão envolvidos?

Agora que você já tem uma previsão testável, examine a estrutura lógica dela com cuidado. A primeira coisa a checar é a natureza das variáveis escolhidas. Há diferentes classificações na Estatística.

Na maioria dos casos, primeiro você deve checar se a sua variável é qualitativa ou quantitativa.

As variáveis qualitativas não são mensuráveis. Elas se dividem em nominais, quando não há um ranking de valores (e.g., macho ou fêmea, cor dos olhos), e ordinais, quando há uma ordem entre os estados da variável (e.g., doença em estado inicial, intermediário ou terminal).

As variáveis quantitativas podem ser medidas e se dividem em discretas e contínuas. As variáveis discretas são resultado de contagens e só têm valores inteiros; e.g., número de filhotes, anos de idade, tamanho populacional. Por sua vez, as variáveis contínuas geralmente resultam de medidas com instrumentos ou índices, e assumem valores na escala real, onde frações fazem sentido; e.g., altura, massa corporal, carga alar.

Também se chama de não-paramétricas as variáveis nominais, ordinais e discretas, e de paramétricas as variáveis contínuas.

  • No nosso caso hipotético, temos então duas variáveis, sendo ambas quantitativas, porém uma discreta (número de visitas) e a outra contínua (massa).

6. Qual é a relação entre as variáveis?

Agora você precisa pensar sobre qual variável é a causa (independente ou fator) e qual é o efeito (dependente ou resposta).

  • Pegando o nosso exemplo, podemos imaginar que a massa corporal é a variável independente (X) e que o número de flores visitadas legitimamente em uma noite é a variável dependente (Y).

Isso porque só tem sentido supor que a massa causa o número de visitas legítimas e não o contrário.

A maioria dos testes estatísticos supõe implicitamente uma relação de causa e efeito. Mesmo os testes em que a variável independente é qualitativa (nominal ou ordinal), como o teste t e a ANOVA. A exceção são testes como a correlação, sem premissa de causalidade.

Aqui neste exemplo, há apenas uma variável dependente, a eficiência do morcego. Quando a sua hipótese e a sua previsão envolvem mais de uma variável dependente, você está no terreno perigoso das análises multivariadas, um tema mais complexo que eu não abordo neste artigo.

Este é o momento para fazer um mapa mental das relações entre as suas variáveis.

7. No final das contas, qual teste se adequa melhor ao exemplo?

Agora que você já tem uma pergunta, uma hipótese e uma previsão, sabe que tipo de variáveis tem em mãos e sabe como elas se relacionam entre si, então pode escolher com segurança o melhor teste estatístico para a sua previsão.

  • Continuando com o nosso exemplo, dentre todos os testes adequados, o mais simples e bem sintonizado, neste caso, seria uma regressão linear simples, tomando a massa corporal como X e o número de visitas legítimas de cada morcego individual como Y.

Através de um teste de regressão, saberíamos não apenas se a relação entre essas variáveis existe de fato ou não (significância ou P), como também se ela é positiva (maior massa, mais visitas) ou negativa (maior massa, menos visitas), e quão forte ela é (r²).

As assim chamadas “hipóteses estatísticas” seriam: hipótese nula – não há relação entre X e Y; hipótese alternativa 1 – há relação positiva entre X e Y; hipótese alternativa 2 – há uma relação negativa entre X e Y.

É bom ressaltar que, neste exemplo didático, considerando a forma como a nossa previsão biológica foi formulada, apenas a hipótese alternativa 1 confirma nossas expectativas. Relembrando, uma hipótese estatística, no fundo, é uma previsão científica, do ponto de vista epistemológico.

Antes de rodar uma regressão linear simples, é preciso também testar a normalidade da distribuição de erros. Em alguns tipos de teste estatístico, caso a distribuição dos dados, erros ou diferenças não seja normal, é preciso fazer algum tipo de transformação ou então usar uma versão não-paramétrica.

Note que, via de regra, testes não-paramétricos têm poder estatístico menor do que testes paramétricos, então sempre que possível prefira os segundos aos primeiros.

Uma outra alternativa, quando a distribuição de erros não é normal, é usar um modelo linear generalizado (GLM), usando no modelo uma distribuição mais adequada aos seus dados, sem transformá-los.

Defina também o nível de significância do teste (α). Na Ecologia, costuma-se usar 5%, mas isso varia muito entre áreas. Na verdade, o valor de P não é a “moral da história” de um teste e nunca pode ser usado sozinho para tecer interpretações. Decisões binárias do tipo “significativo vs. não-significativo” aos poucos vão caindo em desuso.

Veja se o teste escolhido tem mais algum outro pressuposto além da normalidade dos erros (e.g., homocedasticidade) e cheque tudo mais que for necessário.

Rode o teste e não se esqueça de prestar atenção também ao tamanho do efeito e ao poder estatístico, além dos graus de liberdade e tamanho amostral.

8. E, no meu caso, qual caminho devo seguir?

Considere tudo o que foi dito até este ponto. Depois, para facilitar a sua escolha, use este road map adaptado por mim a partir de um mapa usado no curso de Estatística para Biólogos ministrado pela Dra. Jutta Schmid na Universidade de Ulm, Alemanha.

Este mapa não cobre todas as possibilidades existentes, que são várias, mas abrange a esmagadora maioria dos testes rotineiramente usados por ecólogos.

Vale lembrar também que este mapa segue uma abordagem mais clássica, como a de Zar (2009), além de um pouco de abordagens mais complexas. Recomendo fortemente a leitura de Magnusson et al. (2015) para fortalecer a sua base conceitual. Clique na imagem para aumentá-la.

teste estatistico (marco mello).001

9. Resumo dos passos necessários para fazer um teste estatístico

  1. Defina um problema de interesse. Esse é o quebra-cabeças que você quer ajudar a montar;
  2. Elabore um mapa mental do seu projeto, contendo problema, pergunta, hipóteses, premissas e previsões;
  3. Identifique a natureza das variáveis envolvidas em cada previsão: elas são qualitativas ou quantitativas? Nominais ou ordinais? Discretas ou contínuas?
  4. Pense sobre a relação entre as variáveis: há causalidade ou não? Use um mapa mental de análise de dados para clarear suas ideias;
  5. Defina a sua previsão matemática (hipótese estatística) de forma mais precisa e escolha o teste mais adequado para testar essa previsão;
  6. Planeje quantas amostras serão necessárias para ter um bom poder estatístico;
  7. Colete os dados no campo, laboratório, biblioteca ou computador;
  8. Plote gráficos para examinar visualmente a relação entre as variáveis e ganhar um feeling sobre seus resultados. Sempre plote um ou mais gráficos, antes de rodar qualquer teste, pois estatísticas descritivas podem ser enganosas!
  9. Cheque todos os pressupostos do teste escolhido (e.g., normalidade dos erros, homocedasticidade etc.);
  10. Se necessário, aplique alguma transformação aos dados, troque para um teste não-paramétrico ou use um GLM, dependendo da escola que preferir;
  11. Defina o nível de significância do teste e rode-o;
  12. Ao conferir os resultados, preste atenção principalmente ao tamanho do efeito e ao poder estatístico, além dos graus de liberdade e tamanho amostral;
  13. Elabore uma interpretação biológica baseada principalmente no tamanho do efeito.

10. Pressupostos dos testes

No fundo, o pressuposto mais importante de qualquer teste estatístico é a qualidade da coleta dos dados: as observações têm que ter sido feitas dentro do maior rigor possível, bem afinadas com a orientação dada pela previsão biológica, com a precisão necessária a cada caso, e de forma que as unidades amostrais sejam independentes entre si.

Vale lembrar que a normalidade dos dados brutos ou dos erros não é um pressuposto tão fundamental assim em todos os testes estatísticos. Portanto, muitas vezes, pode-se aplicar um teste paramétrico mesmo em casos de não-normalidade, sem grandes diferenças no resultado, especialmente quando o efeito é forte.

Na grande família dos modelos lineares, que incluem o teste t e a ANOVA, testes mais complexos, como os modelos lineares generalizados simples ou mistos (GLM e GLMM), permitem ainda escolher outros tipos de distribuição além da normal para estimar a significância da estatística.

Há também diferentes transformações que tornam normal a distribuição de erros dos dados.

Também é possível calcular alguns testes por reamostragem, contornando esse problema da distribuição dos dados.

11. Sinta o “jeitão” dos dados

Não confie cegamente nos resultados numéricos dos testes! Dados diferentes às vezes geram as mesmas estatísticas descritivas. Além disso, pode ter havido algum erro de cálculo por culpa sua ou do pacote estatístico. Muitas vezes, há diferenças de cálculo para um mesmo teste entre pacotes e programas estatísticos. Portanto, cuidado.

Primeiro, faça histogramas para examinar a distribuição dos dados. Segundo, faça gráficos para inspecionar as relações entre as variáveis de interesse (gráficos de colunas, diagramas de dispersão, box-plots etc.). Só depois de ter um feeling melhor sobre os seus dados, rode as análises numéricas.

Outro erro muito comum é insistir em testar modelos lineares, quando na verdade a relação entre as variáveis é claramente não-linear. Também por isso a análise visual preliminar é fundamental.

Pode ser ainda que haja mais de uma relação (curva) embutida na sua nuvem de dados, o que cria a necessidade de usar modelos aditivos (GAM).

12. Conselhos finais

  1. Sendo você um biólogo, não dê ênfase demais às análises estatísticas no seu projeto ou artigo. Fale sobre os fenômenos biológicos estudados, usando os números como apoio;
  2. Não confunda hipótese biológica com hipótese estatística. Lembre-se de que os seus dados só farão sentido, se você elaborar uma hipótese interessante para lhes dar contexto, independente do resultado do teste estatístico;
  3. Escolha as análises estatísticas antes de iniciar o projeto e não depois de ter coletado os dados. A estatística faz parte do planejamento e envolve questões fundamentais, como o modelo a ser usado e o número de amostras que serão necessárias para testar as previsões feitas.

13. Mensagem de auto-ajuda

“Uma análise sofisticada e popular não substitui uma pergunta original baseada em teoria e amparada por um bom delineamento amostral.”

14. Sugestões de leitura

research whalberg 11

Anúncios

45 Replies to “Qual teste estatístico devo usar?”

  1. Prezado Marco,
    parabéns pelo trabalho e o material aqui postado. Tem sido bastante útil para consultas e fundamentação de meu trabalho. Aproveito também este momento para ter uma orientação sua quanto ao meu plano de trabalho p/ o doutorado.
    Estou trabalhando com uma análise de fatores meteorológicos (radiação solar, temperatura, precipitação, etc.) com o comportamento da floresta de mangue (fenologia, regeneração e absorção ou produção de CO2). Minha pergunta é: Qual método estatístico pode ser usado p/ a análise das variáveis meteorológicas c/ as biológicas.
    atenciosamente,
    Sérgio Freire

  2. Obrigada Marco. Se um dia vc se animar para oferecer um curso EAD, me avise. Sou professora e aprecio comunicações que tenham uma boa didática – é o seu caso.

    1. Oi Cristina, já pensei em montar cursos EAD, incluindo desenho experimental e redação científica. Talvez realize isso agora, com a infra que a UFMG oferece. De qualquer forma, semestre que vem oferecerei um curso de método científico aqui na pós em Ecologia, no qual falarei sobre epistemologia, planejamento de experimentos e, um pouco, sobre análise de dados.

      1. Vc tem o meu email ne? Se vc for mesmo fazer o curso EaD, peço que me avise. Eu queria mesmo um curso mais básico de estatística aplicada à Biologia. Como falei sou professora de Estatística e esse ano estou dando aula para o curso de Ciencias Biológicas. Mas preciso desenvolver o olhar da estatistica para essa área para poder dar exemplos e exercicios voltados p a Bilogia. Nao tenho a pretensão de me aprofundar. Na graduação, ele são ainda muito imaturos para isso. Vc sabe onde posso encontrar exercicios de estatística voltados apenas para as Ciências Biológicas? Tenho alguns livros de Bioestatística, mas os exemplos são muito mais da área da saúde.

        1. Cristina, recomendo dois ótimos livros introdutórios com um olhar mais ambiental e menos médico:
          1. Mourão G, Magnusson WE. 2005. Estatística Sem Matemática: a Ligação Entre as Questões e a Análise. Editora Planta.
          2. Emden H. 2008. Statistics for Terrified Biologists. Wiley-Blackwell.

          Tem outros dois com um viés forte para Ecologia, que tratam também de desenho experimental e outras análises:
          3. Ford D. 2000. Scientific Method for Ecological Research. Cambridge University Press.
          4. Krebs CJ. 1998. Ecological Methodology. Benjamin Cummings.

          E tem sempre os clássicos das biológicas e biomédicas em geral, como Zar (Biostatistical Analysis) e Sokal & Rohlf (Biometry).

          1. Saudações,
            Me intrometendo na conversa, rs, aqui existem estudos de caso e dados para aulas de ecologia que talvez possam ser usados em um curso de estatística 😉
            http://tiee.esa.org/vol/v8/toc.html
            É uma revista científica dedicada a publicar material didático de ecologia.

  3. Marco, gostei muito do seu material. Vc poderia me indicar um curso de bioestatística ead? Obrigada,

    1. Cristina, de nada. Não conheço um bom curso de estatística em EAD, mas recomendo fortemente os cursos oferecidos pelo Adriano Paglia e o Frederico Neves da UFMG, assim como os cursos do Paulo Peixoto da UEFS.

      1. Mas esses cursos, imagino que sejam em Minas Gerais e em Feira de Santana? Sou de São Paulo. Não conhece nada por aqui?
        De onde vc é?

      2. Cristina, trabalho em MG. Bom, há vários bons cursos de introdução à bioestatística pelo Brasil. Recomendei os cursos desses professores, porque já assisti as aulas deles e mantemos contato, então posso assegurar que são cursos de qualidade. Já ouvi falar de vários outros cursos, mas não tenho como dar meu aval, sem conhecê-los mais a fundo. Se for para dar um palpite, eu recomendaria um dos cursos oferecidos pela Ecologia da UFG em Goiânia, pois o pessoal de lá é muito bom em análises quantitativas.

  4. Legal, eu sempre achei legal a proposta do Alain Zuur (http://www.highstat.com/books.htm)
    Que tenta ensinar por exemplos, ele da exemplos de trabalhos, como foi feito as analises e explica porque, e fala para a gente achar algum exemplo parecido com o que queremos e adaptar onde for necessário.
    Seguindo essa idéia, pegar um artigo legal com uma pergunta parecida com a nossa e repetir os com nossos dados pode ajudar, no sentido que alguém ja pensou numa estratégia, os referes ja bateram cabeça em cima e todos esses chegaram ao consenso que deve funcionar. Deve haver alguns risco em agir assim também, mas pode ser um bom começo.

    É isso, abraços 🙂

  5. Marco, conheci seu site/blog ontem e já li uma grande quantidade de artigos dele, e são excelentes. Sempre tive um grande problema com estatística, e agora que estou prestes a fazer a prova para o mestrado os problemas aumentaram, pois preciso entender o por que da estatística utilizada, e este texto sanou várias dúvidas. Muito obrigado.

    1. Fico feliz em saber, Diego! Se você não está seguro na Estatística, recomendo fortemente fazer um curso aplicado à sua área (por exemplo, Estatística para Biologia ou Desenho Experimental em Biologia). Só depois de um bom curso é que os livros e artigos começam a fazer sentido. Boa sorte no mestrado!

  6. Gostei muito da postagem. Me incomoda apenas o fato das pessoas estarem copiando e compartilhando só o quadro e não o restante do texto que, pra mim, é até mais importante. Como foi salientado no próprio texto, o quadro é interessante, mas é apenas uma ferramenta de orientação pra quem já tem conhecimento sobre o que está fazendo.

    1. Obrigado, Vinnie. Pois é, também preferia que as pessoas compartilhassem o link da postagem e não a figura sozinha, pois ela só faz sentido junto com o texto e, mesmo assim, só para quem já fez ao menos um curso de estatística ou desenho amostral. Espero que pelo menos uma parte das pessoas venha parar aqui também.

  7. Pessoal, só para deixar claro, esse guia não mostra as únicas opções de testes existentes, e nem mesmo todas as vias possíveis. Aqui segui a visão mais clássica de recomendar os testes mais usados e de dar ênfase ao pressuposto da normalidade. Até mesmo porque sou biólogo, e não estatístico, então prefiro andar por chão mais firme. Porém, há pessoas que recomendam ignorar a normalidade, fazer transformações de diferentes tipos, ou seguir outras rotas alternativas. Na Estatística, assim como em qualquer ciência, há diferentes escolas e visões, como eu havia dito no artigo.

  8. Marco, legal! Mas acho que você deu pouca ênfase a premissa da homocedasticidade, que é mais importante do que a da normalidade. É comum ver em teses e dissertações que os alunos testaram a normalidade, mas não testaram a homocedasticidade.
    Outra coisa, porque usar stepwise numa regressão se você tem uma hipótese. O stepwise é uma ferramenta perigosa, ela sempre acha relações significativas. Crie 11 variáveis com 20 observações independentes, gere número aleatórios para essas variáveis. Escolha uma delas como independente e rode um stepwise. Você vai ver que um será significativo. Isso é um perigo. Os alunos vão para o campo, coletam um monte de dados, rodam uma análise que busca um resultado significativo e concluem que uma variável é explicada por outra que foi pescada num stepwise. Eu tiraria o stepwise da sua figura.
    Abraços.

    1. Oi Nena, obrigado! Concordo plenamente contigo em ambos os casos. Acabou que não falei de outras coisas importantes, incluindo a homocedasticidade, para manter o artigo sucinto. Obrigado por trazer esse assunto à berlinda, assim os alunos o vêem pelo menos aqui na discussão. Quanto ao stepwise, também não curto esse método, assim como qualquer tipo de seleção de modelo (salvo raríssimas exceções). Acho que cabe ao biólogo a tarefa de criar hipóteses e modelos com uma base biológica sólida; os modelos não podem ser decididos pelo computador. Até mesmo porque, apesar de os diversos algoritmos de seleção de modelos serem matematicamente corretos e eficientes, no fundo, eles dependem sempre da qualidade dos dados biológicos, se quisermos manter um nível decente de realidade nas análises e não modelar no vácuo. E nossos dados em estudos ecológicos estão sempre muito longe de serem tão redondinhos quanto os dados da Física, por exemplo. Sendo assim, é capaz de duas seleções de modelos com as mesmas variáveis resultarem em diferentes escolhas, dependendo de com o que você as alimenta.

  9. Oi Pavel, obrigado, você tem razão. Quando comecei a escrever, meu exemplo era diferente e esqueci de mudar essa parte. Vou fazer a correção no texto.

  10. E… outra coisa! (nossa, estou floodando seu blog hoje… É que adoro este assunto! rs)
    Acho que ficaria interessante se você falasse tb de testes de permutação… que muitas vezes são mais flexíveis do que testes paramétricos ou nào-paramétricos e têm menos premissas. Até mesmo testes não-paramétricos como Mann-Whitney podem sofrer se, por exemplo, houver muitos valores repetidos na amostra (“tied values”) (embora haja formas de contornar este problema)… 🙂

    1. Sim, esses testes são importantes também, mas os deixei para outro artigo só sobre “resampling”. Ainda o estou escrevendo. Um abraço!

  11. E… onde na figura tá GLzM… não é pra ser GLMM? GLM de generalized linear model, GLMM de generalized linear mixed model (e tem tb LMM, de linear mixed model).

    1. Oi Pavel, nesse caso, não. Na verdade, tanto o general quanto o generalized são abreviados como GLM. Então botei um “z” para diferenciar. O “M” extra é quando o modelo é misto ou multivariado. Essas siglas são uma bagunça na literatura.

      1. Ahhh, entendi. Eu não sabia que existem General Linear Models, só sabia dos Generalized! 🙂
        Que legal, um artigo sobre resampling! Adoro este tema 🙂 Posso ajudar se você quiser!
        Abraço!

      2. Pavel, os “general” são baseados na distribuição normal. Já os “generalized” são baseados em outras distribuições (Poisson, gama, você escolhe).

  12. Marco, na verdade a premissa da análise de regressão é normalidade dos resíduos, não da variável Y. “For any given value Xi of X, the Y’s are independently and randomly distributed. This relationship can be represented by the equation Yji = a + Bx + e where the eij’s are assumed to be normalluy distributed error terms with a mean of zero.” (Sokal & Rohlf, Biometry (4 ed), p. 476; no original as letras estão em grego). Tem também a premissa de homoscedasticidade, relação linear e variável X medida “sem erro” (mas tem formas de incluir o erro de medida na análise).
    Enfim, acho importante frisar isso porque é uma confusão comum. Se quiser, dá pra visualizar isso no R:
    a=runif(1000,0,20) # gera uma distribuição uniforme de 0 a 20 com 1000 valores
    hist(a)
    b=a+rnorm(1000) # gera uma distribuição idêntica à anterior, mas com erros normais
    hist(b)
    plot(b~a)
    lm(b~a)
    Abraços…
    – Pavel

Comentários encerrados.