Qual gráfico devo fazer?

Aqui no blog, já havíamos dado dicas sobre como fazer figuras, legendas, mapas e infográficos. Que tal falarmos mais sobre o fascinante mundo dos gráficos?

Começamos a tratar desse tema, ao notarmos mais uma preocupante lacuna na formação dos alunos de Biologia. Além de muitos saírem da graduação com uma base fraca em análise estatística, eles tampouco aprendem análise gráfica.

Por isso, os gráficos serão o tema da nossa nova série de posts. Vamos começar pela pergunta mais básica de todas: qual gráfico devo fazer?

É importante esclarecer que gráficos servem para produzir imagens diretas, como no sermão da flor. Nesse sermão clássico, bastou o Śākyamuni Buddha mostrar um lótus ao seu discípulo, Mahākāśyapa, para lhe provocar a iluminação.

Da mesma forma, para o leitor atingir a iluminação e entender a sua mensagem, você precisa lhe mostrar um bom gráfico. Essa iluminação também pode ajudar a você mesmo. Isso porque ela dá um primeiro feeling sobre as variáveis envolvidas no fenômeno de interesse e a relação entre elas. Além disso, ela pode lhe ajudar a escolher o teste estatístico mais adequado para checar se as suas impressões estão mesmo corretas.

Ok, depois de ponderar sobre qual tipo de figura você deve usar, e tendo optado por fazer um gráfico, qual é o próximo passo? Responda as perguntas a seguir para você mesmo.

1. Qual pergunta eu quero responder?

Como já discutido em outro post, a pergunta é alma de um projeto científico. Isso porque ela define o foco de tudo, incluindo a análise estatística e a análise gráfica. E, depois que você definir a pergunta, precisará operacionalizar as suas ideias, elaborando hipóteses e previsões. Mesmo projetos descritivos, que não são orientados por hipóteses, também têm expectativas que podem ser testadas graficamente, além de usarem gráficos para descrever padrões.

2. Quais variáveis estão envolvidas na previsão que eu quero testar?

Tendo escolhido então uma previsão para começar a trabalhar, você saberá quais variáveis estão em jogo. Variáveis são como os personagens de uma história, sendo que a história é o seu projeto.

Assim, para contar bem a sua história, conheça melhor os seus personagens. São as variáveis que determinam o tipo de gráfico que você deve usar em uma determinada análises. Resumidamente, elas se dividem em duas grandes classes: qualitativas e quantitativas.

As variáveis qualitativas não são mensuráveis. Dentre elas, há as nominais, também conhecidas como categóricas, cujos valores são equivalentes entre si (por exemplo, espécie nativa, exótica ou invasora). Variáveis categóricas que têm apenas dois valores possíveis são chamadas de binárias (por exemplo, presença ou ausência). E há também as ordinais, que se organizam em um ranking de valores (por exemplo, primeiro, segundo e terceiro).

As variáveis quantitativas podem ser medidas. Dentre elas, há as discretas, que são resultado de contagens. Elas são expressas através de números inteiros (por exemplo, número de filhotes). E há também as contínuas, que geralmente resultam de medidas com instrumentos ou índices, assumindo valores reais (por exemplo, massa corporal).

Também se chama de não-paramétricas as variáveis nominais, ordinais e discretas, e de paramétricas as variáveis contínuas.

Se você quiser ir mais a fundo na análise estatística, recomendo ler um bom livro introdutório como este.

3. Qual é a relação que eu espero observar entre as variáveis?

Neste ponto, presumo que você já saiba o que espera observar. E você já deve ter conseguido traduzir a sua expectativa em variáveis. Mas como exatamente você espera que seja a relação entre elas? Se as variáveis são os personagens da sua história, então a relação entre elas é o enredo.

E como se desenrola esse enredo? Uma categoria apresenta valores maiores do que a outra? Uma medida diminui com a outra? Há muitas outras possibilidades, mas aqui neste post vamos focar nos casos mais comuns.

4. Qual tipo de gráfico eu uso para ganhar um primeiro feeling sobre uma variável contínua?

Há vários tipos de gráficos. Então vamos avaliar os critérios de escolha através de exemplos concretos.

Comecemos por um caso bem simples: a relação de uma variável com ela mesma. Chamamos isso de distribuição de frequência. Tomemos como modelo morcegos da espécie Carollia perspicillata que vivem na Mata Atlântica. Aliás, se você quiser saber mais sobre os morcegos, animais magníficos, visite este site.

Para examinar a vida desses simpáticos morcegos, vamos usar dados reais de campo. Esses dados, junto com outros coletados por colegas, estão disponíveis livremente em um data paper. Você pode usá-los para praticar os conceitos deste tutorial, desenvolver novos projetos, dar aulas, ministrar palestras ou qualquer outra atividade que desejar. Basta citar o nosso data paper. Aqui vou usar apenas os dados que eu mesmo coletei, então considere este filtro, se quiser repetir as análises.

Um simpático morcego da espécie Carollia perspicillata capturado no Parque Estadual do Rio Doce, MG, uma área de Mata Atlântica de tabuleiro. Foto por Marco Mello.

Nesse banco de dados, cada observação (também conhecida como unidade amostral) corresponde a um morcego medido em campo. Dependendo da análise que você vai fazer, pode ser necessário agrupar ou dividir os dados em categorias. Preste atenção e identifique o que é uma observação nos dados que você está analisando graficamente. Assim, você pode ganhar o tal feeling sobre o material que tem em mãos.

Esse feeling começa por entender as principais características dos seus dados. Por exemplo, se você tem observações coletadas em todo o espectro de variação possível, ou se as suas amostras ficaram enviesadas. Imagine que você tenha dados sobre a massa corporal desses morcegos variando de 25 a 30 g. Mas você sabe, graças a estudos anteriores, que a massa deles varia de 5 a 30 g. Significa que a sua amostra ficou enviesada para os morcegos mais pesados, o que pode atrapalhar as suas interpretações biológicas.

A distribuição dos dados é outra característica fundamental a ser avaliada. Cada tipo de variável costuma ter uma distribuição de probabilidade teórica esperada, por exemplo Gaussiana, Poisson, gama ou binomial. Só que dados reais, coletados em campo, muitas vezes se desviam da distribuição esperada. Isso pode se dever a vieses de amostragem ou ao efeito de fenômenos naturais, inclusive aquele você está investigando.

Para fazermos então essa análise gráfica de uma única variável contínua, plotamos ela no eixo X. Já no eixo Y, plotamos a frequência dessa variável, ou seja, o número de observações que correspondem a cada faixa de valores. Existem regras estatísticas para determinar essas faixas de valores, mas não se preocupe com isso neste momento, pois os programas determinam as classes automaticamente. Chamamos esse tipo de gráfico de histograma.

Distribuição da massa corporal (g) em morcegos da espécie Carollia perspicillata em diversas localidades da Mata Atlântica. Dados disponíveis no data paper de Gonçalves et al. 2018 (Ecology). N = 2.350 observações de morcegos individuais. Foram excluídos dados acima de 30 g porque eles provavelmente são errôneos, dada a história natural dessa espécie.

Interpretação

Um histograma é muito informativo. Ele nos permite visualizar vários conceitos estatísticos que parecem abstratos, como aqueles ligados a medidas de tendência central e de dispersão. Por exemplo, vemos que o valor de massa mais comum (moda) é 15 g. Dá para sacar também que temos em mãos uma distribuição que se aproxima muito da normal (Gaussiana), na qual média, mediana e moda convergem.

Observação 1: note que a legenda do histograma acima, assim como as outras neste tutorial, foram feitas com fins didáticos. Legendas para artigos são diferentes e você pode ler mais sobre elas neste outro post.

Observação 2: vale ressaltar que não é importante, em um gráfico, enxergar cada informação detalhada. Isso você vê nas planilhas e matrizes. Em um gráfico focamos na análise visual das tendências principais: quem é maior ou menor, quem diminui ou aumenta com quem, dentro de qual faixa os valores variam etc.

5. Qual tipo de gráfico eu uso para visualizar uma contagem de casos em uma variável categórica?

Agora imagine que a variável do seu interesse não é contínua, mas categórica.

No caso de você querer visualizar contagens dos valores dessa variável, a melhor escolha é um diagrama de barras. No eixo X você representa os valores da variável categórica do seu interesse. No Y, você coloca o número de observações acumuladas para cada valor. Vamos usar como exemplo a variável sexo do nosso banco de dados.

Quantidade de indivíduos machos e fêmeas em morcegos da espécie Carollia perspicillata amostrados em diversas localidades da Mata Atlântica. Dados disponíveis no data paper de Gonçalves et al. 2018 (Ecology). N = 2.350 observações de morcegos individuais.

Interpretação

Este tipo de gráfico nos permite ver claramente que foram amostradas mais fêmeas do que machos. Mais simples e direto, impossível. Em alguns casos, pode ser interessante tratar os locais de coleta separadamente. Isso permitiria analisar a variabilidade no número de fêmeas e machos. Para representar essa variabilidade, você poderia fazer barras com linhas verticais no topo, representando alguma medida de dispersão, como o desvio-padrão (dê uma olhada em um texto sobre isso).

6. Qual tipo de gráfico eu uso para visualizar contagens de duas ou mais variáveis categóricas ao mesmo tempo?

Pode ser, por exemplo, que você queira saber não apenas quantos machos e fêmeas foram amostrados, mas também como essas contagens se distribuem em função da idade. Aí precisamos incluir na nossa análise gráfica mais essa variável, fazendo agora um diagrama de barras agrupadas.

Quantidade de indivíduos machos e fêmeas, por classe de idade, em morcegos da espécie Carollia perspicillata amostrados em diversas localidades da Mata Atlântica. Dados disponíveis no data paper de Gonçalves et al. 2018 (Ecology). N = 2.350 observações de morcegos individuais.

Interpretação

Agora você consegue ver que, na amostra, além de haver mais morcegos fêmeas do que machos, há também mais adultos do que juvenis. Essa diferença entre fêmeas e machos fica clara na categoria dos adultos, mas não é possível avaliá-la direito na categoria dos juvenis. Isso porque há muito mais adultos do que juvenis e o gráfico foi feito com os números brutos plotados em um eixo comum.

7. Qual tipo de gráfico eu uso para visualizar porcentagens?

Há ainda outras análises gráficas que podemos fazer para apenas uma variável. Por exemplo, e se, ao invés de visualizar a contagem bruta de quantos morcegos fêmeas e machos eu tenho na minha amostra, eu quisesse dar uma olhada mais direta na proporção de machos e fêmeas?

Aí seria o caso de usar um diagrama de pizza, que é uma boa opção para ganhar um feeling sobre a contribuição relativa de cada categoria para o total da variável.

Proporção de indivíduos machos e fêmeas em morcegos da espécie Carollia perspicillata amostrados em diversas localidades da Mata Atlântica. Dados disponíveis no data paper de Gonçalves et al. 2018 (Ecology). N = 2.350 observações de morcegos individuais.

Interpretação

Este tipo de gráfico acaba sendo redundante com o diagrama de barras. Mas algumas pessoas preferem olhar os dados nesse formato, quando o foco está nas proporções e não nos números brutos. Vale avisar que há muito preconceito contra diagramas de pizza, mas em geral as pessoas repetem que eles são ruins sem nem saberem porquê. Quando a soma das proporções dá 1, pizzas não têm nada de errado. Lembre-se de que o objetivo de um gráfico é mostrar padrões, não detalhes.

8. Qual tipo de gráfico eu uso para visualizar porcentagens em duas ou mais variáveis categóricas ao mesmo tempo?

Neste caso, você precisa de um crossover entre tipos de gráficos. Imagine que você continua interessado em cruzar as informações sobre sexo e idade dos morcegos, como no diagrama de barras agrupadas. Mas você quer, além disso, enxergar a contagem de machos e fêmeas como proporções, igual no diagrama de pizza. Vamos então usar um diagrama de barras empilhadas para resolver o problema.

Proporções de indivíduos machos e fêmeas, por classe de idade, em morcegos da espécie Carollia perspicillata amostrados em diversas localidades da Mata Atlântica. Dados disponíveis no data paper de Gonçalves et al. 2018 (Ecology). N = 2.350 observações de morcegos individuais.

Interpretação

Lembra do diagrama de barras agrupadas? Nele não conseguíamos ver direito se a predominância das fêmeas sobre os machos observada nos adultos se mantinha nos juvenis. Agora fica mais claro que as fêmeas também são mais numerosas entre os juvenis, só que nem tanto quanto entre os adultos. Supondo que você quisesse testar essas diferenças com um qui-quadrado, por exemplo, este tipo de gráfico tornaria bem mais precisa a sua avaliação preliminar.

9. Qual tipo de gráfico eu uso para visualizar a relação entre uma variável contínua e outra categórica?

Vamos agora à relação entre duas variáveis. Comecemos pela relação entre a massa corporal, uma variável contínua, e o sexo, uma variável categórica. Representamos cada categoria de sexo separadamente no eixo X, enquanto a massa corporal fica no Y.

Apresentamos um resumo das observações feitas, usando medidas de tendência central, como a mediana, e medidas de dispersão, como os quartis (25% dos dados abaixo e 25% dos dados acima da mediana). Também destacamos os famosos “pontos fora da curva” (outliers, para os íntimos), que representam os casos extremos. Chamamos esse tipo de gráfico de diagrama de caixas, em português. Só que, na verdade, no dia a dia a gente usa mesmo é o termo em inglês: boxplot. Veja a seguir.

Diferença de massa corporal (g) entre machos e fêmeas de morcegos da espécie Carollia perspicillata amostrados em diversas localidades da Mata Atlântica. A linha mais escura no centro das caixas representa a mediana, o topo e o fundo das caixas representam os quartis, as linhas acima e abaixo das caixas representam os casos que correspondem a até 1,5 vezes o valor do intervalo das caixas. Os pontos avulsos representam os valores extremos, acima de 1,5 vezes o valor do intervalo das caixas. Dados disponíveis no data paper de Gonçalves et al. 2018 (Ecology). N = 2.350 observações de morcegos individuais.

Interpretação

Um boxplot é muito informativo. Você consegue checar não apenas se as categorias diferem entre si na mediana, mas também se as faixas de variação delas são similares, e se essas faixas estão fora uma uma da outra. Aqui vemos que muito provavelmente não há diferença significativa de massa entre os sexos, porque a mediana dessas categorias é bem similar. Além disso, a variação dos machos está contida dentro da variação das fêmeas.

Observação 3: há alguma controvérsia quanto a usar diagramas de caixas, barras ou pontos quando se tem um eixo X categórico e um eixo Y contínuo. Cada cientista tem a sua preferência nessa questão e alguns têm opiniões bem fortes. Veja uma interessante discussão sobre o tema. O importante é saber que quase sempre há mais de uma solução para o mesmo problema, então mantenha a sua mente aberta e não siga dogmas cegamente. Adendo: por falar em abrir a mente, o Pavel Dodonov fez um comentário assim que este post saiu, dando dicas sobre alternativas aos boxplots no blog dele (com direito a códigos!).

10. Qual tipo de gráfico eu uso para visualizar a relação entre duas variáveis contínuas?

E se você quiser checar a relação entre a massa corporal, uma variável contínua, e o comprimento do antebraço, outra variável contínua? Neste caso, tanto o eixo X, quanto o Y, devem ter valores contínuos.

Cada combinação de um valor de X com um valor Y foi observada em um morcego individual medido em campo. E cada uma dessas observações é representada como um ponto no gráfico. Vejamos isso na figura abaixo. Aqui usamos um diagrama de dispersão ou scatterplot (ambos os termos são de uso comum), o tipo clássico usado em análises de correlação e regressão. Também costuma ser chamado de diagrama de pontos.

Relação entre o comprimento do antebraço (mm) e a massa corporal (g) de morcegos da espécie Carollia perspicillata em diversas localidades da Mata Atlântica. A linha representa a tendência calculada por um modelo linear. Os pontos são semi-transparentes, então áreas mais escuras representam concentração de pontos. Dados disponíveis no data paper de Gonçalves et al. 2018 (Ecology). N = 2.011 observações de morcegos individuais que tiveram seu antebraço medido.

Interpretação

Nada é melhor para examinar a relação entre duas variáveis contínuas do que um diagrama de dispersão. Aqui vemos que a massa claramente aumenta com o antebraço, ou seja, há uma relação positiva entre as variáveis. Em bom português, quanto mais comprido o morcego, mais gordo ele é. Essa relação não parece ser muito forte, porque a inclinação da reta (coeficiente angular) não é muito acentuada. Também dá para ver que os pontos estão muito dispersos ao longo da reta (coeficiente de correlação), provavelmente significando que ela não explica tão bem a relação entre comprimento e massa. Outra possibilidade valiosa é medir a distância entre cada ponto e a reta de tendência, conhecida como desvio. Por exemplo, um morcego representado acima da reta estava mais gordo do que se esperaria com base em seu comprimento.

11. Qual tipo de gráfico eu uso para visualizar como uma variável contínua muda no tempo?

Neste caso, o mais comum é usar algum tipo de diagrama de linhas, com o eixo X representando o tempo. A escala de tempo depende da sua pergunta, como tudo em uma pesquisa. Vale lembrar que o tempo pode ser representado como uma variável discreta (por exemplo, anos) ou contínua (por exemplo, horas), dependendo do caso. Por exemplo, será que os morcegos ficaram mais gordos ou mais magros ao longo dos anos? Vou analisar apenas os dados de 1997 a 2001, que representam uma sequência contínua.

Variação anual na massa corporal (g) de morcegos da espécie Carollia perspicillata amostrados em diversas localidades da Mata Atlântica de 1997 a 2001. Dados disponíveis no data paper de Gonçalves et al. 2018 (Ecology). N = 2.253 observações de morcegos individuais.

Interpretação

Linhas permitem acompanhar com clareza tendências ao longo do tempo. Neste caso, a massa dos morcegos varia entre os anos, ora subindo, ora descendo. Mas, se olhamos para a escala do eixo Y, vemos que a faixa de variação não é assim tão grande. Então resta saber se essa pequena variação tem algum significado biológico concreto para os morcegos analisados. Neste caso específico, o gráfico foi feito apenas com as médias. É possível fazer outras versões mais informativas deste mesmo gráfico incluindo medidas de dispersão para cada ano, como barras em torno de cada ponto representando o desvio-padrão.

12. Qual tipo de gráfico eu uso para visualizar pares de observações?

Em alguns estudos, fazemos um delineamento amostral pareado. Ou seja, as amostras que representam uma variável de interesse são coletadas em pares. Esses pares, na verdade, representam duas categorias de interesse. O objetivo então é comparar essas categorias. É uma forma muito elegante de, em experimentos, controlar outros fatores que provocam variações nos dados, gerando confusão.

Isso poderia ser útil, por exemplo, se quiséssemos comparar a massa corporal de machos e fêmeas, mas testando se as diferenças são constantes ao longo dos anos. Ou seja, independente de qual sexo pesa mais, será que a diferença é sempre a mesma no tempo? Pode ser que algum fator varie entre os anos e provoque inversões na tendência geral. Vamos usar um diagrama pareado neste caso.

Diferença entre anos (linhas) na massa corporal (g) de machos e fêmeas de morcegos da espécie Carollia perspicillata amostrados em diversas localidades da Mata Atlântica. Dados disponíveis no data paper de Gonçalves et al. 2018 (Ecology). N = 2.350 observações de morcegos individuais.

Interpretação

Nessas linhas pareadas, vemos que em alguns anos as fêmeas era mais pesadas, enquanto nos outros os machos é que pesavam mais. Além disso, dá para ver que a massa dos machos varia menos do que a das fêmeas, se considerarmos os máximos e mínimos no eixo Y.

13. Qual tipo de gráfico eu uso para visualizar a probabilidade de observar um resultado binário?

Essa é uma situação típica de lutas e jogos em geral. Por exemplo, se eu observasse dois morcegos brigando, será que eu conseguiria prever qual seria o vencedor com base no tamanho dele? Poderíamos supor que, abaixo de um certo valor crítico de massa corporal, um morcego teria maior probabilidade de perder uma briga. Mas acima desse valor, a chance de vitória começaria a ficar maior do que a chance de derrota.

Ok, muito legal, mas infelizmente não tenho dados de brigas em morcegos. Voltemos então ao banco de dados que estamos usando neste tutorial. Nele há dados sobre o estado reprodutivo das fêmeas. Elas foram classificadas em grávidas ou inativas, uma variável binária. Seria possível então prever se uma fêmea estaria grávida ou não com base na massa corporal dela? Este caso pede um diagrama logístico.

Relação (curva) entre a massa corporal (g) de uma fêmea e a probabilidade de ela estar grávida (1) ou inativa (0), em morcegos da espécie Carollia perspicillata em diversas localidades da Mata Atlântica. Dados disponíveis no data paper de Gonçalves et al. 2018 (Ecology). Os pontos são semi-transparentes, então áreas mais escuras representam concentração de pontos.. N = 1.318 observações de morcegos individuais fêmeas.

Interpretação

Diagramas logísticos são muito informativos! Olhe para a linha tracejada que parte do valor 0.5 no eixo Y. Veja que a curva de tendência cruza essa linha em um ponto. Agora imagine uma outra linha partindo desse cruzamento até o eixo X. Ali temos um limiar ou valor crítico! Esse valor indica que, mais ou menos a partir de 20 g, a fêmea começa a ter uma maior probabilidade de estar grávida do que inativa. Como a curva de tendência forma um S bem acentuado, então provavelmente essa relação é significativa. Também é possível ter uma noção do quanto o aumento de 1 unidade no eixo X provoca de variação na probabilidade em Y.

14. Qual tipo de gráfico eu uso para visualizar onde as minhas amostras se localizam no espaço?

Neste caso, precisamos de um outro tipo de gráfico totalmente diferente. Sim, precisamos de um mapa. Um bom mapa deve, no mínimo, informar a grade de coordenadas e dizer com base em qual projeção geográfica (UTM, lat-long etc.) ela foi feita. Além disso, ele deve indicar para onde aponta o norte e incluir uma barra de escala.

Vamos então ver de quais locais vieram os morcegos analisados nos gráficos anteriores.

Localização (em graus decimais) dos locais (pontos vermelhos) onde morcegos da espécie Carollia perspicillata foram amostrados no Brasil. Dados disponíveis no data paper de Gonçalves et al. 2018 (Ecology).

Interpretação

Mapas devem ser um dos primeiros tipos de gráficos que fazemos, quando realizamos projetos que envolvem o espaço como uma variável. Notem nesse mapa que os morcegos que eu coletei ficam concentrados na região sudeste. No data paper original, há dados para a toda a Mata Atlântica, mas que foram coletados por outros colegas. Há muitas possibilidade em mapas. Seria possível, por exemplo, ao invés de usar um contorno do Brasil como fundo, usar um mapa com os tipos de Mata Atlântica e outras vegetações que ocorrem na região amostrada. E seria interessante focar os limites do mapa ao redor dos pontos amostrados, para mostrar o contexto que realmente interessa.

Observação 4: por falar em mapas, leia um outro post, se você quiser saber como desenhar um mapa no R. De qualquer forma, hoje você pode fazer um mapa simples, ou até mesmo com camadas de imagens de satélite, entrando os dados no Google My Maps (não é o Google Maps comum, que usamos no celular).

15. Qual tipo de gráfico eu uso para visualizar conexões entre elementos no meu conjunto de dados?

Agora chegamos ao meu tipo favorito de gráfico: o grafo.

Mas, como assim, Marco?“. Pois é, esse nome é estranho mesmo. Chamamos de grafo os diagramas que representam redes. Se você quiser saber mais sobre redes, dê uma olhada aqui. Uma rede é um sistema formado por elementos e conexões entre esses elementos.

Aqui no banco de dados que estamos usando como modelo, poderíamos construir uma rede feita de espécies e anos. As conexões seriam determinadas pela quantidade de capturas de uma dada espécie em um dado ano. Assim, poderíamos saber se pegamos todas as espécies todo ano, ou se os registros variam no tempo.

Agora então não estamos mais trabalhando apenas com aquela espécie simpática dos outros exemplos, mas com todas as espécies de morcegos do banco de dados. Vamos ver como fica o grafo.

Rede formada por 98 espécies de morcegos (pontos pretos) e 39 anos (pontos cinza) em que elas foram capturadas (linhas) em diversas localidades da Mata Atlântica. A espessura de cada linha é proporcional ao número de capturas da espécie naquele ano. Os nomes científicos das espécies foram abreviados usando as três primeiras letras do gênero e do epíteto. Dados disponíveis no data paper de Gonçalves et al. 2018 (Ecology). Clique no grafo para vê-lo aumentado em outra janela.

Interpretação

Há várias formas de desenhar grafos. Esta forma usada aqui é conhecida como diagrama de cordas ou grafo circular. Note que tanto a quantidade de capturas, quanto a riqueza de espécies, foram aumentado ao longo dos anos, conforme mais gente passou a estudar morcegos na Mata Atlântica. Note também que, dentre os anos com amostragem mais intensa, alguns resultaram em registros de mais espécies do que outros. Por fim, algumas espécies apareceram em um ou poucos anos, sendo portanto mais raras do que outras. “Carper” (Carollia perspicillata), a protagonista do nosso tutorial, foi de longe a espécie capturada em mais anos e em maior quantidade. Os morcegos e os anos estão em ordem alfabética no sentido anti-horário.

Resumo da ópera

Neste tutorial, você viu os tipos de gráficos mais comuns que usamos no dia a dia da ciência. São gráficos comuns a diferentes disciplinas, formando uma verdadeira lingua franca visual. Naturalmente, existem muitos outros tipos de gráficos, mas você pode estudá-los por conta própria, dependendo das suas necessidades pessoais.

Aliás, recomendo fortemente que você estude visualização de dados, caso queira seguir alguma carreira acadêmica ou não-acadêmica relacionada a ciência, tecnologia, engenharia ou matemática (STEM). Há cursos excelentes em plataformas educacionais online, como Coursera, Udemy e Alura.

Que tal fazermos uma síntese dos tipos de gráficos mostrados aqui, usando para isso um novo tipo? Esta é a deixa para a nossa grande estrela: o mapa mental!

Observação 5: se você quiser saber mais sobre mapas mentais, leia este outro post.

Clique na imagem para ver o mapa ampliado em outra aba.

Algumas perguntas que podem surgir na sua cabeça

1. Como o Marco desenhou esses gráficos?

Desenhei-os usando a linguagem de programação R. Os códigos e os dados já filtrados usados neste tutorial estão disponíveis em um repositório de GitHub para quem quiser brincar com eles. Isso significa que esses gráficos só podem ser plotados no R? Não! Dá para fazer os gráficos usados como exemplo aqui de diversas maneiras em diversos programas, inclusive em outras linguagens de programação, como Python e Matlab, em pacotes estatísticos fechados, como SPSS e BioEstat, ou até mesmo em editores de planilhas, como Excel e Calc.

2. Por que é vantajoso fazer gráficos por programação e não usando pacotes estatísticos fechados?

Por causa das razões explicadas nesse outro post.

3. Não dava para colocar uma corzinha nesses gráficos?

A preferência pelos tons de cinza eu expliquei em um post mais antigo.

4. Só há esses tipos de gráficos?

De forma alguma! Aqui foquei em explicar os tipos mais comuns, mas não há limites no mundo dos gráficos. Na verdade, o limite é apenas a sua imaginação.

5. E se eu quiser misturar os tipos?

Dou a maior força! Como eu disse, a sua imaginação é o limite. Veja neste post um crossover entre diagrama logístico e histograma. Se quiser pensar ainda mais fora da caixinha, que tal fazer um pirate plot? Se quiser pirar de vez com tipos de gráficos nunca antes vistos, dê uma olhada no Dat Viz Project.

Para saber mais

  1. Data Viz Project: https://datavizproject.com
  2. From Data to Viz: https://www.data-to-viz.com/
  3. The R Graph Gallery: https://www.r-graph-gallery.com

Aviso:

Eu sou biólogo, não estatístico. Portanto, posso estar errado em um ou mais pontos abordados neste texto. Minha intenção é apenas ajudar colegas menos experientes a darem seus primeiros passos no tema. Nada substitui ler livros especializados e fazer cursos com profissionais da área.

(Fonte da imagem destacada)

19 respostas para “Qual gráfico devo fazer?”

  1. Este post vai ser leitura obrigatória nas minhas aulas de estatística 🙂 Obrigado por escrever ele!
    Aproveito pra fazer propaganda (haha) de coisas que escrevi:
    – Este post discutindo desvantanges de boxplots e explorando mais os jitters e os bean plots: https://anotherecoblog.wordpress.com/2016/11/14/nao-gosto-de-boxplots-prontofalei/
    – Este post falando sobre gŕaficos de bolha, no caso usando eles para falar de Dragonball: https://anotherecoblog.wordpress.com/2019/01/04/dragonball-em-graficos-coloridos/
    – Este sobre gráficos de barra em R: https://anotherecoblog.wordpress.com/2017/07/06/graficos-de-barras-e-um-pouco-de-anova-em-r/
    – E este sobre juntar gráficos em R: https://anotherecoblog.wordpress.com/2018/12/13/juntando-graficos-em-r/

    Curtir

    1. Marco, esse post ficou simplesmente sensacional!
      Também será leitura obrigatória nas minhas aulas (quando um dia eu for professora!). E esses textos que o Pavito mencionou são super úteis também. Utilizei diversos posts do anotherecoblog na disciplina de modelos estatísticos em Ecologia que ministrei ano passado!

      abraços

      Curtido por 1 pessoa

  2. Adorei o post! Sempre com orientações e reflexões excelentes. Uma dúvida que persiste: só devo plotar gráficos com variáveis que foram significativas? Se nada foi significativo, não devo plotar gráficos? E se foi quase significativo (ex. p = 0.06)?

    Curtir

    1. Obrigado, Verônica! Excelente pergunta. Eu sugiro sempre fazer um gráfico antes de rodar qualquer teste formal.

      Quanto ao que você inclui em um artigo, sou a favor de incluir gráficos de todos os resultados-chave que sustentam o argumento central apresentado, independentemente de os respectivos testes terem dado significativos ou não. O gráfico é muito mais ilustrativo por si mesmo do que qualquer valor numérico isolado. Há uma certa tendência, no caso específico dos diagramas de dispersão, de só desenhar a linha de tendência quando o teste dá significativo. Mas isso é arbitrário.

      Na verdade, esse foco exagerado no valor de P, ainda mais considerando esse limite arbitrário universal de 0.05 (algumas áreas adotam outros limites), não faz sentido algum e já está sendo questionado amplamente. Para interpretar uma análise estatística, precisamos examinar um corpo de evidências constituído pelo gráfico, valor de P, graus de liberdade, tamanho do efeito e poder estatístico.

      Curtir

    2. Complementando… Eu recomendo sim fazer gráficos independentemente da relação ter sido significativa ou não, por causa do que Marco falou e também porque pode ser que a pessoa que esteja lendo seu trabalho não concorde com sua análise (e pode ser que essa pessoa esteja certa haha). Se houver um gráfico, ela mesma poderá julgar se os resultados que você apresenta fazem sentido ou não.
      Sobre linhas de tendência, eu gosto de colocar ela sempre mas indicar se foi significativa ou não: por exemplo, coloco uma linha preta contínua se for significativo, uma linha cinza contínua se foi marginalmente significativo (sim, faz sentido falar em “marginalmente significativo” – p-valores são algo contínuo, sua interpretação também pode ser) e uma linha cinza quebrada se não for significativo.

      Curtir

Deixe um comentário

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.