Como organizar uma planilha de dados

(Ou como não deixar tudo para o futuro-eu)

Por Alexandre Palaoro*

Uma mão encontra-se perto do rosto e a outra repousa sobre o teclado. Um dedão escora o rosto, apoiando-se na mandíbula, os outros dois dedos cobrem a boca, enquanto os dois últimos descansam sobre o queixo. Apesar de a tela do computador piscar na cara, o olhar é distante; como se atravessasse o monitor e enxergasse o que tem por dentro. Ao lado do teclado, o café esfria; nada parece importar naquele instante no espaço-tempo. O mundo segura a respiração enquanto o cérebro trabalha, reativando sinapses há muito não usadas. De repente, o mundo respira. Os olhos focam no monitor. As mãos saem do repouso e começam a digitar. E a apagar. Os olhos não acreditam. As sobrancelhas caem, parecendo prontas para desistir. Os lábios ecoam o que as sobrancelhas demonstram: “mas o que diabos eu fiz aqui? Por que eu tenho que mexer nessa planilha antiga mesmo? Por que eu tinha que deixar isso para o futuro-eu?”.

simple-rpg-dice-3d-model-low-poly-obj.png
Nada como dados bem organizados! Fonte da imagem.

Quem nunca se frustrou ao tentar mexer em uma planilha de dados antiga? Ou na planilha de dados de outra pessoa? É sempre a mesma coisa: “O que significa essa coluna? Por que nesta há mais linhas do que na outra, se ambas as planilhas vieram do mesmo lugar? Em qual dessas 15 planilhas eu anotei a identificação dos bichos?” Essa é uma lista muito sucinta dos dilemas que já enfrentei nesse tipo de situação. Não dá nem para imaginar o universo de dilemas potenciais.

O fato é que nós, biólogos, geramos imensas quantidades de dados diariamente nos nossos laboratórios e no campo, mas somos péssimos em armazená-los e organizá-los. Nós simplesmente não recebemos treinamento adequado para isso. Depois de passar alguns dias me frustrando enquanto mexia novamente nas planilhas do meu projeto de iniciação científica, parei para pensar no que eu gostaria de saber naquela época para evitar essas frustações. Ou seja, como eu poderia facilitar a vida do meu futuro-eu (que agora sou eu, rs).

Este post, na verdade, não é sobre ciência de dados (data science, em inglês). Não falarei sobre curadoria de dados: como funcionam, onde vivem e do que se alimentam. Não usarei nenhuma palavra-chave como esquemas, redundâncias, caminhos lógicos etc. Tampouco direi que o Excel não é o programa mais recomendado para armazenamento e curadoria de dados. Meu objetivo aqui é falar sobre o que eu gostaria de ter sabido na minha iniciação científica. Portanto, elaborei um guia para iniciantes. Este guia não começa pelo mais complexo e sim pelo mais simples. Usarei o Excel como base e chafurdarei nas redundâncias. Abaixo, você encontrará os cinco mandamentos do armazenamento de dados.

Disclaimer: antes de começar, preciso prestar um esclarecimento: data science é um ramo em franca expansão no mercado profissional e que merece ser estudado muito além do que abordo aqui. Para você que pensa que talvez a academia não seja o seu caminho, a ciência dos dados é uma bela alternativa. Quase toda empresa precisa armazenar algum tipo de dados sobre seus clientes (e cruzá-los também). Para isso as empresas necessitam de cientistas de dados. Vale a pena conferir. Portanto, a ciência de dados é uma das habilidades profissionais que aprendemos na pós-graduação (bem mais ou menos) que é valorizada no mundo fora da academia e que pode ser colocada no currículo (favor não me enviar convites do LinkedIn). No fim desse post, deixei alguns links interessantes.

1. Não usarás o formato padrão do Excel

Esqueça o formato cru do Excel ao qual você provavelmente está acostumado (Fig. 1). Ele só gera ódio, caos e confusão.

figura 1
Fig 1. O terror de toda pessoa que precisa analisar dados alheios: uma planilha mal feita em formato Excel.

Tente responder as seguintes perguntas:

  1. O que são os tratamentos 1 e 2?
  2. O que é a coluna A? Plots? Réplicas?
  3. E os valores dos tratamentos, o que significam?

Qualquer um que abriu uma planilha nesse formato com certeza teve um flashback desagradável. Viveu dias de angústia e tristeza por não saber de onde vieram aqueles pontos no mapa. Desculpe, mas mostrar essa planilha é um mal necessário para demonstrar o quanto esse formato é pavoroso.

Admito que é fácil de visualizar que a média do tratamento 1 é maior que a do tratamento 2. Mas isso não é função de uma planilha de armazenamento de dados. Analisar dados é função da estatística descritiva (médias, desvios, gráficos, tabelas) e quantitativa (testes estatísticos), e não de uma adorável planilha de dados.

2. Usarás o formato “uma variável por coluna, uma medida por linha”

Para armazenar dados, você precisa que a planilha seja tão detalhada e didática quanto possível. Por isso, o primeiro passo é ter um cabeçalho com nomes informativos. Evite utilizar letras maiúsculas, caracteres especiais (acentos, barras, vírgulas, cedilha) e siglas. Sempre evite espaços. Ao invés disso, use  underline (vulgo traço embaixo) ou hífen. Isso porque os programas de estatística mais usados são baseados em linhas de comando e não lidam bem com espaços e caracteres especiais.

Se alguma coisa é muito comum na sua área e você quer muito usar uma sigla para poder visualizar mais facilmente os dados (ou satisfazer uma mania sua), não tem problema. Basta adicionar uma aba na planilha explicando o que é cada coluna e o seu problema estará resolvido. Essa é a hora de você colocar a unidade em que suas medidas foram tomadas (e caso elas não tenham medida, o porquê disso). Essas informações adicionais se chamam metadados. A sua tabela, os seus colaboradores e o seu futuro-eu vão amá-lo por isso (item 4)!

Ok, agora que sabemos algumas regras básicas, podemos falar da tabela em si. “Uma variável por coluna e uma medida por linha” significa que o tipo de tratamento, as diferentes áreas, os meses do ano e demais fatores todos virarão colunas.

“Mas Alexandre, a minha tabela vai ficar enorme desse jeito!”

Sim, vai. Mas isso não tem problema (juro!).

Para contextualizar, veja a planilha de iniciação científica de um aluno meu, fruto de um experimento comportamental em que foram testados 30 machos e 30 fêmeas de uma mesma espécie. Ela tem 720 linhas no Excel (item 2). E ninguém nunca reclamou de informações escondidas. Até encontramos alguns erros de digitação por conta da redundância. Por isso, não tenha medo do tamanho da tabela! O importante é sempre lembrar que essa tabela original não será usada ns análises. Ela será usada apenas para armazenar os dados.

Como exercício, arrumei a Fig. 1 utilizando o mandamento “uma variável por coluna, uma medida por linha”. Olha só como ela ficou:

figura 2
Fig 2. Uma tabela corretamente formatada traz paz ao coração de qualquer cientista. Salve o formato “variável-coluna, medida-linha”!

Esses são os mesmos dados da Fig. 1, mas agora no formato “variável-coluna, medida-linha”. Esse formato também é conhecido como matriz vertical ou array. Trata-se de um tipo de data frame.

Tente novamente responder as mesmas perguntas do mandamento 1 (sem pressão):

  1. O que são os tratamentos 1 e 2?
  2. O que é a coluna A? Plots? Réplicas?
  3. E os valores dos tratamentos, o que significam?

Pense que qualquer pessoa que pegar essa planilha, e possuir um mínimo de know-how científico, entenderá a informação contida ali.

“Mas, Alexandre, meus dados são muito mais complexos do que isso. Tenho plots aninhados, com vários fatores dependentes coletados em várias localidades. Até parece a trama de uma novela do SBT.”

Sim, planilhas de dados podem ficar muito complicadas. A única solução para isso (e até para a vida) é sentar e pensar.

Quais são as variáveis que você coletou? Mesmo aquelas que estão apenas relacionadas aos dados. Localidade, espécie, indivíduo, número do plot. Todas essas variáveis podem informar algo sobre a variável de interesse, mas não necessariamente serão analisadas. Elas podem ser unicamente uma forma de você conseguir localizar ou organizar melhor as informações.

Para vocês terem uma ideia, aqui está um print da planilha de dados de um aluno de iniciação meu (que agora está no mestrado; Fig. 3).

figura 3a

figura 3b
Fig 3. A imensidão de uma tabela. Um experimento de iniciação que resultou em 22 colunas e 720 linhas.

ID é a identificação do indivíduo utilizado nos experimentos. Essa identificação não será útil para analisar os dados. Porém, ela nos indica a qual dos indivíduos armazenados no laboratório estamos nos referindo. Isso facilita a vida, caso alguém queira conferir qualquer informação específica, até mesmo para testar a qualidade dos dados. Todas as outras variáveis estão ligadas a esse indivíduo: sexo, comprimento de estruturas, de qual lado do indivíduo estamos falando, se ele foi submetido ao tratamento de fluxo ou não. Observem que algumas informações se repetem. Comprimento do cefalotórax, por exemplo, se repete três vezes: o indivíduo só tem um corpo, mas medimos três pernas; então essa medida tem que ser repetida (6 vezes no total, três para cada lado).

“Mas, Alexandre, isso cria muita redundância e fica difícil de analisar”.

Concordo que a redundância pode ser melhorada, mas a parte de ‘ser difícil de analisar’ não é o objetivo dessa planilha. Ela armazena informações, mas não as analisa.

Para os procedimentos de reformatação (data reshaping), nós escrevemos um código na linguagem R que organiza a tabela para que possamos analisar os dados. Então, quando precisamos checar algo, é só rodar os comandos no R e ~voilá~, a análise pode ser feita. Dá mais trabalho? Pode ser que sim, mas a praticidade e acessibilidade agora e no futuro (próximo ou longe) valem a pena.

Como disse no início do post, há formas melhores, mais organizadas, com menos repetições de dados e que diminuem as chances de erro (e que não usam o Excel também). Caso isso interesse a você, veja os links no final do item 5.

3. Manterás a planilha com os dados brutos e não alterarás esses dados

É essencial manter um arquivo com todos os dados sem alterações, com informações detalhadas. Sim, você fará alterações para rodas análises, desenhar gráficos e tudo mais. Mas, novamente, isso não é feito na planilha-mestra.

Ela será sua linha guia durante todo o trabalho. Em caso de problemas, você sempre poderá recuperar os dados brutos. Se você fizer qualquer alteração nessa planilha, mantenha uma cópia intacta, documente a alteração e coloque a informação nos metadados.

4. Manterás um arquivo explicando o que é cada variável (os metadados)

Você pode até usar nomes abreviados no cabeçalho das colunas. Contudo, você não pode esperar que todos saibam, nem mesmo você após alguns anos, o que aquela sigla quer dizer (Fig. 4).

figura 4
Fig 4. Quê?! Nenhuma confusão aconteceria se essa planilha tivesse uma aba adicional para explicar o que é cada coluna.

5. Estudarás curadoria de dados

Isso não é tanto um mandamento, mas um conselho. O mercado acadêmico está inchado e empregos não são fáceis de encontrar. Além disso, a academia não é um caminho adequado para qualquer pessoa (a ciência é mesmo o seu ikigai?). Por isso, olhem com carinho para a curadoria de dados. Data science é um mercado de trabalho fora da academia que está recebendo muita atenção ultimamente.

Para estudar mais:

  1. Post fantástico no blog Dynamic Ecology, que explica muito sobre a ciência de dados de forma aprofundada: https://dynamicecology.wordpress.com/2016/08/22/ten-commandments-for-good-data-management/
  2. Post no blog do Pavel Dodonov sobre como transformar uma planilha de armazenamento em um planilha de análise no R: Organizando dados: de dados brutos a dados para análise, em R
  3. Post no blog Dynamic Ecology sobre como digitalizar a coleta de dados no campo: https://dynamicecology.wordpress.com/2018/07/03/guest-post-ipads-and-digital-data-collection-in-the-field/
  4. O que é data science? (Wikipedia): https://en.wikipedia.org/wiki/Data_science
  5. Artigo no Bulletin da Sociedade de Ecologia da América sobre curadoria dos dados: http://onlinelibrary.wiley.com/doi/10.1890/0012-9623-90.2.205/abstract
  6. Livro sobre ciência de dados na linguagem R: http://r4ds.had.co.nz
  7. Caio Gomes, um cientista que abandonou a academia e tem uma carreira de sucesso na ciência de dados: https://twitter.com/caiocgomes

 

* Texto escrito a convite. O autor é postdoc do Departamento de Ecologia da Universidade de São Paulo. 

 

UPDATE:

Nos comentários, o leitor Mario deu sugestões de mais alguns “mandamentos” para curadoria de dados. Para deixar o texto mais completo, vou adicioná-las aqui no corpo do texto. Vou adicioná-las seguindo a ordem do texto acima para ficar mais fácil. Obrigado pelo comentário, Mario!

6. Nomearás a planilha-mestre (e todas as subsequentes alterações) com nomes descritivos

Enquanto você está mexendo na planilha diariamente, está tudo certo. Mas, depois de um mês, já tentou encontrar a planilha certa no meio de outras dez? Então utilize nomes descritivos. Particularmente, eu nomeio a planilha-mestra com o nome do experimento e a data da última inserção de dados: “PlanilhaMestra-ValordeRecurso-Anemonas-22-06-15.xlsx”. Após isso, todas as alterações são salvas com a data (e sem o nome planilha-mestra). A planilha utilizada nas análises do paper ficam com o nome “final”.

7. Farás cópias das planilhas em diversos lugares

“…não é se o computador vai falhar, é quando. Pen drive e hd externo não devem ser considerados como backups confiáveis. O backup deve ser tão automático quanto possível, preferencialmente usando algo como Dropbox, Google Drive, One Drive ou similares.”

“[Deixe para] guardar as músicas e filmes (todos baixados legalmente, claro) fora da pasta de backup. Se necessário você consegue recuperar estes depois, não seus dados.”

8. Fotografarás qualquer coisa anotada em papel e guardarás junto com os dados

Cadernos de laboratório, de campo, e dados anotadas no papel (mesmo que sejam só observações interessantes) devem ser fotografados, usar um nome como descrito no item 6 e armazenado junto com todos os outros erros. Caso a letra de vocês seja tão boa quanto a minha (#sarcasmo), sugiro transcrever alguns trechos e armazenar juntamente com a foto. Isso ajuda muito a recuperar possíveis erros.

9. Não confiarás na tua memória

“Nunca, sob hipótese nenhuma, confie na sua memória de que vai saber do que se trata.”

Na maior parte dos casos, você não lembrará. A memória, nesse caso, pode ser sua grande inimiga.

10. Anotarás informações de delineamento amostral/experimental

“A folha com os metadados é um ótimo local para incluir informações do delineamento experimental, datas de atividades, etc…. algo como o Onenote ou Evernote [Google Keep] também são ferramentas muito boas para isto…”

E facilitam as pesquisas posteriores.

“Mas, Alexandre, por que eu vou me dar o trabalho de fazer isso? É muita coisa!”

Caso você precise de um incentivo maior para começar a ser bem organizado, algumas revistas na ecologia estão publicando data papers. É uma prática já conhecida em outras áreas da ciência, mas na ecologia é relativamente decente. Se os seus dados estiverem organizados, além dos papers principais, você pode publicar um data paper e ganhar uma citação toda vez que alguém utilizar os seus dados.

Anúncios

11 respostas para “Como organizar uma planilha de dados”

    1. Belo complemento Pavel! Encaixa muito bem com o objetivo do post. Obrigado por enviar porque será muito útil para quem quiser brincar com banco de dados.
      Abração

  1. Parabéns pelo post, Alexandre! Precisamos falar mais sobre esse tema mesmo!
    Ano passado tivemos a oportunidade de evoluir muito nisso com a iniciativa ATLANTIC. Até 2016 eu não sabia o que era metadata/metadados rs! E hoje vejo o quanto isso facilita a vida e a colaboração científica.
    Acho que a coisa mais perigosa de trabalhar em dados sem metadados é “inferir” que uma coisa é o que achamos que é. Isso pode levar a grandes enganos e é facilmente resolvido com os metadados e boa comunicação 🙂

    abraços pra vcs Alexandre e Marco!

    1. Muito obrigado, Renata!
      Além de falarmos mais, precisamos de um treinamento melhor. Os metadados são essenciais para uma comunicação efetiva. Qualquer um que trabalhou com meta-análise tem esse mesmo sentimento. Quantos papers que não podem se usados porque você não tem como “inferir” o que é o que. Penso que repositórios online, como o dryad, deveriam ter um formulário só para isso; só isso já garantiria a reprodução dos dados em outros papers.

      Enfim, concordo que precisamos discutir mais sobre isso.

      Obrigado pelo comentário.
      Abração 😀

  2. Marco, como alguém que já sofreu deste mal de adivinhar o que quer dizer a planilha, gostaria de acrescentar os seguintes pontos:
    1 – usar nomes descritivos para o arquivo, para ter uma chance de achar depois… depois que você vê 10 planilhas Planilha1.xlsx descobrir o que é cada uma é quase impossível
    2 – backup, backup, backup… não é se o computador vai falhar, é quando. Pen drive e hd externo não devem ser considerados como backups confiáveis. O backup deve ser tão automático quanto possível, preferencialmente usando algo como dropbox, google drive, one drive ou similares sendo a sua pasta básica de dados (para evitar a limitação de tamanho, guardar as músicas e filmes (todos baixados legalmente, claro) fora da pasta de backup. Se necessário você consegue recuperar estes depois, não seus dados
    3 – organizar as pastas do computador aumenta a chance de descobrir do que se trata
    4 – se usar papel para alguma coisa, em alguma fase, uma foto legível na hora que acabar de escrever, com nome descritivo, e armazenada mesmo depois de passar para o computador ajuda muito a recuperar possíveis erros dos dados
    5 – nunca, sob hipótese nenhuma, confie na sua memória de que vai saber do que se trata
    6 – a folha com os metadados é um ótimo local para incluir informações do delineamento experimental, datas de atividades, etc…. algo como o onenote ou evernote também são ferramentas muito boas para isto, e podem ser usadas também para as fotos do experimento, etc, ficarem todas bem convenientes para consulta posterior
    Muito obrigado pelos textos, costumo mandar para meus orientados verem que não é somente o orientador velho torrando o saco deles…
    Mario

    1. Mario, concordo com todos teus pontos em gênero, número e grau!
      Controle de versão, backups e de pastas são fundamentais para saber o que está acontecendo. Confiar na memória então nem se fala: a memória é uma inimiga, ela não ajuda em nada nesse caso ahahahah.

      Vou fazer uma edição no texto para adicionar esses teus pontos para deixar o texto mais completo.

      Obrigadão mesmo pelo comentário!

Deixe um comentário

Faça o login usando um destes métodos para comentar:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.